13

मैं पाइथन के साथ एक ओसीआर प्रोग्राम को कार्यान्वित करने का प्रयास कर रहा हूं जो विशिष्ट प्रारूप, XXX-XXX के साथ संख्याओं को पढ़ता है। मैंने Google की क्लाउड विजन API टेक्स्ट पहचान का उपयोग किया, लेकिन परिणाम अविश्वसनीय थे। 30 उच्च-विपरीत 1280 x 1024 बीएमपी छवियों में से, केवल एक मुट्ठी भर सही आउटपुट में परिणामस्वरूप, या कम से कम परिणामों में सही आउटपुट शामिल किया गया। कार्यक्रम कुछ संख्याओं को छोड़ देता है, गैर-अंग्रेजी भाषाओं में आउटपुट या कुछ विशेष पात्रों में छेड़छाड़ करता है।Google क्लाउड विजन - संख्याएं और अंक OCR

लक्ष्य कम से कम सही संख्याओं को कम से कम आउटपुट करना है, इससे कोई फर्क नहीं पड़ता कि परिणाम अन्य जंक के साथ छिड़के जाते हैं। प्रोग्राम को संख्याओं को बेहतर पहचानने में मदद करने का कोई तरीका है, उदाहरण के लिए परिणामों को किसी विशिष्ट प्रारूप में सीमित करें, या केवल संख्याओं तक सीमित करें?

उत्तर

4

इस समय here (क्लाउड विजन एपीआई के प्रोजेक्ट मैनेजर द्वारा) के अनुसार बाधाओं को जोड़ने या विजन एपीआई अनुरोधों के लिए एक विशिष्ट अपेक्षित संख्या प्रारूप देने के लिए संभव नहीं है।

तुम भी (API reference में) सभी संभव अनुरोध पैरामीटर जांच कर सकते हैं, कोई भी कुछ भी संकेत संख्या स्वरूप निर्दिष्ट करने के लिए। वर्तमान में करने के लिए केवल विकल्प:

  • latLongRect: मुझे लगता है आप पहले से ही कई की जाँच की text_detection के लिए उम्मीद भाषा

(समर्थित भाषाओं here की सूची) का संकेत: छवि

  • languageHints का स्थान निर्दिष्ट (विभिन्न शामिल छवि क्षेत्रों के साथ) प्रतिक्रियाओं यदि आप अलग अलग अंक के स्थान का उपयोग करके पाठ को फिर से संगठित कर सकता है देखने के लिए?

    ध्यान दें कि विजन एपीआई और text_detection आपके डेटा के लिए विशेष रूप से अनुकूलित नहीं है, अगर आपके पास बहुत से एनोटेटेड डेटा होंगे, तो यह वास्तव में टेंसफोर्लो का उपयोग करके अपना खुद का मॉडल बनाने का विकल्प भी है। This blogpost संख्या प्लेटों का पता लगाने के लिए एक सिस्टम सेटअप बताता है (एक विशिष्ट संख्या प्रारूप के साथ)। सभी कोड Github पर उपलब्ध हैं और समस्या आपके से बहुत संबंधित प्रतीत होती है।

  • 2

    मैं कर रहा हूँ आप बनाम 1, आदि,, क्यों यह काम करता है बताने के लिए, ओ बनाम 0 शायद यह कैसे भाषा पढ़ने के लिए है के साथ क्या करना है मैं असमर्थ लेकिन जब भी मैं ओसीआर का उपयोग करें और मैं विशेष रूप से संख्या के लिए देख रहा हूँ, मैं "कोरियाई" में पहचान भाषा सेट करने के लिए पढ़ा है। यह मेरे लिए असाधारण रूप से अच्छा काम करता है और सटीकता को बहुत प्रभावित करता है।

    संबंधित मुद्दे