2017-10-03 9 views
5

द्वारा लाइन होने के लिए रसीद छवियों पर पाठ पहचान करने के लिए मैं Google दृष्टि एपीआई का उपयोग कर रहा हूं। मुझे कुछ अच्छे परिणाम मिल रहे हैं लेकिन प्रारूप जिसमें रिटर्न काफी अविश्वसनीय है। यदि पाठ के बीच एक बड़ा अंतर है तो रीडआउट इसके आगे की रेखा के बजाय नीचे दी गई रेखा को प्रिंट करेगा।Google दृष्टि टेक्स्ट डिटेक्शन प्रतिक्रिया लाइन

उदाहरण के लिए, निम्नलिखित Recipt Image मैं नीचे प्रतिक्रिया मिल के साथ: जब पाठ में आदि आदर्श प्रतिक्रिया होगी कीमतों जुड़ने की कोशिश कर

4x Löwenbräu Original a 3,00 12,00 1 
    8x Weissbier dunkel a 3,30 26,401 
    3x Hefe-Weissbier a 3,30 9,90 1 
    1x Saft 0,25 
    1x Grosses Wasser 
    1x Vegetarische Varia 
    1x Gyros 
    1x Baby Kalamari Gefu 
    2x Gyros Folie 
    1x Schafskäse Ofen 
    1x Bifteki Metaxa 
    1x Schweinefilet Meta 
    1x St ifado 
    1x Tee 
    2,50 1 
    2,40 1 
    9,90 1 
    8,90 1 
    12,90 
    a 9,9019,80 1 
    6,90 1 
    11,90 1 
    13,90 1 
    14,90 1 
    2,10 1 

कौन सा अच्छी तरह से शुरू होता है और अपेक्षा के अनुरूप है, लेकिन फिर काफी संयुक्त राष्ट्र उपयोगी हो जाता है निम्नानुसार हो:

4x Löwenbräu Original a 3,00 12,00 1 
    8x Weissbier dunkel a 3,30 26,401 
    3x Hefe-Weissbier  a 3,30 9,90 1 
    1x Saft 0,25     2,50 1 
    1x Grosses Wasser    2,40 1 
    1x Vegetarische Varia   9,90 1 
    1x Gyros      8,90 1 
    1x Baby Kalamari Gefu  12,90 1 
    2x Gyros Folie   a 9,9019,80 1 
    1x Schafskäse Ofen   6,90 1 
    1x Bifteki Metaxa   11,90 1 
    1x Schweinefilet Meta  13,90 1 
    1x St ifado     14,90 1 
    1x Tee      2,10 1 

या उसके करीब।

क्या कोई फ़ॉर्मेटिंग अनुरोध है जिसे आप अलग-अलग प्रतिक्रिया प्राप्त करने के लिए एपीआई में जोड़ सकते हैं? टेसरेक्ट का उपयोग करते समय मुझे सफलता मिली है, जहां आप इस परिणाम को प्राप्त करने के लिए आउटपुट प्रारूप बदल सकते हैं और सोच रहे थे कि दृष्टि एपीआई के समान कुछ है या नहीं।

मैं एपीआई रिटर्न पत्र निर्देशांक को समझता हूं जिसका उपयोग किया जा सकता है लेकिन मुझे उम्मीद थी कि इस तरह की गहराई में नहीं जाना है।

उत्तर

2

आप अपने JSON अनुरोध पर feature संकेत जोड़ सकते हैं।

{ 
    "requests": [ 
    { 
     "image": { 
     "source": { 
      "imageUri": "https://i.stack.imgur.com/TRTXo.png" 
     } 
     }, 
     "features": [ 
     { 
      "type": "DOCUMENT_TEXT_DETECTION" 
     } 
     ] 
    } 
    ] 
} 

आप उपरोक्त JSON कॉपी और इसे में अनुरोध शरीर पेस्ट documentation page पर यह API प्रयास करें फलक में कर सकते हैं: इस तरह एक रसीद की छवि के लिए, DOCUMENT_TEXT_DETECTION अच्छा परिणाम देती है। परिणाम:

4x LOwenbräu Original a 3,00 12,00 1 
8x Weissbier dunkel a 3, 3026, 40 1 
3x Hefe-Weissbier a 3,30990 1 
1x Saft 0,25 2, 50 1 
1x Grosses Wasser 2, 40 1 
1x Vegetarische Varia 9,90 1 
1x Gyros 8,90 1 
1x Baby Kalamari Gefu 12,90 ! 
2x Gyros Folie a 9,9019, 80 1 
1x Schaf skäse Ofen 6,90 1 
1x Bifteki Metaxa 11,90 1 
1x Schweinefilet Meta 13,90 1 
1x Stifado 14, 90 1 
1x Tee 2, 10 1 

गूजी विजन इस समय टेसरेक्ट से बहुत कम विन्यास योग्य है। चूंकि Google दोनों परियोजनाओं के पीछे है, अनुमान लगाएं कि भविष्य में कौन सा उच्च प्राथमिकता प्राप्त करेगा?

+0

कमाल आपको बहुत धन्यवाद! काश वे एक एपीआई के रूप में tesseract बना देंगे मैं एक ऐप में शामिल करने के लिए बस इतना बड़ा के रूप में कॉल कर सकते हैं। – Wrumble

1

यह देर से उत्तर दे सकता है लेकिन भविष्य के संदर्भ के लिए इसे जोड़ सकता है। टेक्स्ट के लिए जो बहुत दूर हैं DOCUMENT_TEXT_DETECTION भी उचित रेखा विभाजन प्रदान नहीं करता है।

निम्नलिखित कोड वर्ण बहुभुज निर्देशांक के आधार पर सरल रेखा विभाजन करता है।

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

संबंधित मुद्दे