ऑफ़लाइन चरित्र पहचान

के लिए एचएमएम का उपयोग करके मैंने पृथक वर्णों (जैसे ढाल, पड़ोसी पिक्सेल वजन और ज्यामितीय गुणों की कई छवियों से विशेषताओं को निकाला है। मैं इस डेटा पर प्रशिक्षित क्लासिफायर के रूप में एचएमएम का उपयोग कैसे कर सकता हूं? सभी साहित्य मैं एचएमएम के बारे में पढ़ता हूं राज्यों और राज्य संक्रमणों को संदर्भित करता है लेकिन मैं इसे सुविधाओं और वर्ग लेबलिंग से कनेक्ट नहीं कर सकता। जेएएचएमएम के होम पेज पर उदाहरण मेरी समस्या से संबंधित नहीं है। मुझे एचएमएम का उपयोग करने की आवश्यकता नहीं है क्योंकि यह इसके लिए अन्य दृष्टिकोणों से बेहतर काम करेगा समस्या लेकिन इस परियोजना विषय पर कमी की वजह से।ऑफ़लाइन चरित्र पहचान

वहाँ ऑनलाइन पहचान के लिए this प्रश्न का उत्तर था, लेकिन मैं ऑफ़लाइन के लिए और एक छोटे से अधिक विस्तार में एक ही चाहते

संपादित करें: मैंने प्रत्येक चरित्र को वर्गों की निश्चित संख्या के साथ एक ग्रिड में विभाजित किया। अब मैं प्रत्येक ग्रिड ब्लॉक पर फीचर निष्कर्षण निष्पादित करने की योजना बना रहा हूं और इस प्रकार बाएं से दाएं और ऊपर से नीचे तक जाकर प्रत्येक नमूने के लिए विशेषताओं का अनुक्रम प्राप्त करता हूं।

यह एक HMM डेटा के अस्थायी भिन्नता लगता है, भले ही सही और ऊपर से नीचे बाएं से चरित्र नहीं बनाया गया है में सक्षम हो जाएगा एक HMM अर्थात के लिए एक पर्याप्त "अनुक्रम" का प्रतिनिधित्व करते हैं? यदि वैकल्पिक तरीके से सुझाव नहीं दिया जाता है।
क्या मुझे बहुत सारी सुविधाएं खिलानी चाहिए या कुछ के साथ शुरू करना चाहिए? मुझे कैसे पता चलेगा कि एचएमएम कम हो रहा है या यदि विशेषताएं खराब हैं? मैं जाहमएम का उपयोग कर रहा हूं।
स्ट्रोक सुविधाओं को निकालना कठिन है और ग्रिड सुविधाओं के साथ तार्किक रूप से संयुक्त नहीं किया जा सकता है?

स्रोत

2013-11-02 Bug Killer

शायद मैं गलतफहमी कर रहा हूं, लेकिन एचएमएम का उपयोग करने का पूरा बिंदु यादृच्छिक रूप से खींचे गए पात्रों के लिए नहीं है, लेकिन भाषा सांख्यिकी के कारण – vish

मैं आमतौर पर तंत्रिका मान्यता कार्य की इस तरह के लिए इस्तेमाल किया नेटवर्क देखा है, अर्थात here, here here, और here (के बाद से HMM कुछ यादृच्छिक प्रक्रिया द्वारा उत्पन्न एक दृश्य की उम्मीद है)। चूंकि एक साधारण Google खोज ओसीआर में तंत्रिका नेटवर्क के लिए इतनी सारी हिट बदलती है, मुझे लगता है कि आप एचएमएम (एक परियोजना सीमा, सही?) का उपयोग करने में सेट हैं, भले ही ये लिंक छवि को ग्रिड करने और छवि सुविधाओं को प्राप्त करने में कुछ अंतर्दृष्टि प्रदान कर सकें ।

अवलोकन के अनुक्रम में ग्रिड को बदलने के लिए आपका दृष्टिकोण उचित है। इस मामले में, सुनिश्चित करें कि आप अवलोकन और राज्यों को भ्रमित नहीं करते हैं। एक ब्लॉक से निकाले गए फीचर्स को एक अवलोकन में एकत्र किया जाना चाहिए, यानी एक फीचर वेक्टर। (भाषण मान्यता की तुलना में, आपके ब्लॉक की सुविधा वेक्टर एक भाषण फोनम से जुड़े फीचर वेक्टर के समान है।) आपके पास अंतर्निहित राज्यों के बारे में वास्तव में अधिक जानकारी नहीं है। यह एचएमएम का छुपा पहलू है, और प्रशिक्षण प्रक्रिया को मॉडल को सूचित करना चाहिए कि एक चरित्र वेक्टर (यानी संक्रमण संभावनाएं) के लिए एक फीचर वेक्टर का पालन करना कितना संभव है।

चूंकि यह ऑफ़लाइन प्रक्रिया है, इसलिए अस्थायी पहलुओं से चिंतित न हों कि पात्र वास्तव में कैसे खींचे जाते हैं। अपने कार्य के प्रयोजनों के लिए, आपने बाएं से दाएं, ऊपर-से-नीचे ब्लॉक अनुक्रम के साथ अवलोकनों के अनुक्रम पर एक अस्थायी आदेश लगाया है। यह ठीक काम करना चाहिए।

एचएमएम प्रदर्शन के लिए: मुख्य विशेषताएं का एक उचित वेक्टर चुनें। भाषण रिकोग में, एक फीचर वेक्टर की आयाम उच्च हो सकती है (> 10)। (यह वह जगह भी है जहां उद्धृत साहित्य सहायता कर सकता है।) प्रशिक्षण डेटा का प्रतिशत अलग करें ताकि आप मॉडल का सही परीक्षण कर सकें। सबसे पहले, मॉडल को प्रशिक्षित करें, और फिर प्रशिक्षण डेटासेट पर मॉडल का मूल्यांकन करें। आपके पात्रों को वर्गीकृत कैसे करता है? यदि यह खराब होता है, तो फीचर वेक्टर का फिर से मूल्यांकन करें। यदि यह परीक्षण डेटा पर अच्छा करता है, तो इसे आरक्षित परीक्षण डेटा पर चलाकर वर्गीकृत की सामान्यता का परीक्षण करें।

राज्यों की संख्या के लिए, मैं कुछ हद तक व्युत्पन्न संख्या से शुरू करूंगा। मान लें कि आपकी चरित्र छवियों को स्केल और सामान्यीकृत किया गया है, शायद ब्लॉक के 40% (?) जैसे कुछ पर कब्जा कर लिया गया है? स्रोत छवि प्रदान नहीं की जाने के बाद से यह मेरे हिस्से पर एक कच्चा अनुमान है। 8x8 ग्रिड के लिए, यह दर्शाता है कि 25 ब्लॉक पर कब्जा कर लिया गया है। हम 25 राज्यों के साथ शुरू कर सकते हैं - लेकिन यह संभवतः बेवकूफ है: खाली ब्लॉक जानकारी व्यक्त कर सकते हैं (जिसका मतलब है कि राज्यों की संख्या में वृद्धि हो सकती है), लेकिन कुछ विशेषताओं को समान राज्यों में देखा जा सकता है (जिसका मतलब है कि राज्यों की संख्या में कमी आ सकती है।) यदि यह मैं थे, शायद मैं 20 राज्यों की तरह कुछ चुनूँगा। ऐसा कहकर: सावधान रहें कि सुविधाओं और राज्यों को भ्रमित न करें। आपकी सुविधा वेक्टर एक विशेष स्थिति में देखी गई चीज़ों का प्रतिनिधित्व है। यदि ऊपर वर्णित परीक्षण दिखाते हैं कि आपका मॉडल खराब प्रदर्शन कर रहा है, तो राज्यों की संख्या को ऊपर या नीचे ट्विक करें और पुनः प्रयास करें।

शुभकामनाएं।

स्रोत

2013-11-14 23:15:38 Throwback1986

धन्यवाद! वह व्यापक था। मेरे पास कुछ सवाल है: जेएएचएमएम लाइब्रेरी में केवल 1 डी एचएमएम है। इसे ध्यान में रखते हुए, मैं एचएमएम को विशेषताओं को कैसे पेश करूं? उदाहरण के लिए, क्या मुझे सभी सुविधाओं को एक ब्लॉक से एक साथ रखना चाहिए, एक लंबा वेक्टर बनाना चाहिए? –

हां, यदि आपके पास दस विशेषताएं हैं, तो आपको 10 तत्वों के साथ 1 डी वेक्टर के साथ काम करना चाहिए। – Throwback1986

ऑफ़लाइन चरित्र पहचान

उत्तर

संबंधित मुद्दे