2013-11-02 6 views
6

के लिए एचएमएम का उपयोग करके मैंने पृथक वर्णों (जैसे ढाल, पड़ोसी पिक्सेल वजन और ज्यामितीय गुणों की कई छवियों से विशेषताओं को निकाला है। मैं इस डेटा पर प्रशिक्षित क्लासिफायर के रूप में एचएमएम का उपयोग कैसे कर सकता हूं? सभी साहित्य मैं एचएमएम के बारे में पढ़ता हूं राज्यों और राज्य संक्रमणों को संदर्भित करता है लेकिन मैं इसे सुविधाओं और वर्ग लेबलिंग से कनेक्ट नहीं कर सकता। जेएएचएमएम के होम पेज पर उदाहरण मेरी समस्या से संबंधित नहीं है। मुझे एचएमएम का उपयोग करने की आवश्यकता नहीं है क्योंकि यह इसके लिए अन्य दृष्टिकोणों से बेहतर काम करेगा समस्या लेकिन इस परियोजना विषय पर कमी की वजह से।ऑफ़लाइन चरित्र पहचान

वहाँ ऑनलाइन पहचान के लिए this प्रश्न का उत्तर था, लेकिन मैं ऑफ़लाइन के लिए और एक छोटे से अधिक विस्तार में एक ही चाहते

संपादित करें: मैंने प्रत्येक चरित्र को वर्गों की निश्चित संख्या के साथ एक ग्रिड में विभाजित किया। अब मैं प्रत्येक ग्रिड ब्लॉक पर फीचर निष्कर्षण निष्पादित करने की योजना बना रहा हूं और इस प्रकार बाएं से दाएं और ऊपर से नीचे तक जाकर प्रत्येक नमूने के लिए विशेषताओं का अनुक्रम प्राप्त करता हूं।

  1. यह एक HMM डेटा के अस्थायी भिन्नता लगता है, भले ही सही और ऊपर से नीचे बाएं से चरित्र नहीं बनाया गया है में सक्षम हो जाएगा एक HMM अर्थात के लिए एक पर्याप्त "अनुक्रम" का प्रतिनिधित्व करते हैं? यदि वैकल्पिक तरीके से सुझाव नहीं दिया जाता है।

  2. क्या मुझे बहुत सारी सुविधाएं खिलानी चाहिए या कुछ के साथ शुरू करना चाहिए? मुझे कैसे पता चलेगा कि एचएमएम कम हो रहा है या यदि विशेषताएं खराब हैं? मैं जाहमएम का उपयोग कर रहा हूं।

  3. स्ट्रोक सुविधाओं को निकालना कठिन है और ग्रिड सुविधाओं के साथ तार्किक रूप से संयुक्त नहीं किया जा सकता है?

+0

शायद मैं गलतफहमी कर रहा हूं, लेकिन एचएमएम का उपयोग करने का पूरा बिंदु यादृच्छिक रूप से खींचे गए पात्रों के लिए नहीं है, लेकिन भाषा सांख्यिकी के कारण – vish

उत्तर

2

मैं आमतौर पर तंत्रिका मान्यता कार्य की इस तरह के लिए इस्तेमाल किया नेटवर्क देखा है, अर्थात here, herehere, और here (के बाद से HMM कुछ यादृच्छिक प्रक्रिया द्वारा उत्पन्न एक दृश्य की उम्मीद है)। चूंकि एक साधारण Google खोज ओसीआर में तंत्रिका नेटवर्क के लिए इतनी सारी हिट बदलती है, मुझे लगता है कि आप एचएमएम (एक परियोजना सीमा, सही?) का उपयोग करने में सेट हैं, भले ही ये लिंक छवि को ग्रिड करने और छवि सुविधाओं को प्राप्त करने में कुछ अंतर्दृष्टि प्रदान कर सकें ।

अवलोकन के अनुक्रम में ग्रिड को बदलने के लिए आपका दृष्टिकोण उचित है। इस मामले में, सुनिश्चित करें कि आप अवलोकन और राज्यों को भ्रमित नहीं करते हैं। एक ब्लॉक से निकाले गए फीचर्स को एक अवलोकन में एकत्र किया जाना चाहिए, यानी एक फीचर वेक्टर। (भाषण मान्यता की तुलना में, आपके ब्लॉक की सुविधा वेक्टर एक भाषण फोनम से जुड़े फीचर वेक्टर के समान है।) आपके पास अंतर्निहित राज्यों के बारे में वास्तव में अधिक जानकारी नहीं है। यह एचएमएम का छुपा पहलू है, और प्रशिक्षण प्रक्रिया को मॉडल को सूचित करना चाहिए कि एक चरित्र वेक्टर (यानी संक्रमण संभावनाएं) के लिए एक फीचर वेक्टर का पालन करना कितना संभव है।

चूंकि यह ऑफ़लाइन प्रक्रिया है, इसलिए अस्थायी पहलुओं से चिंतित न हों कि पात्र वास्तव में कैसे खींचे जाते हैं। अपने कार्य के प्रयोजनों के लिए, आपने बाएं से दाएं, ऊपर-से-नीचे ब्लॉक अनुक्रम के साथ अवलोकनों के अनुक्रम पर एक अस्थायी आदेश लगाया है। यह ठीक काम करना चाहिए।

एचएमएम प्रदर्शन के लिए: मुख्य विशेषताएं का एक उचित वेक्टर चुनें। भाषण रिकोग में, एक फीचर वेक्टर की आयाम उच्च हो सकती है (> 10)। (यह वह जगह भी है जहां उद्धृत साहित्य सहायता कर सकता है।) प्रशिक्षण डेटा का प्रतिशत अलग करें ताकि आप मॉडल का सही परीक्षण कर सकें। सबसे पहले, मॉडल को प्रशिक्षित करें, और फिर प्रशिक्षण डेटासेट पर मॉडल का मूल्यांकन करें। आपके पात्रों को वर्गीकृत कैसे करता है? यदि यह खराब होता है, तो फीचर वेक्टर का फिर से मूल्यांकन करें। यदि यह परीक्षण डेटा पर अच्छा करता है, तो इसे आरक्षित परीक्षण डेटा पर चलाकर वर्गीकृत की सामान्यता का परीक्षण करें।

राज्यों की संख्या के लिए, मैं कुछ हद तक व्युत्पन्न संख्या से शुरू करूंगा। मान लें कि आपकी चरित्र छवियों को स्केल और सामान्यीकृत किया गया है, शायद ब्लॉक के 40% (?) जैसे कुछ पर कब्जा कर लिया गया है? स्रोत छवि प्रदान नहीं की जाने के बाद से यह मेरे हिस्से पर एक कच्चा अनुमान है। 8x8 ग्रिड के लिए, यह दर्शाता है कि 25 ब्लॉक पर कब्जा कर लिया गया है। हम 25 राज्यों के साथ शुरू कर सकते हैं - लेकिन यह संभवतः बेवकूफ है: खाली ब्लॉक जानकारी व्यक्त कर सकते हैं (जिसका मतलब है कि राज्यों की संख्या में वृद्धि हो सकती है), लेकिन कुछ विशेषताओं को समान राज्यों में देखा जा सकता है (जिसका मतलब है कि राज्यों की संख्या में कमी आ सकती है।) यदि यह मैं थे, शायद मैं 20 राज्यों की तरह कुछ चुनूँगा। ऐसा कहकर: सावधान रहें कि सुविधाओं और राज्यों को भ्रमित न करें। आपकी सुविधा वेक्टर एक विशेष स्थिति में देखी गई चीज़ों का प्रतिनिधित्व है। यदि ऊपर वर्णित परीक्षण दिखाते हैं कि आपका मॉडल खराब प्रदर्शन कर रहा है, तो राज्यों की संख्या को ऊपर या नीचे ट्विक करें और पुनः प्रयास करें।

शुभकामनाएं।

+0

धन्यवाद! वह व्यापक था। मेरे पास कुछ सवाल है: जेएएचएमएम लाइब्रेरी में केवल 1 डी एचएमएम है। इसे ध्यान में रखते हुए, मैं एचएमएम को विशेषताओं को कैसे पेश करूं? उदाहरण के लिए, क्या मुझे सभी सुविधाओं को एक ब्लॉक से एक साथ रखना चाहिए, एक लंबा वेक्टर बनाना चाहिए? –

+0

हां, यदि आपके पास दस विशेषताएं हैं, तो आपको 10 तत्वों के साथ 1 डी वेक्टर के साथ काम करना चाहिए। – Throwback1986

संबंधित मुद्दे