टेम्पलेट मिलान इस तरह के अनुप्रयोग के लिए असंगतता, अभिविन्यास परिवर्तन, स्केल परिवर्तन इत्यादि के कारण मजबूत नहीं होना चाहिए। इस समस्या को हल करने का सामान्य तरीका मशीन सीखना है। आप अपने खुद के बढ़ते वर्गीकरण को प्रशिक्षित करके क्या करने की कोशिश कर रहे हैं एक संभावित दृष्टिकोण है। हालांकि, मुझे नहीं लगता कि आप सही ढंग से प्रशिक्षण कर रहे हैं। आपने उल्लेख किया है कि आपने इसे 1 लोगो को एक सकारात्मक प्रशिक्षण छवि और 5 अन्य छवियों के रूप में दिया है जिसमें लोगो को नकारात्मक उदाहरण के रूप में शामिल नहीं किया गया है? आम तौर पर आपको सैकड़ों या हजारों या उससे अधिक के क्रम में प्रशिक्षण नमूने की आवश्यकता होती है। आप संभवतः 6 प्रशिक्षण नमूने के साथ ट्रेन नहीं कर सकते हैं और इसे काम करने की उम्मीद कर सकते हैं।
आप मशीन सीखने से अपरिचित हैं, यहाँ है मोटे तौर पर आपको क्या करना चाहिए:
1) आप के बाद लेकिन आम तौर पर जितना अधिक उतना) के सौ से कई सकारात्मक प्रशिक्षण नमूने (लेने की जरूरत जिस वस्तु को आप पहचानने की कोशिश कर रहे हैं। यदि आप छवि में अलग-अलग वर्णों का पता लगाने की कोशिश कर रहे हैं, तो अलग-अलग वर्णों की फसल वाली छवियां प्राप्त करें। आप इसके लिए एमएनआईएसटी डेटाबेस से शुरू कर सकते हैं। बेहतर अभी तक, अपनी विशेष समस्या के लिए वर्गीकृत को प्रशिक्षित करने के लिए, फ़ोटो से बस पर पात्रों की कई फसल वाली छवियां प्राप्त करें। यदि आप पूरे आयताकार एलईडी बोर्ड पैनल का पता लगाने की कोशिश कर रहे हैं, तो अपने सकारात्मक प्रशिक्षण नमूने के रूप में उनकी छवियों का उपयोग करें।
2) आपको कई नकारात्मक प्रशिक्षण नमूने एकत्र करने की आवश्यकता होगी। उनकी संख्या आपके पास सकारात्मक प्रशिक्षण नमूने की संख्या के समान क्रम में होनी चाहिए।ये उन अन्य वस्तुओं की छवियां हो सकती हैं जो छवियों में दिखाई देती हैं जिन्हें आप अपने डिटेक्टर को चलाएंगे। उदाहरण के लिए, आप बस, सड़क की सतहों, सड़क के किनारे पेड़ आदि के सामने की छवियों को फसल कर सकते हैं और उन्हें नकारात्मक उदाहरणों के रूप में उपयोग कर सकते हैं। यह आपके ऑब्जेक्ट को चलाने वाले चित्र में इन ऑब्जेक्ट्स को वर्गीकृत करने में मदद करने के लिए है। इसलिए, नकारात्मक उदाहरण न केवल ऐसी छवियां हैं जिनमें आप का पता नहीं लगाना चाहते हैं। वे ऑब्जेक्ट्स होनी चाहिए जो उस ऑब्जेक्ट के लिए गलत हो सकती हैं, जिसे आप अपने डिटेक्टर को चलाने वाले चित्रों में पहचानने की कोशिश कर रहे हैं (कम से कम आपके मामले के लिए)। , http://note.sonots.com/SciSoftware/haartraining.html
भले ही आप का उल्लेख किया है कि आप केवल बस में पूरे एलईडी पैनल के बजाय अलग-अलग पात्रों का पता लगाने के लिए चाहते हैं:
कैसे वर्गीकारक के झरना को प्रशिक्षित करने और एक्सएमएल मॉडल फ़ाइल का उत्पादन करने पर नीचे दिए गए लिंक देखें मैं पहली बार एलईडी पैनल का पता लगाने की सिफारिश करता हूं ताकि रुचि के पात्रों वाले क्षेत्र को स्थानीयकृत किया जा सके। उसके बाद, या तो इस छोटे से क्षेत्र में टेम्पलेट मिलान करें या इस क्षेत्र में पिक्सेल के पैच पर अलग-अलग अक्षरों को पहचानने के लिए प्रशिक्षित क्लासिफायर चलाएं, जो स्लाइडिंग विंडो दृष्टिकोण का उपयोग करके प्राप्त किया गया हो, और संभवतः कई पैमाने पर। (नोट: ऊपर वर्णित हार्कास्केड बूस्टिंग क्लासिफायरफायर वर्णों का पता लगाएगा लेकिन यह आपको यह नहीं बताएगा कि यह कौन सा चरित्र पता चला है जब तक कि आप इसे केवल उस विशेष चरित्र का पता लगाने के लिए प्रशिक्षित न करें ...) इस क्षेत्र में वर्णों को एक स्लाइडिंग विंडो तरीके से ढूंढना आप पात्रों तो आप कर सकते हैं शब्द आदि
आशा इस मदद करता है में स्ट्रिंग उन्हें दिखाई देते हैं।
संपादित करें:
मैं मेरा यह पुराने पोस्ट अलग से बाद OpenCV 3 में दृश्य पाठ मॉड्यूल @KaolinFire ने उल्लेख किया खोज पर मौका का क्या हुआ।
जो लोग उत्सुक हैं के लिए, यह ओपी द्वारा दिए गए नमूना छवि पर कि डिटेक्टर चलाने का परिणाम है। ध्यान दें कि डिटेक्टर टेक्स्ट क्षेत्र को स्थानीयकृत करने में सक्षम है, भले ही यह एक से अधिक बाउंडिंग बॉक्स लौटाता हो।
ध्यान दें कि यह विधि सरल नहीं है (कम से कम इस डिफ़ॉल्ट पैरामीटर साथ OpenCV में कार्यान्वयन)। यह झूठी सकारात्मक उत्पन्न करता है, खासकर जब इनपुट छवि में कई "विचलनकर्ता" होते हैं। यहाँ गूगल स्ट्रीट व्यू डाटासेट पर इस OpenCV 3 पाठ डिटेक्टर का उपयोग कर प्राप्त अधिक उदाहरण हैं: यह समानांतर लाइनों के बीच "पाठ" लगता है की प्रवृत्ति है
सूचना है कि (जैसे , खिड़कियां, दीवारें आदि)। चूंकि ओपी की इनपुट छवि में आउटडोर दृश्य होने की संभावना है, इसलिए यह एक समस्या होगी, खासकर यदि वह एलईडी संकेतों के आसपास एक छोटे से क्षेत्र में रुचि के क्षेत्र को प्रतिबंधित नहीं करती है।
ऐसा लगता है कि यदि आप केवल "टेक्स्ट" वाले ऑब्जेक्ट को स्थानीयकृत करने में सक्षम हैं (उदा।, केवल ओपी की नमूना छवि में एलईडी साइन), तो यह एल्गोरिदम चलने से आपको कड़ा बाउंडिंग बॉक्स प्राप्त करने में मदद मिल सकती है। लेकिन आपको झूठी-सकारात्मकताओं से निपटना होगा (हालांकि छोटे क्षेत्रों को छोड़ना या एलईडी संकेतों पर अक्षरों के तरीके के बारे में ज्ञान के आधार पर एक ह्युरिस्टिक का उपयोग करके ओवरलैपिंग बाध्यकारी बक्से के बीच चयन करना)।
यहाँ पाठ का पता लगाने के बारे में अधिक संसाधनों (चर्चा + कोड + डेटासेट) कर रहे हैं।
कोड
डेटासेट
आप Google StreetView और MSRA डेटासेट यहाँ मिल जाएगा। यद्यपि इन डेटासेट में छवियां बिल्कुल बसों पर एलईडी संकेतों के समान नहीं हैं, फिर भी वे कई प्रतिस्पर्धी एल्गोरिदमों में से "सर्वश्रेष्ठ" प्रदर्शन करने वाले एल्गोरिदम को चुनने या स्क्रैच से मशीन सीखने वाले एल्गोरिदम को प्रशिक्षित करने में सहायक हो सकती हैं।
http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List
लेकिन छवि भिन्न हो सकते हैं में अंकों की स्थिति, तो छवि के विशिष्ट स्थिति के लिए तुलना नहीं कर सकते। तुलना की गई छवि स्पष्ट नहीं है, तो मुझे छवि से विशेष अंक कैसे प्राप्त होगा ??? – asifkt
@asifkt, फिर अपने आवेदन के बारे में अधिक जानकारी देने के लिए कृपया अपना प्रश्न संपादित करें। छवि स्रोत (वीडियो, स्कैनर इत्यादि) अक्षरों (फ़ॉन्ट्स, आकार, परिप्रेक्ष्य) के बारे में आप और क्या जानते हैं। इससे संभावित समाधानों पर ध्यान केंद्रित करने में मदद मिलेगी। –
मैंने चेहरे का पता लगाने का आवेदन विकसित किया। वास्तव में कैस्केड फ़ाइल haarcascade_frontalface_alt.xml ओपनसीवी के साथ प्रदान की जाती है। पत्र पहचान के लिए मुझे एक एक्सएमएल फ़ाइल बनाने की जरूरत है।इसलिए मैंने इस फ़ाइल को बनाने के लिए opencv_createsamples.exe, opencv_haartraining.exe फ़ाइलों का उपयोग किया। मैंने लोगो को सकारात्मक छवि के रूप में दिया, और एक और 5 छवियां जिनमें लोगो को नकारात्मक छवियों के रूप में शामिल नहीं किया गया है। मुझे इसे प्रशिक्षित करके कोई एक्सएमएल फ़ाइल नहीं मिली। सुनवाई में हायर प्रशिक्षण के लिए कम से कम 3 दिन लगेंगे। क्या यह सच है?? इंटरमीडिएट एक्सएमएल प्राप्त करने के लिए मुझे convert_cascade.exe फ़ाइल का उपयोग करने की आवश्यकता है। अगर मैं इसका इस्तेमाल करता हूं, तो क्या मुझे बेहतर परिणाम मिल जाएगा ??? – asifkt