बिनराइजेशन क्लासिफायर एल्गोरिदम के लिए अच्छे उदाहरण बनाने के लिए संख्याओं के वैक्टरों में अक्सर एक इकाई की रंगीन विशेषताओं को बदलने का कार्य है।प्राकृतिक भाषा प्रसंस्करण में बिनराइजेशन
अगर हम "बिल्ली को कुत्ते को खा चुके" वाक्य को बिनराइज़ करना चाहते हैं, तो हम प्रत्येक शब्द को एक आईडी (उदाहरण के लिए बिल्ली -1, एटी -2, द -3, कुत्ते -4) निर्दिष्ट करके शुरू कर सकते हैं और फिर बस वेक्टर < 3,1,2,3,4> देने वाले आईडी के द्वारा शब्द को प्रतिस्थापित करें।
इन आईडी को देखते हुए हम प्रत्येक शब्द को चार संभावित स्लॉट देकर एक बाइनरी वेक्टर भी बना सकते हैं, और एक विशिष्ट शब्द से संबंधित स्लॉट सेट कर सकते हैं, वेक्टर < 0,0,1,0,1,0 , 0,0,0,1,0,0,0,0,0,1>। बाद की विधि है, जहां तक मुझे पता है, आमतौर पर बैग-ऑफ-शब्द-विधि के रूप में जाना जाता है।
मेरे सवाल के लिएअब, क्या सबसे अच्छा binarization विधि जब यह सामान्य रूप में प्राकृतिक भाषा संसाधन के लिए सुविधाओं का वर्णन करने के लिए आता है, और संक्रमण आधारित निर्भरता पार्स करने विशेष रूप से (Nivres एल्गोरिथ्म के साथ) है?
इस संदर्भ में, हम पूरी वाक्य को एन्कोड नहीं करना चाहते हैं, बल्कि पार्स की वर्तमान स्थिति, उदाहरण के लिए इनपुट कतार में पहला शब्द स्टैक पर शीर्ष शब्द। चूंकि आदेश अत्यधिक प्रासंगिक है, यह बैग-ऑफ-शब्द-विधि का नियम है।
सर्वोत्तम के साथ, मैं इस विधि का जिक्र कर रहा हूं जो डेटा को अनावश्यक स्मृति का उपयोग किए बिना क्लासिफायर के लिए सबसे समझदार बनाता है। उदाहरण के लिए, मैं 20000 अद्वितीय शब्दों के लिए 400 मिलियन फीचर्स का उपयोग करने के लिए बिग्राम शब्द नहीं चाहता हूं, अगर केवल 2% बिग्राम वास्तव में मौजूद हैं।
चूंकि उत्तर विशेष वर्गीकरण के आधार पर भी है, इसलिए मैं अधिकतर अधिकतम एन्ट्रॉपी मॉडल (liblinear), सदिश मशीनों (libsvm) और perceptrons का समर्थन करता हूं, लेकिन अन्य मॉडलों पर लागू होने वाले उत्तरों का भी स्वागत है।
मैं क्या binarization है पता नहीं है, और मैं कर रहा हूँ यकीन है कि कई अन्य लोगों को एक ही नाव में हैं, तो यह अच्छा होगा यदि आप आप हम में से जो लोग NLP के साथ अपरिचित हैं के लिए क्या मतलब है की कुछ स्पष्टीकरण दे सकता हैं (अगर हमें इस विषय को समझने में मदद करने के लिए कम से कम जवाब देने में मदद नहीं करना है)। –
वही है - क्या आप बिनराइजेशन को परिभाषित कर सकते हैं? –
शायद आप 'सर्वश्रेष्ठ' यानी, सबसे अधिक अंतरिक्ष कुशल, सबसे अधिक प्रसंस्करण कुशल, सबसे वर्णनात्मक द्वारा आपका मतलब क्या परिभाषित कर सकते हैं। – scotta