यह इतना विज्ञान या पायथन प्रश्न नहीं है, लेकिन एसवीएम के साथ एक सामान्य मुद्दा है।
SVMs में
डाटा उदाहरणों scalars प्रकार, आम तौर पर, वास्तविक संख्या का की वैक्टर के रूप में प्रतिनिधित्व किया जाना चाहिए। इसलिए एसवीएम में शामिल किए जाने से पहले स्पष्ट गुणों को पहले कुछ संख्यात्मक मानों पर मैप किया जाना चाहिए।
कुछ स्पष्ट गुण कुछ स्वाभाविक रूप से/तर्कसंगत रूप से कुछ पैमाने पर मैप किए जाने के लिए उधार देते हैं (कुछ ढीला "मीट्रिक")। उदाहरण के लिए प्राथमिकता क्षेत्र के लिए एक (1, 2, 3, 5) मानचित्रण ('कोई भीड़', 'मानक वितरण', 'तत्काल' और 'सबसे तत्काल') के मूल्यों के साथ मैपिंग का अर्थ हो सकता है। एक और उदाहरण रंगों के साथ हो सकता है जिसे उनके लाल, हरे, नीले घटकों इत्यादि के लिए 3 आयामों में मैप किया जा सकता है।
अन्य विशेषताओं में अर्थपूर्ण नहीं है जो किसी भी अनुमानित तार्किक मानचित्रण को पैमाने पर अनुमति देता है; इन विशेषताओं के लिए विभिन्न मानों को तब SVM के एक (या संभवतः कई) आयाम (ओं) पर एक मनमाना संख्यात्मक मान असाइन किया जाना चाहिए। समझ में आता है कि अगर किसी एसवीएम में इन अनियंत्रित "गैर मीट्रिक" आयाम हैं, तो यह वस्तुओं को उचित रूप से वर्गीकृत करने में कम कुशल हो सकता है, क्योंकि एसवीएम के काम करने के लिए अंतर्निहित दूरी गणना और क्लस्टरिंग तर्क कम अर्थात् संबंधित हैं।
इस अवलोकन का यह अर्थ यह नहीं है कि जब आइटम में गैर संख्यात्मक या गैर "मीट्रिक" आयाम शामिल होते हैं, तो एसवीएम का उपयोग नहीं किया जा सकता है, लेकिन यह निश्चित रूप से एक अनुस्मारक है कि विशेषता चयन और फीचर मैपिंग सामान्य रूप से क्लासिफायर के बहुत संवेदनशील पैरामीटर हैं और विशेष रूप से एसवीएम।
पीओएस टैगिंग के विशेष मामले में ... मुझे डर है कि मैं इस समय फंस गया हूं, जिस पर लेबल किए गए कॉर्पस का उपयोग करने के लिए और इन्हें संख्यात्मक मूल्यों पर कैसे मैप करना है। मुझे पता है कि SVMTool एसवीएम का उपयोग करके बहुत ही कुशल पीओएस-टैगर्स का उत्पादन कर सकता है, और कई विद्वानों के कागजात भी टैगर्स का वर्णन एसवीएम पर आधारित करते हैं। हालांकि मैं टैगिंग के लिए अन्य तरीकों से परिचित हूँ (HMMs या अधिकतम Entropy साथ जैसे।)
+1। ध्यान दें कि पीओएस टैगिंग के लिए, पीओएस विंडो केवल एक दिशा में विस्तार कर सकती है। एक शब्द खिड़की भी अच्छी विशेषताएं दे सकती है (कम से कम, वे एनईआर और डब्ल्यूएसडी के लिए अच्छी तरह से काम करते हैं), साथ ही साथ विचाराधीन शब्द के निश्चित-लंबाई प्रत्यय भी दे सकते हैं। –