का उपयोग करते समय हटाए जाने वाले स्टॉपवर्ड मैं gensim के word2vec लाइब्रेरी का उपयोग करके थोड़ी देर के लिए word2vec को आजमा रहा हूं। मेरा सवाल है क्या मुझे अपने इनपुट टेक्स्ट से स्टॉपवर्ड को हटाना है? क्योंकि, मेरे शुरुआती प्रयोगात्मक परिणामों के आधार पर, जब मैं model.most_similar('someword')
करता हूं तो मैं 'of', 'when' .. (stopwords) जैसे शब्दों को देख सकता हूं ..?शब्द 2vec
लेकिन मुझे कहीं भी यह नहीं पता था कि शब्द 2vec के साथ शब्द हटाने को रोकना आवश्यक है? क्या शब्द 2vec को स्टॉप शब्दों को संभालना है, भले ही आप उन्हें हटा न दें?
पूर्व प्रसंस्करण चीजें क्या करना चाहिए (जैसे विषय मॉडलिंग के लिए, यह लगभग एक जरूरी है कि आपको रोकथाम को हटाना चाहिए)?
यह सब अंत एप्लिकेशन पर निर्भर करता है। शब्द वैक्टर का उपयोग करने का अंतिम उद्देश्य क्या है? – alvas
"model.most_similar ('someword')" – KillBill
का उपयोग करके किसी दिए गए शब्द के लिए समान शब्द प्राप्त करना चाहते हैं "मॉडल के साथ और बिना स्टॉपवर्ड के कुछ मूल्यांकन करें। अपने मॉडल को सत्यापित करने के लिए, WordNet में समानार्थी के खिलाफ इसे जांचें। और देखो कि कौन सा मॉडल बेहतर काम करता है। निजी तौर पर, मुझे लगता है कि स्टॉपवर्ड वाला एक व्यक्ति बेहतर काम करेगा लेकिन प्रयोग के माध्यम से इसे अनुभवपूर्वक दिखा रहा है कि यादृच्छिक अनुमान अधिक महत्वपूर्ण है। – alvas