2016-01-11 6 views
7

का उपयोग करते समय हटाए जाने वाले स्टॉपवर्ड मैं gensim के word2vec लाइब्रेरी का उपयोग करके थोड़ी देर के लिए word2vec को आजमा रहा हूं। मेरा सवाल है क्या मुझे अपने इनपुट टेक्स्ट से स्टॉपवर्ड को हटाना है? क्योंकि, मेरे शुरुआती प्रयोगात्मक परिणामों के आधार पर, जब मैं model.most_similar('someword') करता हूं तो मैं 'of', 'when' .. (stopwords) जैसे शब्दों को देख सकता हूं ..?शब्द 2vec

लेकिन मुझे कहीं भी यह नहीं पता था कि शब्द 2vec के साथ शब्द हटाने को रोकना आवश्यक है? क्या शब्द 2vec को स्टॉप शब्दों को संभालना है, भले ही आप उन्हें हटा न दें?

पूर्व प्रसंस्करण चीजें क्या करना चाहिए (जैसे विषय मॉडलिंग के लिए, यह लगभग एक जरूरी है कि आपको रोकथाम को हटाना चाहिए)?

+0

यह सब अंत एप्लिकेशन पर निर्भर करता है। शब्द वैक्टर का उपयोग करने का अंतिम उद्देश्य क्या है? – alvas

+0

"model.most_similar ('someword')" – KillBill

+2

का उपयोग करके किसी दिए गए शब्द के लिए समान शब्द प्राप्त करना चाहते हैं "मॉडल के साथ और बिना स्टॉपवर्ड के कुछ मूल्यांकन करें। अपने मॉडल को सत्यापित करने के लिए, WordNet में समानार्थी के खिलाफ इसे जांचें। और देखो कि कौन सा मॉडल बेहतर काम करता है। निजी तौर पर, मुझे लगता है कि स्टॉपवर्ड वाला एक व्यक्ति बेहतर काम करेगा लेकिन प्रयोग के माध्यम से इसे अनुभवपूर्वक दिखा रहा है कि यादृच्छिक अनुमान अधिक महत्वपूर्ण है। – alvas

उत्तर

7

Personaly मुझे लगता है, रोक शब्द को हटाने के बेहतर परिणाम मिलेगा, जाँच link

विषय मॉडलिंग के लिए इसके अलावा

, आप shlould पाठ पर पूर्व प्रसंस्करण करते हैं, बातें आप करना चाहिए निम्नलिखित,

  1. की निकालें शब्दों को रोको।
  2. Tokenization.
  3. Stemming and Lemmatization
+0

का उत्पादन करने के लिए वाक्य के व्यापक संदर्भ पर निर्भर करता है यदि आप लेमैमाइज़र में रूचि रखते हैं जो वर्डनेट के साथ अच्छा खेलता है: https://gist.github.com/alvations/07758d02412d928414bb आज़माएं – alvas

8

शब्द 2vec के मूल टॉमस मिकोलोव मॉडल के आधार पर जेन्सीम का कार्यान्वयन, आवृत्ति के आधार पर स्वचालित रूप से सभी लगातार शब्दों को कम करता है। इसका अर्थ यह है कि, इन शब्दों को भविष्यवाणी की जाने वाली शब्द की खिड़की में नहीं माना जाता है। नमूना पैरामीटर जो 0.001 का डिफ़ॉल्ट है, उन शब्दों को निकालने के लिए पैरामीटर के रूप में प्रयोग किया जाता है। यदि आप कुछ विशिष्ट स्टॉपवर्ड को हटाना चाहते हैं, जो इसकी आवृत्ति के आधार पर हटाए नहीं जाएंगे तो आप ऐसा कर सकते हैं। सारांश: यदि आप शब्द हटाने को रोकते हैं तो परिणाम कोई महत्वपूर्ण अंतर नहीं उठाएगा।

संबंधित मुद्दे