शब्द 2vec

का उपयोग करते समय हटाए जाने वाले स्टॉपवर्ड मैं gensim के word2vec लाइब्रेरी का उपयोग करके थोड़ी देर के लिए word2vec को आजमा रहा हूं। मेरा सवाल है क्या मुझे अपने इनपुट टेक्स्ट से स्टॉपवर्ड को हटाना है? क्योंकि, मेरे शुरुआती प्रयोगात्मक परिणामों के आधार पर, जब मैं model.most_similar('someword') करता हूं तो मैं 'of', 'when' .. (stopwords) जैसे शब्दों को देख सकता हूं ..?शब्द 2vec

लेकिन मुझे कहीं भी यह नहीं पता था कि शब्द 2vec के साथ शब्द हटाने को रोकना आवश्यक है? क्या शब्द 2vec को स्टॉप शब्दों को संभालना है, भले ही आप उन्हें हटा न दें?

पूर्व प्रसंस्करण चीजें क्या करना चाहिए (जैसे विषय मॉडलिंग के लिए, यह लगभग एक जरूरी है कि आपको रोकथाम को हटाना चाहिए)?

स्रोत

2016-01-11 KillBill

यह सब अंत एप्लिकेशन पर निर्भर करता है। शब्द वैक्टर का उपयोग करने का अंतिम उद्देश्य क्या है? – alvas

"model.most_similar ('someword')" – KillBill

का उपयोग करके किसी दिए गए शब्द के लिए समान शब्द प्राप्त करना चाहते हैं "मॉडल के साथ और बिना स्टॉपवर्ड के कुछ मूल्यांकन करें। अपने मॉडल को सत्यापित करने के लिए, WordNet में समानार्थी के खिलाफ इसे जांचें। और देखो कि कौन सा मॉडल बेहतर काम करता है। निजी तौर पर, मुझे लगता है कि स्टॉपवर्ड वाला एक व्यक्ति बेहतर काम करेगा लेकिन प्रयोग के माध्यम से इसे अनुभवपूर्वक दिखा रहा है कि यादृच्छिक अनुमान अधिक महत्वपूर्ण है। – alvas

Personaly मुझे लगता है, रोक शब्द को हटाने के बेहतर परिणाम मिलेगा, जाँच link

विषय मॉडलिंग के लिए इसके अलावा

, आप shlould पाठ पर पूर्व प्रसंस्करण करते हैं, बातें आप करना चाहिए निम्नलिखित,

की निकालें शब्दों को रोको।
Tokenization.
Stemming and Lemmatization।

स्रोत

2016-01-12 06:45:22

का उत्पादन करने के लिए वाक्य के व्यापक संदर्भ पर निर्भर करता है यदि आप लेमैमाइज़र में रूचि रखते हैं जो वर्डनेट के साथ अच्छा खेलता है: https://gist.github.com/alvations/07758d02412d928414bb आज़माएं – alvas

शब्द 2vec के मूल टॉमस मिकोलोव मॉडल के आधार पर जेन्सीम का कार्यान्वयन, आवृत्ति के आधार पर स्वचालित रूप से सभी लगातार शब्दों को कम करता है। इसका अर्थ यह है कि, इन शब्दों को भविष्यवाणी की जाने वाली शब्द की खिड़की में नहीं माना जाता है। नमूना पैरामीटर जो 0.001 का डिफ़ॉल्ट है, उन शब्दों को निकालने के लिए पैरामीटर के रूप में प्रयोग किया जाता है। यदि आप कुछ विशिष्ट स्टॉपवर्ड को हटाना चाहते हैं, जो इसकी आवृत्ति के आधार पर हटाए नहीं जाएंगे तो आप ऐसा कर सकते हैं। सारांश: यदि आप शब्द हटाने को रोकते हैं तो परिणाम कोई महत्वपूर्ण अंतर नहीं उठाएगा।

स्रोत

2016-11-06 07:43:28

शब्द 2vec

उत्तर

संबंधित मुद्दे