मैं पायथन का उपयोग करके ट्वीट्स पर सेंटीमेंट विश्लेषण करने की कोशिश कर रहा हूं।भावनाओं के विश्लेषण के लिए लोग एन-ग्राम का उपयोग कैसे करते हैं, क्योंकि एन बढ़ने के कारण, स्मृति आवश्यकता भी तेजी से बढ़ती है?
आरंभ करने के लिए, मैंने एक एन-ग्राम मॉडल लागू किया है। तो, मान लीजिए कि हमारे प्रशिक्षण डेटा
I am a good kid
He is a good kid, but he didn't get along with his sister much
Unigrams है:
<i, am, a, good, kid, he, but, didnt, get, along, with, his, sister, much>
Bigrams:
<(i am), (am a), (a good), (good kid), (he is), (is a), (kid but), (but he), (he didnt), (didnt get), (get along), (along with), (with his), (his sister), (sister much)>
Trigrams:
<(i am a), (am a good), (a good kid), .........>
अंतिम फीचर वेक्टर:
<i, am, a, good, kid, he, but, didnt, get, along, with, his, sister, much, (i am), (am a), (a good), (good kid), (he is), (is a), (kid but), (but he), (he didnt), (didnt get), (get along), (along with), (with his), (his sister), (sister much), (i am a), (am a good), (a good kid), .........>
जब हम 8000 या तो प्रविष्टियों की एक बड़ी प्रशिक्षण डेटा, के लिए ऐसा करते हैं, फीचर वेक्टर के आयामी स्वरूप एक परिणाम के रूप में भी विशाल हो जाता है जिसमें से, मेरे कंप्यूटर (रैम = 16 जीबी) दुर्घटनाओं।
तो, जब लोग "एन-ग्राम्स" सुविधाओं के रूप में उपयोग करते हैं, तो 100 के कागजात में, वे किस बारे में बात कर रहे हैं? क्या मुझसे कुछ गलत हो रही है?
क्या लोग हमेशा "एन-ग्राम्स" के लिए कुछ फीचर चयन करते हैं? यदि हां, तो मुझे किस प्रकार का फीचर चयन देखना चाहिए?
मैं आप अपने अंतिम फीचर वेक्टर स्टोर यदि यह
पूरे डेटा में आपके कितने अद्वितीय टोकन हैं? आपके फीचर वेक्टर का आकार क्या है? – Daniel
यह सुनिश्चित करने के लिए कि आप प्रत्येक टोकन की एक प्रति केवल संग्रहित कर रहे हैं, 'intern() 'का उपयोग करें। – kindall
आपकी सोच बिल्कुल सही है कि 'n' के बड़े मूल्यों के लिए, अंतिम सुविधा वेक्टर बड़ा होगा। हालांकि, इस तरह के एक बड़े वेक्टर को कुशलतापूर्वक स्टोर करना संभव है (शब्दों के सह-घटनाओं को जानना)। अलग-अलग, यह शायद ही कभी 'n> 6' का उपयोग करने के लिए समझ में आता है क्योंकि आपके पास अपर्याप्त प्रशिक्षण डेटा होगा (लंबी, पतली पूंछ की वजह से)।जब ये कागजात एन-ग्राम के बारे में बात करते हैं, तो वे एक स्केलेबल 'एन' के बारे में बात नहीं कर रहे हैं - वे आम तौर पर एक विशिष्ट' एन' (जिसका मूल्य परिणाम या प्रयोग अनुभाग में प्रकट किया जा सकता है) – inspectorG4dget