मैं समीक्षाओं का एक सेट लेने की कोशिश कर रहा हूं, और उन्हें WEKA के उपयोग के लिए एआरएफएफ प्रारूप में परिवर्तित कर रहा हूं। दुर्भाग्यवश या तो मैं पूरी तरह गलत समझता हूं कि प्रारूप कैसे काम करता है, या मुझे सभी संभावित शब्दों, फिर एक उपस्थिति संकेतक के लिए एक विशेषता होगी। क्या किसी को बेहतर तरीके से पता है, या आदर्श रूप से एक नमूना एआरएफएफ फ़ाइल है?प्राकृतिक भाषा प्रसंस्करण के लिए एआरएफएफ
उत्तर
थोड़ी देर के लिया बाहर काम करने के लिए, लेकिन यह input.arff साथ:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
और इस आदेश:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
निम्नलिखित उत्पादन किया जाता है:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
आप तो सादा पाठ फ़ाइलों और विभिन्न फ़ोल्डर्स (सकारात्मक और नकारात्मक मामले में नकारात्मक) में समीक्षाओं को स्टोर करें, आप TextDirectoryLoader का उपयोग कर सकते हैं।
आपको यह वेका में या कमांड लाइन से नॉलेजफ्लो एप्लिकेशन में मिलता है। यहां अधिक जानकारी: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
फाइलों का प्रारूप एक उदाहरण है, एक समीक्षा कहें, txt फ़ाइलों में प्रति पंक्ति? –
नहीं, आपके पास प्रति txt कई लाइनें हो सकती हैं – zdepablo
- 1. प्राकृतिक भाषा प्रसंस्करण पैकेज
- 2. प्राकृतिक भाषा क्वेरी प्रसंस्करण के लिए डेटाबेस
- 3. प्राकृतिक भाषा प्रसंस्करण में बिनराइजेशन
- 4. संयुक्त भाषा के लिए प्राकृतिक भाषा प्रसंस्करण फिक्स
- 5. प्राकृतिक भाषा प्रसंस्करण: अंग्रेजी में अस्पष्टता खोजें?
- 6. क्या कोई अच्छी प्राकृतिक भाषा प्रसंस्करण लाइब्रेरी
- 7. प्राकृतिक भाषा प्रसंस्करण - शुरुआती परियोजनाओं के लिए विचार
- 8. प्राकृतिक अंग्रेजी भाषा शब्द
- 9. प्राकृतिक भाषा कमांड भाषा
- 10. प्राकृतिक भाषा प्रसंस्करण में एक चंकर क्या है?
- 11. प्राकृतिक भाषा प्रसंस्करण में, चंकने का उद्देश्य क्या है?
- 12. प्राकृतिक भाषा प्रकारों के लिए उपप्रकार
- 13. तिथियों के लिए प्राकृतिक भाषा जनरेटर (जावा)
- 14. प्राकृतिक भाषा संसाधन पीएचपी
- 15. प्राकृतिक भाषा प्रसंस्करण के लिए नवीनतम अच्छी भाषाएं और किताबें, मूल बातें
- 16. क्या हास्केल के लिए कोई सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण लाइब्रेरी है?
- 17. PHP में प्राकृतिक भाषा जनरेशन
- 18. एक ईमेल के मूड के लिए प्राकृतिक भाषा संसाधन एल्गोरिथ्म
- 19. लॉजिकल फॉरेसी डिटेक्शन और/या प्राकृतिक-भाषा-प्रसंस्करण के साथ पहचान
- 20. रूबी/रेल के लिए प्राकृतिक भाषा दिनांक पार्सर
- 21. व्यंजनों के लिए प्राकृतिक भाषा घटक मात्रा को पार्सिंग
- 22. पैराफ्रेशिंग के लिए उपयोग करने के लिए एक अच्छी प्राकृतिक भाषा लाइब्रेरी क्या है?
- 23. प्राकृतिक भाषा एक नियुक्ति का विश्लेषण?
- 24. एकल भाषा का अनुवाद, कंप्यूटर भाषा प्रसंस्करण उपकरण
- 25. चिकित्सा छवि प्रसंस्करण के लिए सर्वश्रेष्ठ प्रोग्रामिंग भाषा
- 26. प्राकृतिक सॉर्टिंग के लिए आईसीओएमपेयर
- 27. शब्द आवृत्तियों से एआरएफएफ बनाना
- 28. प्रसंस्करण भाषा का उपयोग कब करें?
- 29. छवि प्रसंस्करण के लिए जावा या सी
- 30. पर्ल के लिए कुछ अच्छी प्राकृतिक भाषा पार्सिंग उपकरण क्या हैं?
क्या आपको पता है कि '0 1' जैसे टुपल्स, '{0 1,2 1,4 1,6 1,7 1}' में कॉमा द्वारा अलग किए गए हैं? मुझे लगता है कि यह परंपरागत .arff प्रारूप से अलग है। क्या आपके पास WEKA के साथ सार्थक परिणाम प्राप्त करने के लिए कोई भाग्य है? – Rhubarb
यह काफी पुरानी पोस्ट है, लेकिन जो मैंने टुपल में पहला अंक याद किया है, वह @attribute संख्या है, और दूसरा नंबर स्ट्रिंग में अवसर गणना है। मुझे लगता है कि कुछ हद तक इसका मतलब यह हो सकता है कि आप क्या चाहते हैं, जब तक आप समझें कि परिणाम क्या हैं। –