प्राकृतिक भाषा प्रसंस्करण के लिए एआरएफएफ

मैं समीक्षाओं का एक सेट लेने की कोशिश कर रहा हूं, और उन्हें WEKA के उपयोग के लिए एआरएफएफ प्रारूप में परिवर्तित कर रहा हूं। दुर्भाग्यवश या तो मैं पूरी तरह गलत समझता हूं कि प्रारूप कैसे काम करता है, या मुझे सभी संभावित शब्दों, फिर एक उपस्थिति संकेतक के लिए एक विशेषता होगी। क्या किसी को बेहतर तरीके से पता है, या आदर्श रूप से एक नमूना एआरएफएफ फ़ाइल है?प्राकृतिक भाषा प्रसंस्करण के लिए एआरएफएफ

स्रोत

2011-05-28 Dean Barnes

थोड़ी देर के लिया बाहर काम करने के लिए, लेकिन यह input.arff साथ:

@relation text_files 

@attribute review string 
@attribute sentiment {0, 1} 

@data 
"this is some text", 1 
"this is some more text", 1 
"different stuff", 0

और इस आदेश:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff

निम्नलिखित उत्पादन किया जाता है:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' 

@attribute sentiment {0,1} 
@attribute different numeric 
@attribute is numeric 
@attribute more numeric 
@attribute some numeric 
@attribute stuff numeric 
@attribute text numeric 
@attribute this numeric 

@data 

{0 1,2 1,4 1,6 1,7 1} 
{0 1,2 1,3 1,4 1,6 1,7 1} 
{1 1,5 1}

स्रोत

2011-05-28 16:04:22

क्या आपको पता है कि '0 1' जैसे टुपल्स, '{0 1,2 1,4 1,6 1,7 1}' में कॉमा द्वारा अलग किए गए हैं? मुझे लगता है कि यह परंपरागत .arff प्रारूप से अलग है। क्या आपके पास WEKA के साथ सार्थक परिणाम प्राप्त करने के लिए कोई भाग्य है? – Rhubarb

यह काफी पुरानी पोस्ट है, लेकिन जो मैंने टुपल में पहला अंक याद किया है, वह @attribute संख्या है, और दूसरा नंबर स्ट्रिंग में अवसर गणना है। मुझे लगता है कि कुछ हद तक इसका मतलब यह हो सकता है कि आप क्या चाहते हैं, जब तक आप समझें कि परिणाम क्या हैं। –

आप तो सादा पाठ फ़ाइलों और विभिन्न फ़ोल्डर्स (सकारात्मक और नकारात्मक मामले में नकारात्मक) में समीक्षाओं को स्टोर करें, आप TextDirectoryLoader का उपयोग कर सकते हैं।

आपको यह वेका में या कमांड लाइन से नॉलेजफ्लो एप्लिकेशन में मिलता है। यहां अधिक जानकारी: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

स्रोत

2011-05-29 09:35:32 zdepablo

फाइलों का प्रारूप एक उदाहरण है, एक समीक्षा कहें, txt फ़ाइलों में प्रति पंक्ति? –

नहीं, आपके पास प्रति txt कई लाइनें हो सकती हैं – zdepablo

प्राकृतिक भाषा प्रसंस्करण के लिए एआरएफएफ

उत्तर

संबंधित मुद्दे