2010-11-09 15 views
11

का उपयोग कर डेटा वर्गीकृत करें मैं एक सरल वर्गीकरण समस्या को हल करने का प्रयास कर रहा हूं।Apache Mahout

समस्या:
मेरे पास टेक्स्ट का एक सेट है और मुझे सामग्री के आधार पर उन्हें वर्गीकृत करना होगा।

महोत्सव का उपयोग समाधान:
मुझे समझ में आया कि मुझे इनपुट उत्पन्न करने के लिए इनपुट को अनुक्रम फ़ाइल में परिवर्तित करना है। हाँ, मैं यह करने में सक्षम था। अब, मैं अपने टेस्ट डेटा को वर्गीकृत कैसे करूं? 20 न्यूज़ उदाहरण केवल शुद्धता के लिए परीक्षण करता है। लेकिन, मैं वास्तविक वर्गीकरण करना चाहता हूं।
मुझे यकीन नहीं है कि मुझे कोड लिखने की आवश्यकता है या परीक्षण सेट को वर्गीकृत करने के लिए उपलब्ध कुछ मौजूदा वर्गों का उपयोग करना है।

उत्तर

3

पर अपना काम करूंगा, मुझे अपना काम प्लग करने से नफरत है, लेकिन हमने वर्गीकरण के बारे में कार्रवाई में महाउट में एक संपूर्ण अनुभाग रखा है। थ्योरी, कोड उदाहरण, केस स्टडी प्रैक्टिस, यहां तक ​​कि एक संपूर्ण सर्वर फार्म कार्यान्वयन।

आप http://www.manning.com/owen/

+14

IMO पर पूर्व-रिलीज़ संस्करण प्राप्त कर सकते हैं, किताब में वर्गीकरण पर वर्गों सुधार किया जा सकता। वर्गीकरण पर वर्ग शब्दशः, अस्पष्ट और अक्सर, गैर अनुक्रमक है। अधिक जावा कोडिंग उदाहरण और कम बैश खोल उदाहरण हो सकते हैं। वर्गीकरण अनुभाग बेहतर हो सकता है अगर इसे परिचय अध्यायों की तरह लिखा गया हो: वर्गीकरण फ़ाइलों के प्रारूप को दिखाएं, उन्हें कैसे पढ़ा जाए, उन्हें अपने वर्गीकृत में कैसे लोड करें, एक बार प्रशिक्षित, एक नए नमूने वर्गीकृत करने के लिए वर्गीकरण का उपयोग कैसे करें। –

+8

मेरी इच्छा है कि महाउट में अधिक और बेहतर दस्तावेज़ीकरण हो। जो लोग मशीन लर्निंग में विशेषज्ञ हैं, उन्हें प्रोसेसिंग पाइपलाइन और कोड आर्किटेक्चर की संरचना को समझने में मुश्किल होती है। यहां तक ​​कि javadocs अनुचित शब्दावली का उपयोग करते हैं (setGramSize setNGramSize होना चाहिए) छोटे अर्थशास्त्र अवधारणाओं और कोड को समझने में एक बड़ा अंतर बनाते हैं। –

3

मुझे एक ही समस्या है।

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs 

चल रहा है एक पाठ मॉडल पर आधारित फ़ाइल को वर्गीकृत होगा।

यह आपको थोड़ा और आगे ले सकता है, लेकिन मुझे लगता है कि, मेरे जैसे, आप दस्तावेजों के पूरे भार को वर्गीकृत करना चाहते हैं और आप आउटपुट को एक उपयोगी प्रारूप में चाहते हैं।

ऐसा करने के लिए थोड़ा सा जावा प्रोग्राम करना पड़ सकता है। किसी के पास एक उदाहरण है जो ऐसा लगता है कि मैं https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java