में एक कस्टम वर्गीकृत कॉर्पस बनाना मुझे कुछ समस्याएं आ रही हैं जिन्हें नियमित अभिव्यक्तियों और CategorizedPlaintextCorpusReader
पायथन में करना है।एनएलटीके और पायथन
मैं एक कस्टम वर्गीकृत कॉर्पस बनाना चाहता हूं और उस पर एक बेवकूफ-बेयस वर्गीकृत को प्रशिक्षित करना चाहता हूं। मेरा मुद्दा निम्न है: मैं दो श्रेणियां, "pos" और "neg" रखना चाहता हूं। सकारात्मक फाइलें सभी एक निर्देशिका में हैं, main_dir/pos/*.txt
, और नकारात्मक एक अलग निर्देशिका में हैं, main_dir/neg/*.txt
।
मैं पॉज़ निर्देशिका में सभी सकारात्मक फ़ाइलों को लोड और लेबल करने के लिए CategorizedPlaintextCorpusReader
का उपयोग कैसे कर सकता हूं, और नकारात्मक लोगों के लिए ऐसा ही कर सकता हूं?
एनबी: सेटअप बिल्कुल Movie_reviews
कॉर्पस (~nltk_data\corpora\movie_reviews
) जैसा ही है।
देखें http://stackoverflow.com/questions/29275614/using-my-own-corpus-instead-of-movie-reviews-corpus-for-classification-in-nltk – alvas