2011-11-18 14 views
6

मैं समाचार वर्गीकरण में एक परियोजना कर रहा हूं। मूल रूप से सिस्टम प्री-डिफ़ाइंड विषय (जैसे खेल, राजनीतिक, अंतर्राष्ट्रीय) के आधार पर समाचार लेख वर्गीकृत करेगा। सिस्टम बनाने के लिए, मुझे सिस्टम को प्रशिक्षण देने के लिए मुफ्त डेटा सेट की आवश्यकता है।समाचार आलेख डेटा सेट

अभी तक, कुछ घंटों के बाद googling और here से लिंक केवल एक ही उपयुक्त डेटा सेट जो मुझे मिल सकता है this है। हालांकि यह उम्मीदपूर्वक पर्याप्त होगा, मुझे लगता है कि मैं और अधिक खोजने की कोशिश करूंगा।

ध्यान दें कि डेटा सेट मैं चाहता हूँ:

  1. पूर्ण समाचार लेखों, न सिर्फ शीर्षक
  2. अंग्रेजी
  3. में है .txt स्वरूप एक्सएमएल या db नहीं

में शामिल कोई भी मेरी मदद कर सकता हैं?

उत्तर

0

आप इसे बना सकते हैं, आप एक अजगर/पर्ल/PHP स्क्रिप्ट है जहाँ आप एक खोज चलाने लिख सकते हैं फिर जब आप जवाब मिल आप regex के साथ विशेषताओं को अलग कर सकते हैं ... मुझे लगता है कि सबसे अच्छा विकल्प है। आसान नहीं है लेकिन मजेदार होना चाहिए, अंततः आप हमारे साथ इस डेटासेट को साझा कर सकते हैं।

+1

हाँ, मैं डेटासेट खोजने की कोशिश कर रहा हूं क्योंकि मैं इस परियोजना में व्यस्त रहूंगा इसलिए मैं चीजों को कम करने की कोशिश करता हूं। इसके अलावा, मुझे नहीं पता कि पायथन/पर्ल/PHP में एक स्क्रिप्ट कैसे लिखना है। – Hearty

1

क्या आपने Reuters21578 का उपयोग करने का प्रयास किया है? टेक्स्ट वर्गीकरण के लिए यह सबसे आम डेटासेट है। यह एसजीएमएल में बनाया गया है, लेकिन यह विश्लेषण करना और एक txt प्रारूप में बदलना काफी आसान है।

संबंधित मुद्दे