को बुलड करना मेरे पास XML में 5000 से अधिक विषय अनुक्रमित दस्तावेज़ों का मानव टैग किया गया कॉर्पस है। वे आकार में कुछ सौ किलोबाइट से कुछ सौ मेगाबाइट तक भिन्न होते हैं। पांडुलिपियों के लिए छोटे लेख होने के नाते। वे सभी को पैराग्राफ स्तर के रूप में गहराई से अनुक्रमित किया गया है। मैं भाग्यशाली हूं कि इस तरह के कॉर्पस उपलब्ध हैं, और मैं खुद को कुछ एनएलपी अवधारणाओं को पढ़ाने की कोशिश कर रहा हूं। माना जाता है, मैंने केवल शुरुआत की है। इस प्रकार केवल मुफ्त में उपलब्ध एनएलटीके पुस्तक, streamhacker, और स्किमिंग जैकोब्स (?) एनएलटीके कुकबुक पढ़ना। मुझे कुछ विचारों के साथ प्रयोग करना पसंद है।एनएलटीके/एनएलपी कई से अधिक/बहु-लेबल विषय वर्गीकरण
यह मुझे सुझाव दिया गया था कि शायद, मैं द्वि-ग्राम ले सकता हूं और नए दस्तावेजों को टैग करने के लिए बेवकूफ बेयस वर्गीकरण का उपयोग कर सकता हूं। मुझे लगता है जैसे यह गलत दृष्टिकोण है। एक बेवकूफ बेयस एक सच्चे/झूठे प्रकार के रिश्ते पर कुशल है, लेकिन इसे अपने पदानुक्रमित टैग सेट पर उपयोग करने के लिए मुझे प्रत्येक टैग के लिए एक नया वर्गीकरण बनाने की आवश्यकता होगी। उनमें से लगभग 1000। मेरे पास ऐसा कार्य करने के लिए स्मृति और प्रोसेसर शक्ति है, लेकिन परिणामों के बारे में संदेह है। हालांकि, मैं किसी के अनुरोध को खुश करने के लिए पहले इस दृष्टिकोण की कोशिश कर रहा हूं। मुझे यह संभवतः अगले दिन या दो में पूरा करना चाहिए, लेकिन मैं कम होने की सटीकता की भविष्यवाणी करता हूं।
तो मेरा प्रश्न थोड़ा सा खुला है। अनुशासन की प्रकृति और मेरे डेटा के साथ सामान्य अस्थायीता के कारण शायद यह सही जवाब देने में मुश्किल होगी।
इस कार्य के लिए किस प्रकार का वर्गीकरण उपयुक्त होगा। क्या मैं गलत था कि बेयस का इस्तेमाल एक वास्तविक/झूठे प्रकार के ऑपरेशन से अधिक के लिए किया जा सकता है।
इस तरह के कार्य के लिए मुझे किस विशेषता निष्कर्षण का पीछा करना चाहिए। मैं बिग्राम के साथ ज्यादा उम्मीद नहीं कर रहा हूं।
प्रत्येक दस्तावेज़ भी शामिल है, लेखक/s मीटर की लेखकों लिंग कुछ citational में जानकारी शामिल है, एफ, मिश्रण (एम & च), और अन्य (सरकारी संस्थान एट अल।), दस्तावेज़ प्रकार, प्रकाशित तिथि (वर्तमान में 16 वीं), मानव विश्लेषक, और कुछ अन्य सामान्य तत्व। लैंगिक पूर्वाग्रह, विश्लेषक पूर्वाग्रह इत्यादि के लिए इस डेटा की बेहतर जांच करने में सहायता के लिए मैं कुछ उपयोगी वर्णनात्मक कार्यों की भी सराहना करता हूं लेकिन महसूस करें कि इस प्रश्न के दायरे से थोड़ा सा है।
यह देखना दिलचस्प होगा कि आपके कॉर्पस में दस्तावेज़ों के बीच सामान्यीकृत संपीड़न दूरी टैग के साथ सहसंबंधित है या नहीं। –