2011-10-12 14 views
8

को बुलड करना मेरे पास XML में 5000 से अधिक विषय अनुक्रमित दस्तावेज़ों का मानव टैग किया गया कॉर्पस है। वे आकार में कुछ सौ किलोबाइट से कुछ सौ मेगाबाइट तक भिन्न होते हैं। पांडुलिपियों के लिए छोटे लेख होने के नाते। वे सभी को पैराग्राफ स्तर के रूप में गहराई से अनुक्रमित किया गया है। मैं भाग्यशाली हूं कि इस तरह के कॉर्पस उपलब्ध हैं, और मैं खुद को कुछ एनएलपी अवधारणाओं को पढ़ाने की कोशिश कर रहा हूं। माना जाता है, मैंने केवल शुरुआत की है। इस प्रकार केवल मुफ्त में उपलब्ध एनएलटीके पुस्तक, streamhacker, और स्किमिंग जैकोब्स (?) एनएलटीके कुकबुक पढ़ना। मुझे कुछ विचारों के साथ प्रयोग करना पसंद है।एनएलटीके/एनएलपी कई से अधिक/बहु-लेबल विषय वर्गीकरण

यह मुझे सुझाव दिया गया था कि शायद, मैं द्वि-ग्राम ले सकता हूं और नए दस्तावेजों को टैग करने के लिए बेवकूफ बेयस वर्गीकरण का उपयोग कर सकता हूं। मुझे लगता है जैसे यह गलत दृष्टिकोण है। एक बेवकूफ बेयस एक सच्चे/झूठे प्रकार के रिश्ते पर कुशल है, लेकिन इसे अपने पदानुक्रमित टैग सेट पर उपयोग करने के लिए मुझे प्रत्येक टैग के लिए एक नया वर्गीकरण बनाने की आवश्यकता होगी। उनमें से लगभग 1000। मेरे पास ऐसा कार्य करने के लिए स्मृति और प्रोसेसर शक्ति है, लेकिन परिणामों के बारे में संदेह है। हालांकि, मैं किसी के अनुरोध को खुश करने के लिए पहले इस दृष्टिकोण की कोशिश कर रहा हूं। मुझे यह संभवतः अगले दिन या दो में पूरा करना चाहिए, लेकिन मैं कम होने की सटीकता की भविष्यवाणी करता हूं।

तो मेरा प्रश्न थोड़ा सा खुला है। अनुशासन की प्रकृति और मेरे डेटा के साथ सामान्य अस्थायीता के कारण शायद यह सही जवाब देने में मुश्किल होगी।

  1. इस कार्य के लिए किस प्रकार का वर्गीकरण उपयुक्त होगा। क्या मैं गलत था कि बेयस का इस्तेमाल एक वास्तविक/झूठे प्रकार के ऑपरेशन से अधिक के लिए किया जा सकता है।

  2. इस तरह के कार्य के लिए मुझे किस विशेषता निष्कर्षण का पीछा करना चाहिए। मैं बिग्राम के साथ ज्यादा उम्मीद नहीं कर रहा हूं।

प्रत्येक दस्तावेज़ भी शामिल है, लेखक/s मीटर की लेखकों लिंग कुछ citational में जानकारी शामिल है, एफ, मिश्रण (एम & च), और अन्य (सरकारी संस्थान एट अल।), दस्तावेज़ प्रकार, प्रकाशित तिथि (वर्तमान में 16 वीं), मानव विश्लेषक, और कुछ अन्य सामान्य तत्व। लैंगिक पूर्वाग्रह, विश्लेषक पूर्वाग्रह इत्यादि के लिए इस डेटा की बेहतर जांच करने में सहायता के लिए मैं कुछ उपयोगी वर्णनात्मक कार्यों की भी सराहना करता हूं लेकिन महसूस करें कि इस प्रश्न के दायरे से थोड़ा सा है।

+2

यह देखना दिलचस्प होगा कि आपके कॉर्पस में दस्तावेज़ों के बीच सामान्यीकृत संपीड़न दूरी टैग के साथ सहसंबंधित है या नहीं। –

उत्तर

10

इस कार्य के लिए किस प्रकार का वर्गीकरण उचित होगा। क्या मैं गलत था कि बेयस का इस्तेमाल एक वास्तविक/झूठे प्रकार के ऑपरेशन से अधिक के लिए किया जा सकता है।

आप आसानी से building a separate binary classifier for each class द्वारा एक मल्टीलाबेल क्लासिफायरफायर बना सकते हैं, जो उस वर्ग और अन्य सभी के बीच अंतर कर सकता है। कक्षाएं जिसके लिए संबंधित वर्गीकृत सकारात्मक मूल्य उत्पन्न करता है, संयुक्त वर्गीकृत के आउटपुट होते हैं। आप इस या किसी अन्य एल्गोरिदम के लिए नाइव बेयस का उपयोग कर सकते हैं। (आप भी एनबी की संभावना उत्पादन और एक सीमा मूल्य के साथ साथ चाल चल सकता है, लेकिन नायब की संभावना अनुमान बेहद खराब हैं, केवल उन के बीच में अपनी रैंकिंग क्या यह मूल्यवान बना देता है।)

क्या सुविधा निष्कर्षण मैं एक ऐसी के लिए आगे बढ़ाने चाहिए कार्य

टेक्स्ट वर्गीकरण के लिए, टीएफ-आईडीएफ वैक्टर अच्छी तरह से काम करने के लिए जाने जाते हैं, लेकिन आपने यह निर्दिष्ट नहीं किया है कि सटीक कार्य क्या है। दस्तावेजों पर कोई मेटाडेटा भी काम कर सकता है; कुछ सरल सांख्यिकीय विश्लेषण करने का प्रयास करें। यदि डेटा की किसी भी विशेषता में कुछ कक्षाओं में दूसरों की तुलना में अधिक बार उपस्थित होता है, तो यह एक उपयोगी सुविधा हो सकती है।

+0

तो, मेरे पास कोई सीधा कार्य नहीं है। पानी में अपने पैरों को डालने का क्रमबद्ध करें। मैं क्या करना चाहता हूं यह देखने के लिए कि क्या मैं पैराग्राफ स्तर पर पदानुक्रमित ऑटोलॉजी की टैगिंग स्वचालित कर सकता हूं, यह देखने के लिए मेरे मानव टैग किए गए कॉर्पस का लाभ उठा रहा हूं। – matchew

+0

@matchew: फिर प्रासंगिक प्रतीत होने वाली किसी भी सुविधा का उपयोग करें, एकाधिक सेटअप का प्रयास करें और उनका मूल्यांकन करें। डेटा को देखे बिना प्रासंगिक क्या है यह बता नहीं रहा है। –

+0

सहायता के लिए धन्यवाद। इसकी बहुत सराहना की। मैं सवाल की जटिलता को समझता हूं, लेकिन शायद मुझे दायरे को विस्तारित करना चाहिए। किस तरह के फीचर निष्कर्ष एक पीछा कर सकते हैं। मुझे टीएफ-आईडीएफ द्वि-ग्राम से काफी बेहतर पसंद है। लेकिन अक्सर अन्य क्या उपयोगी होते हैं। मैं समझता हूं कि कोई सही जवाब नहीं है। पी.एस. मैं अपने प्रश्न की अधिक चर्चा को प्रोत्साहित करने के लिए इस प्रश्न को कई दिनों तक खुला छोड़ दूंगा। – matchew

0

मैं समझता हूं कि आपके पास हल करने के लिए दो कार्य हैं। पहला यह है कि आप अपने विषय के आधार पर एक लेख टैग करना चाहते हैं (?) और इस प्रकार लेख को एक से अधिक श्रेणियों/वर्गों में वर्गीकृत किया जा सकता है और इस प्रकार आपके पास बहु-लेबल वर्गीकरण समस्या है। बहु-लेबल वर्गीकरण समस्या को हल करने के लिए प्रस्तावित कई एल्गोरिदम हैं - कृपया साहित्य की जांच करें। जब मैं एक समान समस्या से निपट रहा था, तो मुझे यह पेपर काफी मददगार मिला: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.104.9401

दूसरी समस्या जिसे आप हल करना चाहते हैं वह लेखकों, लिंग, दस्तावेज़ के प्रकार के साथ पेपर को टैग करना है। यह एक बहु-श्रेणी की समस्या है - प्रत्येक वर्ग में दो से अधिक संभावित मूल्य होते हैं लेकिन इन दस्तावेजों के लिए सभी दस्तावेजों में कुछ मूल्य होते हैं।

मुझे लगता है कि पहले चरण के रूप में बहु-वर्ग और बहु-लेबल वर्गीकरण के बीच अंतर को समझना महत्वपूर्ण है।

संबंधित मुद्दे