2011-02-15 13 views
6

में अपने कॉर्पस बनाने के लाभ मेरे पास माइस्क्ल टेबल में बड़ी मात्रा में टेक्स्ट है। मैं कुछ सांख्यिकीय विश्लेषण करना चाहता हूं और बाद में एनएलटीके टूलकिट का उपयोग करके अपने पाठ पर कुछ एनएलपी पर करना चाहता हूं। मैं दो विकल्प हैं:एनएलटीके

  1. एक ही बार में मेरी डीबी तालिका (शायद उन्हें एक फ़ाइल अगर जरूरत में डाल) से सभी पाठ निकालें और NLTK कार्यों
  2. पाठ निकालें का उपयोग करें और यह एक "कोष में बदल "जिसका उपयोग एनएलटीके के साथ किया जा सकता है।

बाद काफी जटिल लगता है और मैं किसी भी लेख है कि वास्तव में वर्णन करता है कि यह कैसे उपयोग करने के लिए मैं केवल यह पाया नहीं मिला है: Creating a MongoDB backed corpus reader जो अपने डेटाबेस के रूप में MongoDB उपयोग करता है और कोड काफी जटिल है और यह भी MongoDB जानने की आवश्यकता है। दूसरी ओर, पूर्व वास्तव में सीधा लगता है लेकिन परिणामस्वरूप डीबी से ग्रंथों को निकालने वाले ओवरहेड में परिणाम मिलता है।

अब सवाल यह है कि एनएलटीके में कॉर्पस के फायदे क्या हैं? दूसरे शब्दों में, यदि मैं चुनौती लेता हूं और NTLK विधियों को ओवरराइट करने में खोदता हूं तो यह MySQL डेटाबेस से पढ़ सकता है, क्या यह परेशानी के लायक होगा? क्या मेरे पाठ को कॉर्पस में बदलना मुझे ऐसा कुछ देता है जो मैं सामान्य एनएलटीके कार्यों के साथ नहीं कर सकता (या बहुत कठिनाई के साथ)?

यदि आप MySQL को NLTK से कनेक्ट करने के बारे में कुछ जानते हैं तो कृपया मुझे बताएं। धन्यवाद

उत्तर

3

बहुत कुछ पढ़ने के बाद मुझे जवाब मिला। कई बहुत उपयोगी कार्य हैं जैसे कोलाकेशंस, सर्च, कॉमन_कोनटेक्स्ट, इसी तरह का उपयोग उन ग्रंथों पर किया जा सकता है जो एनएलटीके में कॉर्पस के रूप में सहेजे जाते हैं। उन्हें लागू करने में काफी समय लगता है। यदि डेटाबेस से मेरा टेक्स्ट चुनें और फ़ाइल में डालें और nltk.Text फ़ंक्शन का उपयोग करें तो मैं कोड के कई लाइनों या यहां तक ​​कि ओवरराइटिंग विधियों को लिखने की आवश्यकता के बिना पहले बताए गए सभी कार्यों का उपयोग कर सकता हूं ताकि मैं MySQL से कनेक्ट कर सकूं। यहां अधिक जानकारी के लिए लिंक दिया गया है: nltk.Text

+3

मैं मोंगोडीबी लेख लेखक हूं, लेकिन मुझे लगता है कि आपने सबसे अच्छा निर्णय लिया है। सादा पाठ फ़ाइलों के साथ आप बहुत कुछ कर सकते हैं जो पाठ डेटाबेस में होने पर बहुत कठिन होता है। मैंने इस लेख को एक उदाहरण के रूप में लिखा है जो संभव है, लेकिन यह हमेशा एक अच्छा विचार नहीं बनाता है। – Jacob

+0

nlkt.Text के लिए आपका लिंक मृत है। – Private

+0

मैं मोंगोडीबी में टेक्स्ट के साथ nltk का उपयोग करने में देख रहा हूं, और ऐसा लगता है कि एक एमओएनओडीबी-समर्थित कॉर्पस का प्राथमिक लाभ मूल डीबी टेक्स्ट डेटा के मध्यवर्ती स्टोरेज चरण (जैसे फ्लैट फाइलों) की आवश्यकता के बिना सीधे nltk हेरफेर है । – chinnychinchin

संबंधित मुद्दे