में अपने कॉर्पस बनाने के लाभ मेरे पास माइस्क्ल टेबल में बड़ी मात्रा में टेक्स्ट है। मैं कुछ सांख्यिकीय विश्लेषण करना चाहता हूं और बाद में एनएलटीके टूलकिट का उपयोग करके अपने पाठ पर कुछ एनएलपी पर करना चाहता हूं। मैं दो विकल्प हैं:एनएलटीके
- एक ही बार में मेरी डीबी तालिका (शायद उन्हें एक फ़ाइल अगर जरूरत में डाल) से सभी पाठ निकालें और NLTK कार्यों
- पाठ निकालें का उपयोग करें और यह एक "कोष में बदल "जिसका उपयोग एनएलटीके के साथ किया जा सकता है।
बाद काफी जटिल लगता है और मैं किसी भी लेख है कि वास्तव में वर्णन करता है कि यह कैसे उपयोग करने के लिए मैं केवल यह पाया नहीं मिला है: Creating a MongoDB backed corpus reader जो अपने डेटाबेस के रूप में MongoDB उपयोग करता है और कोड काफी जटिल है और यह भी MongoDB जानने की आवश्यकता है। दूसरी ओर, पूर्व वास्तव में सीधा लगता है लेकिन परिणामस्वरूप डीबी से ग्रंथों को निकालने वाले ओवरहेड में परिणाम मिलता है।
अब सवाल यह है कि एनएलटीके में कॉर्पस के फायदे क्या हैं? दूसरे शब्दों में, यदि मैं चुनौती लेता हूं और NTLK विधियों को ओवरराइट करने में खोदता हूं तो यह MySQL डेटाबेस से पढ़ सकता है, क्या यह परेशानी के लायक होगा? क्या मेरे पाठ को कॉर्पस में बदलना मुझे ऐसा कुछ देता है जो मैं सामान्य एनएलटीके कार्यों के साथ नहीं कर सकता (या बहुत कठिनाई के साथ)?
यदि आप MySQL को NLTK से कनेक्ट करने के बारे में कुछ जानते हैं तो कृपया मुझे बताएं। धन्यवाद
मैं मोंगोडीबी लेख लेखक हूं, लेकिन मुझे लगता है कि आपने सबसे अच्छा निर्णय लिया है। सादा पाठ फ़ाइलों के साथ आप बहुत कुछ कर सकते हैं जो पाठ डेटाबेस में होने पर बहुत कठिन होता है। मैंने इस लेख को एक उदाहरण के रूप में लिखा है जो संभव है, लेकिन यह हमेशा एक अच्छा विचार नहीं बनाता है। – Jacob
nlkt.Text के लिए आपका लिंक मृत है। – Private
मैं मोंगोडीबी में टेक्स्ट के साथ nltk का उपयोग करने में देख रहा हूं, और ऐसा लगता है कि एक एमओएनओडीबी-समर्थित कॉर्पस का प्राथमिक लाभ मूल डीबी टेक्स्ट डेटा के मध्यवर्ती स्टोरेज चरण (जैसे फ्लैट फाइलों) की आवश्यकता के बिना सीधे nltk हेरफेर है । – chinnychinchin