2011-04-08 9 views
9

मैंने अपनी पिछली जावा परियोजनाओं के लिए लिंगपिप, स्टैनफोर्ड के एनईआर, रीटा और विभिन्न वाक्य समानता पुस्तकालयों का उपयोग किया है जो बड़ी मात्रा में अंग्रेजी पाठ (टेक्स्टिंग), इंडेक्सिंग, एक्सएमएल टैगिंग, विषय पहचान आदि पर केंद्रित हैं) पाठ के 1 जीबी के लिए 10,000 दस्तावेज संक्षेप में)। हो सकता है कि मैं एक खराब जावा प्रोग्रामर हूं, लेकिन जब मैं एक अलग कॉर्पस पर स्विच करता हूं तो मुझे अपने आप को बहुत सारे कोड टाइप करते हैं और कई पुस्तकालयों का उपयोग करते हैं। कुल मिलाकर, मुझे लगता है कि नौकरी के लिए एक बेहतर उपकरण हो सकता है।पायथन के एनएलटीके बनाम संबंधित जावा पुस्तकालय?

मुझे लगता है कि मेरा सवाल है, क्या मुझे सूचना पुनर्प्राप्ति/भाषा प्रसंस्करण के लिए पायथन और एनएलटीके में स्विच करने से लाभ होगा? या क्या यह बहुत ही व्यक्तिपरक बनाने के लिए पर्याप्त पेशेवर और विपक्ष हैं? क्या एनएलटीके सहज ज्ञान से सीखने के लिए सहज है?

मुझे अपने हाथ गंदे मिलेंगे, लेकिन अगले कुछ दिनों तक मुझे व्यक्तिगत मशीन तक पहुंच नहीं होगी।

उत्तर

11

NLTK प्राकृतिक भाषा प्रसंस्करण के लिए अच्छा है। मैंने इसे अपने डेटा-खनन परियोजना के लिए उपयोग किया है। आप अपने खुद के विश्लेषक को प्रशिक्षित कर सकते हैं। सीखने की अवस्था खड़ी नहीं है।

एनएलटीके को आपके विश्लेषक के प्रशिक्षण के लिए भारी कॉर्पस मिला। आप अपना खुद का डेटा भी सेट कर सकते हैं, उदाहरण के लिए, एक जर्नल जो एक अंश-भाषण टैग किया गया है।

क्योंकि टेक्स्ट प्रोसेसिंग के लिए अजगर बहुत अच्छा है, तो आप इसे आज़मा सकते हैं। इसके अलावा, इसे ऑनलाइन tutorial

कृपया पाइथन 2.x संस्करण का उपयोग करना न भूलें। पायथन 2.6 का प्रयास करें। एनएलटीके पाइथन 3.x

+0

सलाह के लिए धन्यवाद। ऐसा लगता है कि मैदान में ज्यादातर लोग पाइथन और एनएलटीके पसंद करते हैं, लेकिन जावा समाधानों की कतरनी संख्या ने मुझे सोचा कि मैं एक और अधिक उत्साही जहाज छोड़ रहा हूं। – wnewport

7

के साथ अच्छा नहीं हो सकता है यदि आप पहले से ही एनएलपी की मूल बातें समझते हैं, तो मुझे लगता है कि एनएलटीके को चुनना बहुत आसान होना चाहिए। इसे दस्तावेज का एक गुच्छा मिला है, 2 किताबें हैं, और मैंने ट्यूटोरियल streamhacker.com पर कई लेख लिखे हैं। और यदि जावा पैकेज से कुछ भी है जो आप खोना नहीं चाहते हैं, तो आप सैद्धांतिक रूप से इसे Jython (और शायद execnet) का उपयोग करके एनएलटीके के साथ जोड़ सकते हैं।

आप Pattern लाइब्रेरी पर भी एक नज़र डालना चाहेंगे।

+0

मुझे लगता है कि मैं तुम्हें जानता हूं ..... जैकब, मेरे स्नातक पत्र में आपके कुछ लेख उद्धृत! – lamwaiman1988

+0

कूल, हमेशा उद्धृत होना अच्छा है :) – Jacob

+0

आप ज्योथन का उपयोग नहीं कर सकते क्योंकि ज्योथन पर कोई numpy नहीं है :(। – andychase

संबंधित मुद्दे