2010-12-16 18 views
11

चूंकि बड़े वेब अनुप्रयोग अस्तित्व में आए, डेटा की खोज (और इसे तेज और सटीक बिजली करना) वेब अनुप्रयोगों में सबसे महत्वपूर्ण समस्याओं में से एक रहा है। थोड़ी देर के लिए, मैंने Lucene.NET का उपयोग करके काम किया है, जो Lucene project का सी # पोर्ट है।एनएलपी प्रोग्रामिंग उपकरण?

मैं Zend Framework's Lucene API का उपयोग करके PHP का उपयोग करके भी काम करता हूं, जो मुझे मेरे प्रश्न पर लाता है। अच्छा अनुक्रमण हम tokenizing, lemmatizing, और कई और अधिक जैसे कुछ NLP उपकरण प्रदर्शन करने की जरूरत है प्रदान करने के लिए कई बार, सवाल यह है:

आप किसी भी अच्छा NLP प्रोग्रामिंग ढांचे/टूलसेट PHP का उपयोग का पता है?

पीएस: मुझे ल्यूसीन के लिए ज़ेंड एपीआई के बारे में बहुत जानकारी है, लेकिन डेटा को अनुक्रमणित करना सिर्फ ल्यूसीन में ही भंडारण और भरोसा नहीं है, आपको ऊपर दिए गए कुछ अतिरिक्त कार्य करने की आवश्यकता है।

उत्तर

7

साथ में टाई कर सकते हैं मुझे लगता है कि आप Solr को देखो, जो एक सबसे अच्छा है सुझाव है कि है है ल्यूसीन के कार्यान्वयन का अभ्यास करें। सोलर एक आरईएसटी आधारित एपीआई का उपयोग करता है जिसमें बहुत अच्छा PHP client भी है। यह आपको एनएलपी शक्ति प्राप्त करने के लिए निम्न स्तर के प्रोग्रामिंग को करने के बिना ल्यूसीन की शक्ति का लाभ उठाने की अनुमति देगा। इसके अलावा, आप शायद सोलर के ट्रंक संस्करण को पकड़ना चाहते हैं क्योंकि एनएलपी विकास अभी बहुत सक्रिय है और हर दिन नई क्षमताओं को जोड़ा जा रहा है।

4

ज़ेंड में PHP के लिए ल्यूसीन का पूरा बंदरगाह है। दस्तावेज़ here देखें।

+0

हाँ, मैं इसके बारे में पता है, और मैं इसका इस्तेमाल, लेकिन मेरे NLP उपकरण जहां के बारे में किसी भी टोकननाइज़र, नाम पार्सर्स या कुछ ऐसा ढूंढना। मैं वैसे भी सवाल संपादित करूंगा, क्योंकि शायद पर्याप्त स्पष्ट नहीं है। –

+0

@ डेविड: मैंने अपने जवाब में और जोड़ा; लुसीन वास्तव में टोकननाइज़ और लेमैमैटिज़ कर सकते हैं। – Xodarap

+0

मैं लुसीन की क्षमताओं के बारे में भी जानता हूं, लेकिन आप जावा मूल प्रोजेक्ट पर संकेत दे रहे हैं और मुझे लगता है कि ज़ेंड पोर्ट में उन्हें शामिल नहीं किया गया है, इसलिए मैं अभी भी वही हूं। वैसे भी –

0

ऐसा लगता है कि आप एक ही सामान की तलाश कर रहे हैं जो मैंने कुछ महीने पहले गुगल किया था: डी ... मैं सोलर (php-solr-client lib के माध्यम से) के साथ एक php/zend आधारित प्रोजेक्ट चला रहा हूं, और अब तक मैं उन्नत एनएलपी के लिए php में कुछ भी मिला है। बुनियादी सामग्री के लिए, जैसा कि हर कोई उल्लेख करता है, आप सोलर (स्टेमिंग, टैग क्लाउड/वाक्यांश टैग क्लाउड, टोकनिंग इत्यादि) से दूर हो सकते हैं, और वहां कुछ बुनियादी लेकिन उपयोगी टेक्स्ट प्रसंस्करण PHP पुस्तकालय हैं (वास्तव में कुछ भी नहीं, वास्तव में भरोसा सोलर पर ही) ... लेकिन यदि आप अधिक एल्गोरिदमिक/अर्थात्/भावना एनएलपी विश्लेषण की तलाश में हैं तो मेरा सुझाव है कि आप PHP से थोड़ा आगे बढ़ें और जावा में आएं, क्योंकि ऐसे पुस्तकालय हैं जो इस क्षेत्र में आपकी मदद कर सकते हैं (जैसे ओपनएनएलपी)। मामले में ते adavanced सामान है क्या आप देख रहे हैं, तो आप शायद महावत पर एक नज़र लेने के लिए चाहते हो सकता है:

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/

संबंधित मुद्दे