2012-09-06 21 views
13

मेरी तो सही नहीं अंग्रेजी के लिए खेद है पहले ... मैं जर्मनी से हूँ;)भावना विश्लेषण के संबंध में प्राकृतिक भाषा संसाधन उपकरण की सूची - आप कौन-सी की सिफारिश करते हैं

तो, मेरा एक अनुसंधान परियोजना के लिए (बैचलर थीसिस) मुझे कुछ कंपनियों और ब्रांडों के बारे में ट्वीट्स की भावना का विश्लेषण करने की आवश्यकता है। इस उद्देश्य के लिए मुझे अपने स्वयं के कार्यक्रम को स्क्रिप्ट करने/किसी प्रकार के संशोधित ओपन सोर्स कोड का उपयोग करने की आवश्यकता होगी (कोई एपीआई '- मुझे यह समझने की जरूरत है कि क्या हो रहा है)।

नीचे आपको मिले कुछ एनएलपी अनुप्रयोगों की एक सूची मिलेगी। मेरा प्रश्न अब कौन सा है और आप किस दृष्टिकोण की सिफारिश करेंगे? और कौन सा कोड समायोजित करने वाली लंबी रातों की आवश्यकता नहीं है?

उदाहरण के लिए: जब मैं संगीत प्लेयर के लिए ट्विटर स्क्रीन करता हूं> आईपॉड < और कोई लिखता है: "यह एक भयानक दिन है लेकिन कम से कम मेरा आइपॉड मुझे खुश करता है" या इससे भी कठिन: "यह एक भयानक दिन है लेकिन कम से कम मेरा आइपॉड इसके लिए बनाता है "

कौन सा सॉफ़्टवेयर समझने के लिए पर्याप्त स्मार्ट है कि केंद्रित आईपॉड पर है और मौसम नहीं है?

यह भी कौन सा सॉफ़्टवेयर स्केलेबल/संसाधन कुशल है (मैं कई ट्वीट्स का विश्लेषण करना चाहता हूं और हजारों डॉलर खर्च नहीं करना चाहता)?

मशीन सीखने और डाटा खनन

Weka - डाटा खनन के लिए मशीन सीखने एल्गोरिदम का एक संग्रह है। यह सबसे लोकप्रिय पाठ वर्गीकरण ढांचे में से एक है। इसमें विभिन्न प्रकार के एल्गोरिदम शामिल हैं जिनमें बेवकूफ बेयस और सपोर्ट वेक्टर मशीनें (एसएमओ, एसएमओ के तहत सूचीबद्ध) शामिल हैं [नोट: अन्य सामान्य रूप से उपयोग किए जाने वाले गैर-जावा एसवीएम कार्यान्वयन एसवीएम-लाइट, लिबएसवीएम, और एसवीएम टॉर्च] हैं। एक संबंधित प्रोजेक्ट केया (कीफ्रेज़ एक्सट्रैक्शन एल्गोरिदम) टेक्स्ट दस्तावेज़ों से कीफ्रेज़ निकालने के लिए एक एल्गोरिदम है।

अपाचे ल्यूसीन महाउट - हडोप मानचित्र के शीर्ष पर सामान्य मशीन लर्निंग एल्गोरिदम के अत्यधिक स्केलेबल वितरित कार्यान्वयन के लिए एक इनक्यूबेटर प्रोजेक्ट-फ्रेमवर्क को कम करें।

NLP उपकरण

LingPipe - (नहीं तकनीकी रूप से 'खुला स्रोत, नीचे देखें) उर्फ-मैं के Lingpipe इकाई निष्कर्षण, भाषण टैगिंग सहित पाठ के भाषाई प्रसंस्करण के लिए जावा डिवाइस का सुइट (स्थिति है), क्लस्टरिंग, वर्गीकरण, आदि ... यह उद्योग में सबसे परिपक्व और व्यापक रूप से प्रयुक्त ओपन सोर्स एनएलपी टूलकिट्स में से एक है। यह इसकी गति, स्थिरता और स्केलेबिलिटी के लिए जाना जाता है। शुरू करने में आपकी सहायता के लिए इसकी सबसे अच्छी सुविधाओं में से एक अच्छी तरह लिखित ट्यूटोरियल का व्यापक संग्रह है। उनके पास अकादमिक और औद्योगिक दोनों उपकरण प्रतिस्पर्धा के लिंक की एक सूची है। अपने ब्लॉग को देखना सुनिश्चित करें। लिंगपाइप को रॉयल्टी मुक्त वाणिज्यिक लाइसेंस के तहत जारी किया गया है जिसमें स्रोत कोड शामिल है, लेकिन यह तकनीकी रूप से 'ओपन-सोर्स' नहीं है।

OpenNLP - जावा आधारित NLP उपकरण जो वाक्य का पता लगाने, tokenization करते हैं, की एक किस्म को होस्ट हिस्सा के- भाषण टैगिंग, बेडौल और पार्स, नामित इकाई का पता लगाने, और सह संदर्भ विश्लेषण Maxent मशीन सीखने का उपयोग कर पैकेज।

स्टैनफोर्ड पार्सर और पार्ट-ऑफ-स्पीच (पीओएस) टैगर - वाक्य पार्सिंग के लिए जावा पैकेज और स्टैनफोर्ड एनएलपी समूह से भाषण टैगिंग का हिस्सा।इसमें संभाव्य प्राकृतिक भाषा पार्सर्स, अत्यधिक अनुकूलित पीसीएफजी और लेक्सिकलकृत निर्भरता पार्सर्स, और एक व्याख्यात्मक पीसीएफजी पार्सर दोनों के कार्यान्वयन हैं। इसमें एक पूर्ण जीएनयू जीपीएल लाइसेंस है।

ओपनएफएसटी - भारित परिमित राज्य ऑटोमाटा में हेरफेर करने के लिए एक पैकेज। इन्हें अक्सर एक संभाव्य मॉडल का प्रतिनिधित्व करने के लिए उपयोग किया जाता है। वे भाषण मान्यता, ओसीआर त्रुटि सुधार, मशीन अनुवाद, और कई अन्य कार्यों के लिए पाठ मॉडल करने के लिए उपयोग किया जाता है। लाइब्रेरी को Google रिसर्च और एनवाईयू के योगदानकर्ताओं द्वारा विकसित किया गया था। यह एक सी ++ लाइब्रेरी है जो तेज और स्केलेबल होने का मतलब है।

एनटीएलके - प्राकृतिक भाषा टूलकिट वर्गीकरण, क्लस्टरिंग, भाषण टैगिंग और पार्सिंग, और अधिक के शिक्षण और शोध के लिए एक उपकरण है। इसमें प्रयोग के लिए ट्यूटोरियल और डेटा सेट का एक सेट शामिल है। यह मेलबर्न विश्वविद्यालय से स्टीवन बर्ड द्वारा लिखा गया है।

राय खोजक - एक प्रणाली जो व्यक्तिपरकता विश्लेषण करती है, स्वचालित रूप से पहचानती है जब विचार, भावनाएं, अटकलें और अन्य निजी राज्य टेक्स्ट में मौजूद होते हैं। विशेष रूप से, ओपिनियनफाइंडर का उद्देश्य व्यक्तिपरक वाक्यों की पहचान करना और इन वाक्यों में व्यक्तिपरकता के विभिन्न पहलुओं को चिह्नित करना है, जिसमें विषयपरकता के स्रोत (धारक) और सकारात्मक या नकारात्मक भावनाओं को व्यक्त करने वाले वाक्यांशों में शामिल शब्द शामिल हैं।

तावल्क/ओएसई - सामाजिक पाठ पर भावना वर्गीकरण के लिए एक पायथन लाइब्रेरी। अंत-लक्ष्य एक साधारण पुस्तकालय है जो "बस काम करता है"। इसमें प्रवेश के लिए एक आसान बाधा होनी चाहिए और पूरी तरह से प्रलेखित होना चाहिए। हम सबसे अच्छा सटीकता प्राप्त कर ली है negwords.txt और poswords.txt

गेट पर एकत्र ट्वीट्स साथ छानने stopwords का उपयोग कर - गेट 15 वर्ष से अधिक पुराना है और मानव भाषा से जुड़े कम्प्यूटेशनल काम के सभी प्रकार के लिए सक्रिय उपयोग में है। गेट सभी आकारों और आकारों के पाठ विश्लेषण पर उत्कृष्टता प्राप्त करता है। बड़े निगमों से छोटे स्टार्टअप तक, € लाख मिलियन शोध कंसोर्टिया से स्नातक परियोजनाओं तक, हमारा उपयोगकर्ता समुदाय इस प्रकार की किसी भी प्रणाली का सबसे बड़ा और सबसे विविधता है, और यह महाद्वीपों में से एक है लेकिन 1 में फैला हुआ है।

टेक्स्टिर - पाठ और भावना खनन के लिए उपकरणों का एक सूट। इसमें 'mnlm' फ़ंक्शन, स्पैस बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन, 'pls', संक्षिप्त आंशिक कम से कम वर्ग नियमित, और 'विषय' फ़ंक्शन, प्रभावी अनुमान और अव्यक्त चयन मॉडल में आयाम चयन के लिए शामिल है।

एनएलपी टूल्सुइट - जुली लैब यहां अर्थपूर्ण खोज, सूचना निष्कर्षण और टेक्स्ट खनन के अनुप्रयोग उद्देश्यों के लिए एक व्यापक एनएलपी टूल सूट प्रदान करता है। हमारे अधिकांश विस्तारित टूल सूट मशीन सीखने के तरीकों पर आधारित हैं और इस प्रकार डोमेन- और भाषा स्वतंत्र है।

...

एक तरफ ध्यान दें पर: आप चहचहाना स्ट्रीमिंग या प्राप्त एपीआई की सिफारिश करेंगे?

मेरे लिए के रूप में, मैं अजगर और जावा के एक प्रशंसक हूँ;)

आपकी मदद के लिए धन्यवाद एक बहुत !!!

उत्तर

3

मुझे यकीन नहीं है कि मैं कितनी मदद कर सकता हूं, लेकिन मैंने पहले हाथ से लुढ़काए एनएलपी के साथ काम किया है। कुछ मुद्दों पर ध्यान दिया जाता है - सभी उत्पाद भाषा अज्ञेयवादी नहीं हैं (मानव भाषा जो कंप्यूटर भाषा नहीं है)। यदि आप जर्मन ट्वीट्स का विश्लेषण करने की योजना बना रहे हैं, तो यह महत्वपूर्ण होगा कि आपका चयनित उत्पाद जर्मन भाषा को संभालने में सक्षम हो। स्पष्ट मैं जानता हूं, लेकिन भूलना आसान है।फिर यह तथ्य है कि यह ट्विटर है जहां संकुचन और शब्दकोष बढ़ते हैं, और भाषा संरचना चरित्र सीमा से बाधित होती है जिसका अर्थ है कि व्याकरण हमेशा भाषा की अपेक्षित संरचना से मेल नहीं खाता है।

अंग्रेजी में, वाक्य से संज्ञाओं को खींचना कुछ हद तक सरलीकृत किया जा सकता है यदि आपको कभी भी अपना कोड लिखना है। उचित संज्ञाओं में शुरुआती राजधानियां होती हैं और ऐसे शब्दों की एक स्ट्रिंग (संभवतः "के" सहित) एक संज्ञा वाक्यांश का एक उदाहरण है। "ए/ए/मेरे/उसके/उसके// यह/ये/वे" से पहले एक शब्द या तो एक विशेषण या संज्ञा होने वाला है। दुर्भाग्यवश उसके बाद यह कठिन हो जाता है।

नियम हैं जो बहुवचनों की पहचान करने में मदद करते हैं, लेकिन कई अपवाद भी हैं। मैं निश्चित रूप से अंग्रेजी के बारे में बात कर रहा हूं, मेरी बहुत खराब बोली जाने वाली जर्मन मुझे समझने में मदद नहीं करती है कि व्याकरण मुझे डरता है।

संबंधित मुद्दे