यह एनएलपी में एक खुला प्रश्न है, इसलिए कोई आसान जवाब नहीं है।
त्वरित और गंदे "मेरे लिए काम करता है" के लिए मेरी सिफारिश topia.termextract है।
याहू में एक कीवर्ड निष्कर्षण सेवा (http://developer.yahoo.com/search/content/V1/termExtraction.html) है जो कम याद है लेकिन उच्च परिशुद्धता है। दूसरे शब्दों में, यह आपको उच्च गुणवत्ता वाले शब्दों की एक छोटी संख्या देता है, लेकिन आपके दस्तावेज़ों में से कई शर्तों को याद करता है।
पायथन में, topia.termextract (http://pypi.python.org/pypi/topia.termextract/) है। यह अपेक्षाकृत शोर है, और कई फर्जी कीवर्ड का प्रस्ताव है, लेकिन इसका उपयोग करना आसान है।
टर्मिन (http://www.nactem.ac.uk/software/termine/) एक यूके webservice है जो अपेक्षाकृत शोर है, और कई फर्जी कीवर्ड का प्रस्ताव है। हालांकि, यह मुझे topia.termextract से थोड़ा अधिक सटीक प्रतीत होता है। YMMV।
बहुत सारे कीवर्ड (जैसे topia.termextract और टर्मिन) के साथ परिणामों को नकारने का एक तरीका है जो अक्सर होने वाली शर्तों की शब्दावली बनाना है, और फिर शब्दावली में प्रस्तावित शर्तों को फेंकना है। दूसरे शब्दों में, अपने कॉर्पस पर दो पास करें: पहला पास, प्रत्येक कीवर्ड की आवृत्ति को गिनें। दूसरे पास में, उन कीवर्ड को छोड़ दें जो बहुत दुर्लभ हैं।
यहाँ, कुछ और संदर्भ हैं यदि आप और अधिक जानना चाहते हैं में उपयोग:
- http://en.wikipedia.org/wiki/Terminology_extraction
- "CorePhrase: दस्तावेज़ क्लस्टरिंग के लिए Keyphrase निष्कर्षण"
- लियू एट NAACL HLT से अल 2009
- "डेटा खनन की बैठक collocations डिस्कवरी" "स्वत: गैर compositional वाक्यांश की पहचान"
- साथ ही साथ अन्य संदर्भों के एक मेजबान आप इस विषय पर खोद सकते हैं।
स्रोत
2009-10-15 21:58:17
क्या आप कुछ स्रोत -> स्ट्रिप "सरल" शब्द सूची दे सकते हैं। मैं उन्हें –
प्राकृतिक भाषा में खोजने में असमर्थ हूं, "सरल" शब्दों को अक्सर स्टॉप शब्दों के रूप में जाना जाता है। http://en.wikipedia.org/wiki/Stop_words। चारों ओर stopwords.txt फ़ाइलों के बहुत सारे हैं ... उदाहरण के लिए। http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words – roy
अंग्रेजी स्टॉप शब्दों की एक सूची: http://xpo6.com/list-of-english-stop-words/ –