2009-11-24 12 views
75

मैं प्रत्येक का उपयोग कब करूं?lemmatization बनाम stemming के बीच सही अंतर क्या है?

भी ... एनएलटीके लेमैमैटेशन भाषण के हिस्सों पर निर्भर है? यदि यह था तो यह अधिक सटीक नहीं होगा?

+1

यह मेरे सिर पर रास्ता है, लेकिन क्यों वहाँ एक अजगर टैग है? – Jimmy

+4

@jimmy: टैग की गईं python b/c यह python nltk लाइब्रेरी – ealdent

+1

के बारे में बात कर रहा है यह एक अच्छा लेख है जो इस सटीक [प्रश्न] का उत्तर देता है (http://www.ideaeng.com/tabId/98/itemId/180/Whats-the -डिफरेंस-बीच-स्टेमिंग-एंड-लेमेमती.एएसपीएक्स) – Jacob

उत्तर

80

लघु और घने: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

दोनों उत्पन्न और lemmatization के लक्ष्य को एक आम आधार फार्म के लिए विभक्ति रूप और एक शब्द के कभी कभी derivationally संबंधित रूपों को कम करना है।

हालांकि, दो शब्द उनके स्वाद में भिन्न हैं। स्टेमिंग आमतौर पर एक क्रूड हेरिस्टिक प्रक्रिया को संदर्भित करता है जो इस लक्ष्य को सही ढंग से प्राप्त करने की आशा में शब्दों के सिरों को बंद करता है, और अक्सर व्युत्पन्न प्रत्यय को हटाने में शामिल होता है। लेमैमैटिज़ेशन आम तौर पर शब्दावली और शब्दों के आकार के विश्लेषण के उपयोग से चीजों को सही ढंग से करने का संदर्भ देता है, आमतौर पर केवल अंतःविषय अंतराल को हटाने और शब्द के आधार या शब्दकोश रूप को वापस करने का लक्ष्य है, जिसे लेम्मा के नाम से जाना जाता है।

NLTK डॉक्स से:

lemmatization और उत्पन्न सामान्यीकरण की विशेष मामले हैं। वे संबंधित शब्द रूपों के एक सेट के लिए एक कैनोलिक प्रतिनिधि की पहचान करते हैं।

1

ianacl
लेकिन मुझे लगता है कि स्टेमिंग एक मोटा हैक लोग एक आधार रूप जो अपनी ही
कुछ पोर्टर की तरह पर एक कानूनी शब्द होने की ज़रूरत नहीं करने के लिए नीचे एक ही शब्द के सभी अलग अलग रूपों पाने के लिए इस्तेमाल करते हैं Stemmer आम शब्द प्रत्यय

lemmatization अनियमित क्रिया के मामले में, इनपुट शब्द की तरह कुछ भी लग सकता है जो, जो FSTs का उपयोग करता है लाने के लिए
कुछ Morpha की तरह अपने वास्तविक आधार रूप करने के लिए नीचे एक शब्द लाता है समाप्त करने के लिए सरल regexes का उपयोग करता है सकते हैं संज्ञा और क्रियाएं उनके मूल रूप में

+0

मुझे लगता है कि पोर्टर स्टेमर को नियमित अभिव्यक्तियों के बिना सहारा दिया जाता है, क्योंकि कई पुरानी भाषाओं में उनके पास नहीं है, लेकिन अन्यथा आपको सही विचार मिल गया है। –

10

जैसा कि MYYN ने इंगित किया है, मूलभूत रूप से अनौपचारिक और कभी-कभी व्युत्पन्न प्रत्यय को हटाने की प्रक्रिया है कि सभी मूल शब्द शायद संबंधित हैं। लेमैमैटिज़ेशन एक शब्द प्राप्त करने से संबंधित है जो आपको एकजुट रूपों के समूह के साथ समूहबद्ध करने की अनुमति देता है। यह स्टेमिंग से कठिन है क्योंकि संदर्भ को अनदेखा करते समय संदर्भ को संदर्भ में लेना आवश्यक है (और इस प्रकार शब्द का अर्थ)।

जब आप एक या दूसरे का उपयोग करेंगे, तो यह बात है कि आपका आवेदन संदर्भ में किसी शब्द का अर्थ सही तरीके से प्राप्त करने पर निर्भर करता है। यदि आप मशीन अनुवाद कर रहे हैं, तो शायद आप एक शब्द को गलत तरीके से रोकने से बचने के लिए लेमैमैटिज़ेशन चाहते हैं। यदि आप 1 अरब शब्दों से लेकर 99% प्रश्नों के साथ अरबों दस्तावेज़ों पर जानकारी पुनर्प्राप्ति कर रहे हैं, तो आप स्टेमिंग के लिए व्यवस्थित हो सकते हैं।

एनएलटीके के लिए, WordNetLemmatizer भाषण के हिस्से का उपयोग करता है, हालांकि आपको इसे प्रदान करना होगा (अन्यथा यह संज्ञाओं के लिए डिफ़ॉल्ट है)। इसे "कबूतर" और "वी" उपज "गोताखोरी" और "एन" उपज "कबूतर" उत्पन्न करते हैं।

11

स्टेमिंग और लेमैमैटिज़ेशन दोनों का उद्देश्य मोर्फोलॉजिकल भिन्नता को कम करना है। यह अधिक सामान्य "शब्द conflation" प्रक्रियाओं के विपरीत है, जो लेक्सिको-अर्थात्, वाक्य रचनात्मक, या ऑर्थोग्राफिक विविधताओं को भी संबोधित कर सकता है।

उत्पन्न और lemmatization के बीच वास्तविक अंतर तीन गुना है:

  1. स्टेमिंग, करने के लिए (छद्म) शब्द-रूपों को कम कर देता उपजी जबकि lemmatization भाषायी वैध lemmas करने के लिए शब्द-रूपों कम करता है। यह अंतर अधिक जटिल रूपरेखा वाले भाषाओं में स्पष्ट है, लेकिन कई आईआर अनुप्रयोगों के लिए अप्रासंगिक हो सकता है;

  2. lemmatization केवल विभक्ति विचरण के साथ सौदों स्टेमिंग भी धातुज विचरण के साथ सौदा कर सकते हैं, जबकि;

  3. कार्यान्वयन के मामले में, लेमैमैटेशन आमतौर पर अधिक परिष्कृत होता है (विशेष रूप से morphologically जटिल भाषाओं के लिए) और आमतौर पर कुछ प्रकार की लेक्सिका की आवश्यकता होती है। दूसरी तरफ संतोषजनक स्टेमिंग, बल्कि सरल नियम-आधारित दृष्टिकोणों के साथ हासिल की जा सकती है।

समरूपता को विषम करने के लिए लेमेटाइज़ेशन का एक अंश-भाषण टैगर द्वारा भी बैक अप किया जा सकता है।

36

Lemmatisation बारीकी उत्पन्न से संबंधित है। अंतर यह है कि एक स्टेमर संदर्भ, के ज्ञान के बिना एक शब्द पर चल रही है और इसलिए शब्द जो भाषण का हिस्सा के आधार पर अलग अर्थ के बीच भेदभाव नहीं कर सकते हैं। हालांकि, आम तौर पर stemmers लागू करने के लिए आसान है और तेजी से चलाने के लिए, और कम सटीकता नहीं हो सकता कुछ अनुप्रयोगों के लिए बात।

उदाहरण के लिए:

  1. शब्द "बेहतर" इसके लेम्मा के रूप में "अच्छा" है। यह लिंक द्वारा याद किया गया है, क्योंकि इसे एक शब्दकोश दिखने की आवश्यकता है।

  2. शब्द "चलना" शब्द "चलने" के लिए मूल रूप है, और इसलिए यह दोनों स्टेमिंग और लेमैमैटिसेशन में मेल खाता है।

  3. शब्द "बैठक" या एक संज्ञा के दोनों आधार रूप एक क्रिया का एक रूप ("पूरा करने के लिए") संदर्भ के आधार पर, जैसे, "हमारे पिछले बैठक में" या "हम कर रहे हैं हो सकता है कल फिर मिलना "। उत्पन्न विपरीत, lemmatisation सिद्धांत रूप में संदर्भ के आधार पर उचित लेम्मा चुन सकते हैं।

स्रोत: https://en.wikipedia.org/wiki/Lemmatisation

5

lemmatization और उत्पन्न के बीच differenes पर एक उदाहरण ही आधारित स्पष्टीकरण:

lemmatization संभालती मिलान "कार" के लिए "कार" के साथ "कार" से मेल खाने के साथ "ऑटोमोबाइल"।

स्टेमिंग संभालती मिलान "कार" के लिए "कार" के

लेमैमैटनाइज़ेशन अस्पष्ट शब्द मिलान का एक व्यापक दायरा दर्शाता है जो अभी भी एक ही उपप्रणाली द्वारा संभाला जाता है। यह इंजन के भीतर निम्न स्तर की प्रसंस्करण के लिए कुछ तकनीकों का तात्पर्य है, और शब्दावली के लिए इंजीनियरिंग वरीयता को भी प्रतिबिंबित कर सकता है।

[...] एक उदाहरण के रूप फास्ट लेते हुए उनके lemmatization इंजन होने 'हॉट' मैच "गर्म" की तरह विलक्षण बनाम बहुवचन की तरह न केवल बुनियादी शब्द भिन्नताएं, लेकिन यह भी कोश ऑपरेटरों को संभालती है।

यह कहना नहीं है कि अन्य इंजन समानार्थी शब्दों को संभालते नहीं हैं, निश्चित रूप से वे करते हैं, लेकिन निम्न स्तरीय कार्यान्वयन बेस स्टेमिंग को संभालने वाले लोगों की तुलना में उपप्रणाली में हो सकता है।

http://www.ideaeng.com/stemming-lemmatization-0601

7

वहाँ अपने मतभेदों को दिखाने के लिए दो पहलू हैं: जो जरूरत की रूपात्मक जड़ के समान नहीं हो

  1. एक स्टेमर एक शब्द के स्टेम वापस आ जाएगी, शब्द। आमतौर पर यह पर्याप्त शब्द है कि संबंधित शब्द एक ही स्टेम पर नक्शा करते हैं, भले ही स्टेम अपने आप में एक वैध रूट न हो, भले ही लेमैमैटिसेशन में, यह एक शब्द का शब्दकोश रूप वापस कर देगा, जो एक वैध शब्द होना चाहिए।

  2. lemmatisation में, एक शब्द के भाषण का हिस्सा पहले निर्धारित किया जाना चाहिए और जब तक स्टेमर संदर्भ के ज्ञान के बिना एक शब्द पर चल रही सामान्य नियम भाषण के विभिन्न हिस्से के लिए अलग होगा, और इसलिए भाषण के हिस्से के आधार पर अलग-अलग अर्थों वाले शब्दों के बीच भेदभाव नहीं कर सकते हैं।

संदर्भ http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

संबंधित मुद्दे