2010-02-10 11 views
9

क्या कैसे इस तरह एक प्राकृतिक भाषा पार्स कार्यक्रम का निर्माण करने के बारे में किताबें हैं ठीक करता है एक प्राकृतिक भाषा मॉडल का निर्माण!कि ग़लत वर्तनी

इस तरह के उपकरण को बनाने के तरीके पर सबसे अच्छी किताबें क्या हैं ??

पेज। क्या वर्तनी जांचने के लिए मुफ्त वेब सर्विसेज हैं? गूगल शायद? से ..

+5

+1 गलत वर्तनी "गलत वर्तनी" के लिए +1। वह एक मजाक था, है ना? – APC

+1

@ एपीसी हाहाहा थोडा। फास्ट टाइपिंग, लेकिन यह दर्शाता है कि इस तरह के टूल्स कैसे उपयोगी हो सकते हैं। – EugeneP

+0

+1, Google Wave में वर्तनी का उपयोग करें!: पी –

उत्तर

7

पीटर Norvig एक भयानक spell checker लिखा है। शायद यह आपकी मदद कर सकता है।

+0

बस इसे लिंक करने जा रहा था :-) +1 –

+0

कूल स्क्रिप्ट। ऐसा लगता है कि अगर आप पसंद की भाषा में सही पाठ का एक कॉर्पस रखते हैं तो इसे बिग्राम या ट्रिग्राम शब्द तक बढ़ाने के लिए सीधा होगा। –

+0

बिल्कुल, वह स्क्रिप्ट है जिसे मैंने नीचे दी गई पोस्ट में याद रखने की कोशिश की। +1 –

2

soundex (wiki) एक विकल्प है

+0

जॉर्ज बर्नार्ड शॉ (कई अन्य लोगों के बीच) के रूप में हमेशा शिकायत की जाती है, अक्सर चीजों की वर्तनी और कैसे उच्चारण की जाती है, इसके बीच एक बड़ा विचलन होता है। कम से कम अंग्रेजी में। SOUNDEX(), इतालवी कहें, में एक प्रभावी दृष्टिकोण हो सकता है। – APC

+0

यह डेल्फी आरटीएल में बनाया गया है, यह बहुत ही अप्रत्याशित है, लेकिन काफी अच्छा है - जो लोग fenetiklee err लिखना पसंद करते हैं .. ध्वन्यात्मक रूप से। –

1

Dev Days London में, माइकल स्पार्क्स ने इसके लिए एक पायथन लिपि प्रस्तुत की। यह आश्चर्यजनक रूप से बहुत आसान था! देखें कि क्या आप Google में पा सकते हैं। शायद यहां किसी के पास लिंक होगा।

+3

मेटासो पर देवडेज़ धागे के मुताबिक, स्क्रिप्ट माइकल स्पार्क्स ने पहले से ही उल्लेख किया गया पीटर नॉरविग स्क्रिप्ट था: http://meta.stackexchange.com/questions/27859/devdays-london-can-i-get-hold -ऑफ-द-प्रेजेंटेशन-सामग्री/28522 # 28522 – APC

+0

हां, यह सही है, धन्यवाद –

4

आपको कम से कम तीन विकल्प

  1. आप एक प्रोग्राम है जो भाषा को समझता है लिख सकते हैं है (अर्थात क्या एक शब्द का अर्थ)। यह आज शोध के लिए एक विषय है। पहले परिणाम की अपेक्षा करें जब आप ऐसे कंप्यूटर को चलाने के लिए पर्याप्त तेज़ कंप्यूटर खरीद सकें (जो शायद 10 वर्षों में है जब कंप्यूटर आज से 1000 गुना तेज हो गए हैं)।

  2. Hidden Marcov Model को प्रशिक्षित करने के लिए एक विशाल कॉर्पस (टेक्स्ट दस्तावेज़) का उपयोग करें।

  3. एक विशाल कॉर्पस का उपयोग करें और चौगुनी एन-ग्राम्स के बारे में आंकड़े जेनरेट करें, यानी एन शब्द कितनी बार प्रकट होता है। मेरे पास इसके लिए एक लिंक आसान नहीं है लेकिन विचार यह है कि कुछ शब्द हमेशा दूसरे शब्दों के संदर्भ में प्रकट होते हैं। तो जब आप अपने पाठ को 4-ग्राम में पार्स करते हैं और उन्हें अपने डेटाबेस में देखते हैं और आपको कोई नहीं मिल रहा है, तो संभावना है कि वर्तमान टुपल में कुछ गड़बड़ है। अगला कदम सभी संभावित मैचों को ढूंढना है (अन्य 4-ग्राम जिनमें एक छोटा सा साउंडएक्स या वर्तमान की समान दूरी है) और उच्चतम आवृत्ति वाले किसी को आज़माएं।

    Google के पास कुछ डेटा के लिए यह डेटा है और आपको इसके बारे में Google प्रयोगशालाओं में और अधिक जानकारी मिल सकती है।

[संपादित करें] कुछ Googling के बाद, मैं अंत में लिंक मिल गया: this page पर, आप करने के लिए 5-ग्राम जो गूगल 6 डीवीडी पर पूरे इंटरनेट पर एकत्र अंग्रेजी 1- खरीद सकते हैं।

"Google वर्तनी आंकड़े एन-ग्राम्स" के लिए गुगलिंग कुछ दिलचस्प लिंक भी बदलेगी।

+0

क्या Google इस डेटा को मेरे साथ साझा करेगा? ;) – EugeneP

+0

मुझे ऐसा लगता है। मुझे वास्तव में लिंक फिर से मिलना चाहिए। –

+0

एक पूर्ण और रोचक उत्तर के लिए धन्यवाद। – EugeneP

2

प्राकृतिक भाषा प्रसंस्करण के लिए कुछ जावा पुस्तकालय हैं जो आपको वर्तनी सुधारक को लागू करने में मदद करेंगे। लेकिन आपने एक किताब के बारे में पूछा। क्रिस्टोफर डी। मैनिंग और हिनरिक श्त्ज़ द्वारा Foundations of Statistical Natural Language Processing एक अच्छा विकल्प की तरह दिखता है। पहला लेखक एक स्टैनफोर्ड प्रोफेसर है जो एक ऐसे समूह का नेतृत्व करता है जो प्राकृतिक भाषा प्रसंस्करण और जावा पुस्तकालयों और एनएलपी संसाधनों का विकास करता है जो कई लोग उपयोग करते हैं।

संबंधित मुद्दे