2012-03-12 20 views
6

मैं शब्द विभाजन समस्या को हल करना चाहता हूं (बिना किसी रिक्त स्थान वाली लंबी स्ट्रिंग से पार्स शब्द)। परीक्षा के लिए हम somelongword से [some, long, word] से शब्दों को निकालना चाहते हैं।वर्ड स्प्लिटिंग सांख्यिकीय दृष्टिकोण

हम इसे शब्दकोश के साथ कुछ गतिशील दृष्टिकोण से प्राप्त कर सकते हैं, लेकिन एक और मुद्दा जो हम सामना करते हैं वह अस्पष्टता को पार्स कर रहा है। अर्थात। orcore =>or core या orc ore (हम खाता वाक्यांश या भाषण का हिस्सा नहीं लेते हैं)। तो मैं कुछ सांख्यिकीय या एमएल दृष्टिकोण के उपयोग के बारे में सोचता हूं।

मैंने पाया कि ट्रेन सेट के साथ बेवकूफ बेयस और विटरबी एल्गोरिदम इसका समाधान करने के लिए उपयोग किया जा सकता है। क्या आप मुझे शब्द विभाजन समस्या के लिए इन एल्गोरिदम के अनुप्रयोग के बारे में कुछ जानकारी बता सकते हैं?

युपीडी: मैं Clojure पर इस विधि को क्रियान्वित किया है, पीटर Norvig के code

उत्तर

4

मुझे लगता है कि slideshow पीटर Norvig और सेबस्टियन Thurn द्वारा एक अच्छा बिंदु शुरू करने के लिए है से कुछ सलाह का उपयोग कर। यह Google द्वारा किए गए वास्तविक दुनिया के काम प्रस्तुत करता है।

+0

धन्यवाद, शुरू करने के लिए अच्छा बिंदु। मुझे पीटर Norvig की साइट पर बहुत उपयोगी कोड स्निपेट मिले। – mishadoff

+3

स्लाइड शो कुछ कारणों से लिया गया है। –

3

यह समस्या पूरी तरह से कई एशियाई भाषाओं में शब्द विभाजन के समान है जो शब्द सीमाओं (जैसे चीनी, थाई) को स्पष्ट रूप से एन्कोड नहीं करती है। यदि आप समस्या के दृष्टिकोण पर पृष्ठभूमि चाहते हैं, तो मैं आपको वर्तमान चीनी शब्द सेगमेंटेशन दृष्टिकोणों के लिए Google विद्वान को देखने की सलाह दूंगा।

आप कुछ पुराने दृष्टिकोण देखकर शुरू कर सकते हैं: गले, रिचर्ड और थॉमस एमर्सन। 2003. पहला अंतरराष्ट्रीय चीनी शब्द विभाजन बेकऑफ (http://www.sighan.org/bakeoff2003/paper.pdf)

यदि आप एक तैयार समाधान चाहते हैं, तो मैं लिंगपिप के ट्यूटोरियल (http: // alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html)। मैंने इसे अच्छे परिणाम के साथ अनगिनत अंग्रेजी पाठ पर उपयोग किया है। मैंने न्यूजवायर टेक्स्ट के कुछ मिलियन शब्दों पर अंतर्निहित चरित्र भाषा मॉडल को प्रशिक्षित किया, लेकिन मुझे संदेह है कि इस कार्य के लिए आपको अपेक्षाकृत सामान्य अंग्रेजी पाठ के किसी भी कॉर्पस का उपयोग करके उचित प्रदर्शन मिलेगा।

उन्होंने उम्मीदवारों के सुधारों की सिफारिश करने के लिए एक वर्तनी-सुधार प्रणाली का उपयोग किया (जहां उम्मीदवार सुधार इनपुट के समान हैं लेकिन रिक्त स्थान डाले गए हैं)। उनका वर्तनी सुधारक लेवेनशेटिन संपादन दूरी पर आधारित है; वे प्रतिस्थापन और पारदर्शिता को अस्वीकार करते हैं, और केवल एक ही स्थान पर स्वीकार्य सम्मिलन प्रतिबंधित करते हैं।

संबंधित मुद्दे