मैं शब्द विभाजन समस्या को हल करना चाहता हूं (बिना किसी रिक्त स्थान वाली लंबी स्ट्रिंग से पार्स शब्द)। परीक्षा के लिए हम somelongword
से [some, long, word]
से शब्दों को निकालना चाहते हैं।वर्ड स्प्लिटिंग सांख्यिकीय दृष्टिकोण
हम इसे शब्दकोश के साथ कुछ गतिशील दृष्टिकोण से प्राप्त कर सकते हैं, लेकिन एक और मुद्दा जो हम सामना करते हैं वह अस्पष्टता को पार्स कर रहा है। अर्थात। orcore
=>or core
या orc ore
(हम खाता वाक्यांश या भाषण का हिस्सा नहीं लेते हैं)। तो मैं कुछ सांख्यिकीय या एमएल दृष्टिकोण के उपयोग के बारे में सोचता हूं।
मैंने पाया कि ट्रेन सेट के साथ बेवकूफ बेयस और विटरबी एल्गोरिदम इसका समाधान करने के लिए उपयोग किया जा सकता है। क्या आप मुझे शब्द विभाजन समस्या के लिए इन एल्गोरिदम के अनुप्रयोग के बारे में कुछ जानकारी बता सकते हैं?
युपीडी: मैं Clojure पर इस विधि को क्रियान्वित किया है, पीटर Norvig के code
धन्यवाद, शुरू करने के लिए अच्छा बिंदु। मुझे पीटर Norvig की साइट पर बहुत उपयोगी कोड स्निपेट मिले। – mishadoff
स्लाइड शो कुछ कारणों से लिया गया है। –