आपको एक ह्युरिस्टिक विकसित करने की आवश्यकता है जो डोमेन से संभावित मिलान प्राप्त करेगी। जिस तरह से मैं इसे करता हूं, सबसे पहले पाठ का एक बड़ा हिस्सा मिलता है। उदाहरण के लिए, आप विकिपीडिया डाउनलोड कर सकते हैं।
अगला अपना कॉर्पस लें, और प्रत्येक दो आसन्न शब्दों को गठबंधन करें। उदाहरण के लिए, यदि आपके वाक्य है:
quick brown fox jumps over the lazy dog
आप एक सूची बना देंगे:
quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog
इन में से हर एक की गिनती होगी। जैसे ही आप अपने कॉर्पस को पार्स करते हैं, आप प्रत्येक दो शब्दों के आवृत्ति जोड़े का ट्रैक रखेंगे। इसके अतिरिक्त, प्रत्येक जोड़ी के लिए, आपको दो मूल बातें क्या क्रमबद्ध करने की आवश्यकता होगी।
इस सूची को आवृत्ति द्वारा क्रमबद्ध करें, और फिर इन शब्दों के आधार पर अपने डोमेन में मिलान ढूंढने का प्रयास करें।
आखिरकार, शीर्ष दो शब्द वाक्यांशों के लिए डोमेन जांच करें जो पंजीकृत नहीं हैं!
मुझे लगता है कि DomainTool जैसी साइटें उच्चतम रैंकिंग शब्दों की एक सूची लेती हैं। फिर वे इन शब्दों को पहले पार्स करने का प्रयास करते हैं। इस उद्देश्य के आधार पर, आप नौकरी करने के लिए एमटीर्क का उपयोग करने पर विचार करना चाहेंगे। अलग-अलग लोग एक ही शब्द को अलग-अलग विश्लेषण करेंगे, और शायद शब्दों के समान होने के अनुपात में ऐसा न करें।
कौन सी प्रोग्रामिंग भाषा? – rahul
PHP, मेरे प्रश्न को संपादित करने के लिए संपादित किया गया, धन्यवाद। – Kevin
pspell चेक के साथ विपरीत में स्ट्रिंग पर चलाएं - eseehc = चीज़, स्ट्रिंग से पनीर घटाएं, ekil = like, स्ट्रिंग = जैसे की तरह घटाना; एस, एसएल, स्ली, सैलेट, स्तोटो, स्लोतोह = होटल, होटल घटाएं ... आदि। आप इसे कई बार भी चला सकते हैं और उन्हें हटाए बिना आखिरी पालियां शामिल कर सकते हैं। रिवर्स स्ट्रिंग pspell किसी भी भाषा में "असली" शब्द खोजने का एक बहुत ही आसान तरीका है। – Tobias