मैं हाल ही में एक डेटा सेट पर काम कर रहा था जो विभिन्न शब्दों के लिए संक्षेप में उपयोग करता था। उदाहरण के लिए,पायथन - एनएलपी का उपयोग करके संक्षिप्त पाठ से शब्द का उपयोग कैसे करें?
wtrbtl = water bottle
bwlingbl = bowling ball
bsktball = basketball
वहाँ इस्तेमाल किया सम्मेलन के संदर्भ में किसी भी स्थिरता होने के लिए नहीं लगता था, अर्थात कभी कभी वे कभी कभी स्वरों का प्रयोग नहीं किया। मैं एक मैपिंग ऑब्जेक्ट बनाने की कोशिश कर रहा हूं जैसे संक्षेप में संक्षेप में और उनके संबंधित शब्दों को पूर्ण कॉर्पस या शर्तों की विस्तृत सूची के बिना (यानी संक्षेप में पेश किया जा सकता है जो स्पष्ट रूप से ज्ञात नहीं हैं)। सादगी के लिए कहें कि यह एक जिम में आपको मिले सामानों तक ही सीमित है लेकिन यह कुछ भी हो सकता है।
असल में, यदि आप केवल उदाहरणों के बाएं हाथ की ओर देखते हैं, तो प्रत्येक संक्षिप्त नाम से संबंधित पूर्ण पाठ लेबल से संबंधित हमारे मस्तिष्क के समान प्रकार का मॉडल क्या कर सकता है।
मेरे विचार पहले और आखिरी पत्र लेने और शब्दकोश में ढूंढने के लिए रुक गए हैं। फिर संदर्भ के आधार पर प्राथमिकता संभावनाएं असाइन करें। लेकिन चूंकि मार्कर के बिना बड़ी संख्या में मॉर्फिम्स हैं जो शब्द के अंत को इंगित करते हैं, मैं नहीं देखता कि उन्हें कैसे विभाजित करना संभव है।
UPDATED:
मैं भी विचार एक मैच रेटिंग एल्गोरिथ्म की तरह एक जोड़ी स्ट्रिंग मीट्रिक एल्गोरिदम लक्ष्य संक्षिप्त नाम करने के लिए सेट में प्रत्येक शब्द के बीच संबंधित शब्दों का एक सेट निर्धारित करने के लिए गठबंधन और उसके बाद की गणना के लिए Levenshtein दूरी थी । हालांकि, मैं अभी भी अंधेरे में हूं जब शब्दों के लिए संक्षेप में आता है जो मास्टर डिक्शनरी में नहीं है। असल में, शब्द निर्माण का उल्लंघन करना - एक बेवकूफ बेयस मॉडल मदद कर सकता है लेकिन मुझे चिंता है कि उपरोक्त एल्गोरिदम का उपयोग करके परिशुद्धता में कोई भी त्रुटि किसी भी मॉडल प्रशिक्षण प्रक्रिया को अमान्य कर देगी।
किसी भी मदद की सराहना की जाती है, क्योंकि मैं वास्तव में इस पर अटक गया हूं।
यह एक दिलचस्प विचार है लेकिन मुझे विश्वास नहीं है कि यह मेरी समस्या की परिस्थितियों को फिट करता है क्योंकि यह आवश्यक है कि आप पूर्ण शब्द से शुरू करें और फिर एल्गोरिदम का उपयोग करके शब्द को एन्कोड करें। मेरी समस्या यह है कि मैं संक्षेप में शुरू कर रहा हूं और मैं इससे पूरा शब्द प्राप्त करने की कोशिश कर रहा हूं। –
सच है। आप या तो हैंश के शब्दकोश को स्टोर कर सकते हैं या केवल सीमित लेवेनशेटिन दूरी ढूंढ सकते हैं, केवल स्वरों को जोड़ना और पात्रों को दोगुना करना। इसकी या तो एक जगह या गति पसंद है। –