में अनुमानित स्ट्रिंग का मिलान करना मुझे वर्तमान में लिखने वाले मूल डेटा एप्लिकेशन के साथ एक छोटी सी समस्या है। मेरे पास दो differents मॉडल, संदर्भ और peristent स्टोर हैं। एक मेरे ऐप डेटा के लिए है, दूसरा एक वेबसाइट के लिए प्रासंगिक इंफोस के साथ है।कोर डेटा स्टोर
अधिकांश समय, मैं अपने ऐप से दूसरे रिकॉर्ड से दूसरे रिकॉर्ड में बिल्कुल एक रिकॉर्ड से मेल खाता हूं। कभी-कभी, मुझे दो रिकॉर्ड जोड़ने के लिए फ़ज़ी स्ट्रिंग मिलान पर फ़ॉलबैक करना पड़ता है। मैं गीत शीर्षक से मिलान करने की कोशिश कर रहा हूं। मेरे स्थानीय शीर्षक हो सकता है (बना) "The French Idealist is in your pensée"
और दूरदराज के शीर्षक गीत हो सकता है "01 - 10 - French idealist in in you're pensee, The (dub remix, feat. DJ Objective-C)"
मैं खोज ढेर अतिप्रवाह, गूगल, कोको प्रलेखन, और मैं नहीं है कि कैसे एक फजी मिलान करने के लिए पर कोई स्पष्ट उत्तर नहीं मिल सकता है ऐसे मामलों में। मेरे तार कुछ भी शुरू कर सकते हैं, विशेष पात्रों का एक गुच्छा है, आमतौर पर यादृच्छिक के साथ समाप्त होता है या वर्णों को अनदेखा किया जाता है।
रेगेक्सपी नहीं करेगा, न ही एनएसपीडिकेटेट्स, साउंडएक्स विदेशी नामों के साथ अच्छी तरह से काम नहीं करता है, और शायद लेवेनशेटिन पर्याप्त नहीं होगा (या यह होगा?)।
मैं लगभग एक दर्जन संभावित मैचों के सेट में एक शीर्षक की तलाश में हूं, लेकिन मैं इस ऑपरेशन को बहुत कुछ करने के लिए तैयार हूं। 100% सटीकता लक्ष्य नहीं है।
मैं अनदेखा शब्दों को हटाने, कीवर्ड (उदाहरण के लिए, "फ्रेंच, आदर्शवादी, पेन्सी") को निकालने, और उन्हें लेवेनशेटिन दूरी का उपयोग करने के बारे में सोच रहा था (गीत शीर्षक में शब्द एक ही क्रम में होना चाहिए)।
मेरे विशेष मामले में, क्या यह काम करेगा? इस समस्या के बारे में उद्योग मानक क्या है (मैं दुनिया में एकमात्र ऐसा नहीं हो सकता जो थोड़ा अलग गीत नामों से मेल खाना चाहता हो) क्या कोर डेटा, कोको या उद्देश्य-सी मेरी मदद कर सकता है?
बहुत बहुत धन्यवाद।
ठीक है, मैंने पहली बार इस बदलाव की कोशिश की और जब मैं असली दुनिया डेटा पार्स करता हूं, तो यह काफी काम नहीं करता है। अधिकांश समय, समस्या diacritics या मामला नहीं है, लेकिन सूक्ष्म वर्तनी मतभेदों में (जैसा कि "बैकस्ट्रीट गर्ल" बनाम "बैक स्ट्रीट गर्ल" बनाम) में है। यह समाधान पिछले चरण, टोकननाइजेशन पर भी निर्भर करता है, जो डोमेन के लिए वास्तव में कठिन है "शब्द जो गीत शीर्षक में दिखाई दे सकते हैं" – damdamdam