मेरे पास दो उपशीर्षक फ़ाइलें हैं। मैं एक समारोह के बताता है कि क्या वे एक ही पाठ प्रतिनिधित्व करते हैं, या समान पाठटेक्स्ट समानता एल्गोरिदम
कभी-कभी की तरह "हवा बह रही है ... संगीत खेल रहा है" केवल एक फ़ाइल में टिप्पणी कर रहे हैं की जरूरत है। लेकिन सामग्री का 80% प्रतिशत वही होगा। फ़ंक्शन को सत्य लौटा देना चाहिए (फ़ाइलें एक ही पाठ का प्रतिनिधित्व करती हैं)। और कभी-कभी यहां l (एक - एल) की बजाय गलत वर्तनी होती है जैसे: वह 1eft सामान है। बेशक, इसका मतलब है कि फ़ंक्शन को सत्य वापस करना होगा।
मेरे टिप्पणियाँ:
समारोह लौटना चाहिए ग्रंथों की समानता का प्रतिशत - सहमत हैं
"सभी लोग खुश थे" और "सभी लोगों को खुश नहीं थे" - यहाँ है कि एक के रूप में विचार किया जाना था गलत वर्तनी, ताकि एक ही पाठ माना जाएगा। सटीक होने के लिए, फ़ंक्शन रिटर्न का प्रतिशत कम होगा, लेकिन यह कहने के लिए पर्याप्त है कि वाक्यांश समान हैं
इस बात पर विचार करें कि क्या आप पूरी फ़ाइल पर लेवेनशेटिन या केवल एक खोज स्ट्रिंग लागू करना चाहते हैं - लेवेनशेटिन के बारे में निश्चित नहीं है, लेकिन पूरी तरह से फ़ाइल पर एल्गोरिदम लागू किया जाना चाहिए। हालांकि, यह एक बहुत लंबी स्ट्रिंग होगी।
समारोह लौटना चाहिए ग्रंथों की समानता का प्रतिशत और आप सत्य या गलत के लिए दहलीज तय करते हैं। – YOU
आपको अपने समानता मानदंडों के बारे में बहुत विचारशील होने की आवश्यकता होगी और मुझे लगता है कि यह आप जो करने का प्रयास कर रहे हैं उसका सबसे कठिन हिस्सा हो सकता है।उदाहरण के लिए "सभी लोग खुश थे" और "सभी लोग खुश नहीं थे" समान रूप से समान हैं लेकिन अर्थ के संदर्भ में पूरी तरह विपरीत हैं। समान और असमान पाठ के कुछ उदाहरण सहायक हो सकते हैं। – glenatron
साउंडएक्स (http://en.wikipedia.org/wiki/Soundex) देखें और देखें कि यह वह चीज़ है जिसे आप ढूंढ रहे हैं। –