क्या यह निर्धारित करने का एक विश्वसनीय तरीका है कि दो फाइलें समान हैं या नहीं? उदाहरण के लिए, एक ही आकार और प्रकार वाली दो फाइलें समान बिनारिली हो सकती हैं या नहीं भी हो सकती हैं (हाँ, मुझे पता है कि यह वास्तव में एक शब्द नहीं है)। मुझे लगता है कि फ़ाइलों में मदद मिलेगी की एक या दो चेकसम की तुलना मान, लेकिन मुझे आश्चर्य है कि:यह निर्धारित करना कि फ़ाइल एक डुप्लिकेट है
- चेकसम कैसे विश्वसनीय हैं निर्धारित करता है कि दो फ़ाइलें अलग हैं पर; एक ही चेकसम वाले दो अलग-अलग फाइलों की संभावना क्या है?
- द्वारा अतिरिक्त चेकसम तुलना लागू करने से विश्वसनीयता में वृद्धि होगी?
- कौन सा चेकसम एल्गोरिदम सबसे कुशल और/या विश्वसनीय होगा?
कोई भी विचार, सुझाव या विचारों की सराहना की जाती है!
पीएस इसके लिए कोड जावा में एक निक्स सिस्टम पर चल रहा है, लेकिन जेनेरिक या प्लेटफार्म अज्ञेय इनपुट सबसे उपयोगी है।
विचार के लिए अतिरिक्त भोजन ... मैं डुप्लिकेट फ़ाइलों को कम करने के समान कुछ पर काम कर रहा था और पाया कि आंशिक रकम करने से प्रक्रिया बहुत बढ़ गई है। पहले 4k पर SHA-1 की गणना करें। अगर वे वही हैं, तो पूरी फाइल करें। आप पहले अंतर पर बैलिंग, पहले 4k बाइट्स की तुलना भी सीधे कर सकते हैं। सभी इस बात पर निर्भर करते हैं कि आपका अंतिम लक्ष्य क्या है। – basszero