खैर, आप सब से पहले समझने के लिए आप क्या कर रहे हैं के खिलाफ है।
शब्द-के-शब्द चोरी साहित्य को हास्यास्पद रूप से आसान होना चाहिए। सबसे बेवकूफ दृष्टिकोण पर्याप्त लंबाई के शब्द tuples लेना होगा और उन्हें अपने कॉर्पस के खिलाफ तुलना करना होगा। पर्याप्त लंबाई अविश्वसनीय रूप से कम हो सकती है। गूगल परिणाम की तुलना करें:
"I think" => 454,000,000
"I think this" => 329,000,000
"I think this is" => 227,000,000
"I think this is plagiarism" => 5
ताकि दृष्टिकोण के साथ भी आप एक बहुत ही उच्च एक अच्छा मैच या दो खोजने के लिए मौका है (मज़ेदार तथ्य: सबसे अपराधियों वास्तव में गूंगा कर रहे हैं)।
यदि चोरीकर्ता समानार्थी शब्द का उपयोग करता है, शब्द क्रम बदलता है और इसी तरह, जाहिर है कि यह थोड़ा और मुश्किल हो जाता है। आपको समानार्थी को भी स्टोर करना होगा और समान दृष्टिकोण को काम करने के लिए व्याकरण संरचना को सामान्यीकृत करने का प्रयास करना होगा। यह वर्तनी के लिए भी जाता है, निश्चित रूप से (यानी सामान्यीकरण से मिलान करने का प्रयास करें या अपने मिलान में विचलन के लिए खाते की कोशिश करें, जैसा कि एनसीडी दृष्टिकोण अन्य उत्तरों में पोस्ट किया गया है)।
हालांकि सबसे बड़ी समस्या वैचारिक चोरी है। यह वास्तव में कठिन है और प्रत्येक वाक्य के अर्थशास्त्र को विश्लेषण किए बिना कोई स्पष्ट समाधान नहीं है (यानी पर्याप्त जटिल एआई)।
सच यह है कि आपको केवल कुछ प्रकार का मिलान ढूंढना होगा। आपके कॉर्पस में प्रासंगिक टेक्स्ट खोजने के लिए आपको सटीक मिलान खोजने की आवश्यकता नहीं है। अंतिम मूल्यांकन हमेशा किसी मानव द्वारा किया जाना चाहिए, इसलिए यदि आप एक अचूक मैच पाते हैं तो यह ठीक है।
साहित्यिक ज्यादातर बेवकूफ और आलसी हैं, इसलिए उनकी प्रतियां बेवकूफ और आलसी भी होंगी।कुछ ने अपने काम में अविश्वसनीय प्रयास किए हैं, लेकिन उन कार्यों को अक्सर पहले स्थान पर गैर-स्पष्ट साहित्यिकता होती है, इसलिए प्रोग्रामेटिक रूप से ट्रैक करना मुश्किल होता है (यानी यदि किसी व्यक्ति को साइड-बाय-साइड दोनों ग्रंथों के साथ साहित्य चोरी को पहचानने में परेशानी होती है , एक कंप्यूटर भी सबसे अधिक संभावना है)। अन्य सभी 80% के लिए-तो, गूंगा दृष्टिकोण काफी अच्छा है।
स्रोत
2010-03-06 22:50:38
+1। मैंने बहुत समय पहले सूचना सामग्री को मापने के लिए संपीड़न का उपयोग किया था, लेकिन आपकी पोस्ट ने इस दिलचस्प विचार को वापस लाया। –
तथ्य यह है कि दो समान फाइलें निम्न मान (0.03, 0.10) दे सकती हैं लेकिन आकार (0.9 9) के आधार पर उच्च मान भी बहुत प्रासंगिक हैं। मैं पूरी तरह से इस पर भरोसा नहीं करता। – Chaotic