मेरे पास 2 बार कई वेबपृष्ठों के स्नैपशॉट हैं। यह निर्धारित करने के लिए एक विश्वसनीय तरीका क्या है कि कौन से वेबपृष्ठ संशोधित किए गए हैं?यह निर्धारित करने के लिए कि क्या वेबपृष्ठ संशोधित किया गया है
मैं आरएसएस फ़ीड की तरह कुछ पर भरोसा नहीं कर सकता, और मुझे डेट टेक्स्ट जैसे मामूली शोर को अनदेखा करने की आवश्यकता है।
आदर्श रूप में मैं एक पायथन समाधान की तलाश में हूं, लेकिन एक अंतर्ज्ञानी एल्गोरिदम भी महान होगा।
धन्यवाद!
क्या आप स्नैपशॉट्स कहने पर छवियों का मतलब रखते हैं? या ऐतिहासिक एचटीएमएल? –
सिर्फ एचटीएमएल - कोई सहायक फाइल नहीं – hoju
क्या आप संरचना (एचटीएमएल टैग) या सामग्री या दोनों को अलग करना चाहते हैं? – elhoim