एक समाचार आलेख वेबपृष्ठ (किसी भी प्रमुख समाचार स्रोत जैसे समय या ब्लूमबर्ग) से देखते हुए, मैं उस पृष्ठ पर मुख्य लेख सामग्री की पहचान करना चाहता हूं और अन्य विविध तत्वों को बाहर निकालना चाहता हूं जैसे विज्ञापन, मेनू, साइडबार, उपयोगकर्ता टिप्पणियां।वेब स्क्रैपिंग - वेबपृष्ठ पर मुख्य सामग्री की पहचान कैसे करें
ऐसा करने का एक सामान्य तरीका क्या है जो अधिकांश प्रमुख समाचार साइटों पर काम करेगा?
डेटा खनन के लिए कुछ अच्छे उपकरण या पुस्तकालय क्या हैं? (अधिमानतः पायथन आधारित)
देखते हैं कि कैसे 'Readability' बुकमार्क कार्यान्वित किया जाता है http://lab.arc90.com/experiments/readability/ – jfs
एक यह ब्राउज़र जो ऑनलाइन विज्ञापनों के लिए एक बड़ा खतरा होगा। –
मूल बुकमार्कलेट का कोड यहां है: http://code.google.com/p/arc90labs-readability/source/browse/ 'पठनीयता' अब एक सेवा है और यह कोड उपलब्ध नहीं है। – lsh