2010-07-26 12 views
6

मान लीजिए कि मैंने HTML कोड डाउनलोड किया है, और मैं इसे पार्स कर सकता हूं। मुझे उस वेबसाइट का "सर्वश्रेष्ठ" विवरण कैसे प्राप्त होगा, यदि उस वेबसाइट में मेटा-विवरण टैग नहीं है?पायथन में वेबसाइट का विवरण पाने का सबसे अच्छा तरीका क्या है?

उत्तर

1

उपरोक्त "पठनीयता" सुझाव (जो स्वयं वेबसाइट InstaPaper से प्रेरित है) पर अनुवर्ती करने के लिए, उन्होंने जावास्क्रिप्ट को जारी किया है: http://code.google.com/p/arc90labs-readability/। और क्या है, कुछ लड़के ने इसे लिया और इसे पायथन पर पोर्ट किया: http://github.com/gfxmonk/python-readability। आनन्द!

3

आप Readability जैसे कुछ से पहले कुछ वाक्य लौटा सकते हैं।

सफारी 5 इसे इस्तेमाल करता है, तो यह ठीक होना चाहिए :)

+0

पढ़ने योग्यता के लिए +1। साफ उपकरण। पठनीयता के लिए –

+0

+1 :) – Kit

1

यह एक नियम है कि समय की 100% काम करता है, स्पष्ट रूप से साथ आने के लिए बहुत मुश्किल है, लेकिन एक प्रारंभिक बिंदु के रूप में अपने सुझाव देखने के लिए होगा पहले <h1> टैग (या <h2>, <h3>, आदि के लिए - उच्चतम जो आप पा सकते हैं) तो के बाद पाठ का थोड़ा सा विवरण के रूप में उपयोग किया जा सकता है। जब तक साइट को अर्थात् चिह्नित किया जाता है, तो आपको एक अच्छा विवरण देना चाहिए (मुझे लगता है कि आप सामग्री<h1> स्वयं भी ले सकते हैं, लेकिन यह "शीर्षक" जैसा अधिक है)।

यह ध्यान रखना दिलचस्प है कि Google (उदाहरण के लिए) एक स्थिर विवरण के बजाय वर्णन के रूप में प्रदर्शित करने के लिए पृष्ठ सामग्री के एक कीवर्ड-विशिष्ट निकास का उपयोग करता है। सुनिश्चित नहीं है कि यह आपकी स्थिति के लिए काम करेगा, हालांकि।

संबंधित मुद्दे

 संबंधित मुद्दे