मुख्य सामग्री निकालने (उच्चतम पाठ घनत्व) एक समाचार लेख से वेब पेज

मैं एक समाचार वेबसाइट से मुख्य समाचार निकालने के लिए एक कोड बनाना चाहता हूं। समाचार वेबसाइटों में मुख्य समाचार, विज्ञापन, समीक्षा, कॉपीराइट नोटिस होता है, इसलिए मैं केवल बॉयलरपाइप में किए गए मुख्य समाचार प्राप्त करना चाहता हूं लेकिन मैं जानना चाहता हूं कि यह कैसे करें।मुख्य सामग्री निकालने (उच्चतम पाठ घनत्व) एक समाचार लेख से वेब पेज

तो मैं इस काम को करने की प्रक्रिया के बारे में जानकारी रखना चाहता हूं।

सुधांशु

स्रोत

2012-03-02 Sudhanshu Gupta

boilerpipe वेबसाइटों स्रोत कोड, त्वरित प्रारंभ निर्देश, मूल वैज्ञानिक कागज के लिंक और होता है इसी सम्मेलन प्रस्तुति वीडियो के लिए:

http://code.google.com/p/boilerpipe/

यह आपको एक काफी व्यापक सेट देना चाहिए यह कैसे काम करता है और आप अपने परिदृश्य में इसे कैसे लागू कर सकते हैं इस बारे में जानकारी के बारे में जानकारी।

बेस्ट,

ईसाई

स्रोत

2012-04-25 20:21:30

JSOUP मैं htmlcleaner एक कोशिश देना होगा एचटीएमएल

स्रोत

2012-03-02 12:14:50 Allan

पार्स करने के लिए एक API प्रदान करता है।

HTMLCleaner जावा लाइब्रेरी है जो सुरक्षित रूप से पार्स और वेब पर किसी भी एचटीएमएल को अच्छी तरह से गठित एक्सएमएल में बदलने के लिए उपयोग की जाती है। यह छोटे, तेज़, लचीला और स्वतंत्र होने के लिए डिज़ाइन किया गया है। जावा कोड में HtmlCleaner का उपयोग कमांड लाइन उपकरण या एंट टास्क के रूप में किया जा सकता है। पार्सिंग का परिणाम लाइटवेट दस्तावेज़ ऑब्जेक्ट मॉडल है जिसे आसानी से डीओएम या जेडॉम जैसे मानकों में परिवर्तित किया जा सकता है, या विभिन्न तरीकों से एक्सएमएल आउटपुट में क्रमबद्ध किया जा सकता है (कॉम्पैक्ट, सुंदर मुद्रित और इसी तरह)।

आप एक्सएमएल भीतर सामग्री प्राप्त करने के htmlcleaner साथ XPath उपयोग कर सकते हैं/HTML tags.Here एक अच्छा
उदाहरण Xpath Example

स्रोत

2012-03-02 12:30:11 RanRag

हम खुला स्रोत क्रॉलर्स, पठनीयता, उसी के लिए ब्यूटीफुल सूप आदि जैसे का एक बहुत कोशिश करते हैं लेकिन Diffbot एपीआई परीक्षण के बाद हम AppMarkt के लिए उपयोग निर्णय लेते हैं। यह विभिन्न भाषाओं से समाचार लेखों को तेज़ और निकाला जाता है।

स्रोत

2014-03-09 12:08:51

मुख्य सामग्री निकालने (उच्चतम पाठ घनत्व) एक समाचार लेख से वेब पेज

उत्तर

संबंधित मुद्दे