2012-03-02 2 views
6

मैं एक समाचार वेबसाइट से मुख्य समाचार निकालने के लिए एक कोड बनाना चाहता हूं। समाचार वेबसाइटों में मुख्य समाचार, विज्ञापन, समीक्षा, कॉपीराइट नोटिस होता है, इसलिए मैं केवल बॉयलरपाइप में किए गए मुख्य समाचार प्राप्त करना चाहता हूं लेकिन मैं जानना चाहता हूं कि यह कैसे करें।मुख्य सामग्री निकालने (उच्चतम पाठ घनत्व) एक समाचार लेख से वेब पेज

तो मैं इस काम को करने की प्रक्रिया के बारे में जानकारी रखना चाहता हूं।

सुधांशु

उत्तर

8

boilerpipe वेबसाइटों स्रोत कोड, त्वरित प्रारंभ निर्देश, मूल वैज्ञानिक कागज के लिंक और होता है इसी सम्मेलन प्रस्तुति वीडियो के लिए:

http://code.google.com/p/boilerpipe/

यह आपको एक काफी व्यापक सेट देना चाहिए यह कैसे काम करता है और आप अपने परिदृश्य में इसे कैसे लागू कर सकते हैं इस बारे में जानकारी के बारे में जानकारी।

बेस्ट,

ईसाई

0

पार्स करने के लिए एक API प्रदान करता है।

HTMLCleaner जावा लाइब्रेरी है जो सुरक्षित रूप से पार्स और वेब पर किसी भी एचटीएमएल को अच्छी तरह से गठित एक्सएमएल में बदलने के लिए उपयोग की जाती है। यह छोटे, तेज़, लचीला और स्वतंत्र होने के लिए डिज़ाइन किया गया है। जावा कोड में HtmlCleaner का उपयोग कमांड लाइन उपकरण या एंट टास्क के रूप में किया जा सकता है। पार्सिंग का परिणाम लाइटवेट दस्तावेज़ ऑब्जेक्ट मॉडल है जिसे आसानी से डीओएम या जेडॉम जैसे मानकों में परिवर्तित किया जा सकता है, या विभिन्न तरीकों से एक्सएमएल आउटपुट में क्रमबद्ध किया जा सकता है (कॉम्पैक्ट, सुंदर मुद्रित और इसी तरह)।

आप एक्सएमएल भीतर सामग्री प्राप्त करने के htmlcleaner साथ XPath उपयोग कर सकते हैं/HTML tags.Here एक अच्छा
उदाहरण Xpath Example

2

हम खुला स्रोत क्रॉलर्स, पठनीयता, उसी के लिए ब्यूटीफुल सूप आदि जैसे का एक बहुत कोशिश करते हैं लेकिन Diffbot एपीआई परीक्षण के बाद हम AppMarkt के लिए उपयोग निर्णय लेते हैं। यह विभिन्न भाषाओं से समाचार लेखों को तेज़ और निकाला जाता है।

संबंधित मुद्दे