2016-07-06 7 views
7

मैं Python3 और newspaper लाइब्रेरी का उपयोग करता हूं। ऐसा कहा जाता है कि यह लाइब्रेरी Source ऑब्जेक्ट बना सकती है जो एक समाचार वेबसाइट का एक अमूर्त है। लेकिन अगर मुझे केवल एक निश्चित श्रेणी के अवशोषण की आवश्यकता है तो क्या होगा।समाचार पत्र पुस्तकालय का उपयोग कर वेबसाइट की केवल एक विशिष्ट श्रेणी का विश्लेषण कैसे करें?

उदाहरण के लिए, जब मैं this url का उपयोग करता हूं, तो मैं 'technology' श्रेणी के सभी लेख प्राप्त करना चाहता हूं। इसके बजाय, मुझे 'politics' से आलेख मिलते हैं।

मुझे लगता है कि Source ऑब्जेक्ट बनाते समय, समाचार पत्र केवल डोमेन नाम का उपयोग करता है, जो मेरे मामले में www.kyivpost.com है)।

क्या http://www.kyivpost.com/technology/ जैसे यूआरएल के साथ काम करने का कोई तरीका है?

+0

क्या आपको समाचार पत्र मॉड्यूल का उपयोग करके श्रेणियां प्राप्त करने का कोई तरीका मिला, यदि आप कृपया उत्तर पोस्ट कर सकते हैं –

उत्तर

0

newspaper उपलब्ध होने पर साइट की आरएसएस फ़ीड का उपयोग करेगा; KyivPost में केवल एक आरएसएस फ़ीड और मुख्य रूप से राजनीति पर पोस्ट लेख हैं, यही कारण है कि आपका परिणाम सेट ज्यादातर राजनीति है।

आपके पास BeautifulSoup का उपयोग करके अधिक से अधिक भाग्य हो सकता है ताकि विशेष रूप से तकनीकी पृष्ठ से आलेख URL खींच सकें और उन्हें newspaper पर सीधे खिला सकें।

संबंधित मुद्दे