यहाँ मेरी मकड़ी हैscrapy पाठ एन्कोडिंग
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from vrisko.items import VriskoItem
class vriskoSpider(CrawlSpider):
name = 'vrisko'
allowed_domains = ['vrisko.gr']
start_urls = ['http://www.vrisko.gr/search/%CE%B3%CE%B9%CE%B1%CF%84%CF%81%CE%BF%CF%82/%CE%BA%CE%BF%CF%81%CE%B4%CE%B5%CE%BB%CE%B9%CE%BF']
rules = (Rule(SgmlLinkExtractor(allow=('\?page=\d')),'parse_start_url',follow=True),)
def parse_start_url(self, response):
hxs = HtmlXPathSelector(response)
vriskoit = VriskoItem()
vriskoit['eponimia'] = hxs.select("//a[@itemprop='name']/text()").extract()
vriskoit['address'] = hxs.select("//div[@class='results_address_class']/text()").extract()
return vriskoit
मेरे समस्या यह है कि लौटे तार यूनिकोड कर रहे हैं और मैं उन्हें utf-8 के लिए सांकेतिक शब्दों में बदलना चाहते हैं। मुझे नहीं पता कि यह करने का सबसे अच्छा तरीका कौन सा है। मैंने परिणाम के बिना कई तरीकों की कोशिश की।
अग्रिम धन्यवाद!
मैं तुम्हें क्या लिखा गया है की थी, लेकिन मैं अभी भी एक ही परिणाम प्राप्त: यूनिकोड वर्ण। यूटीएफ -8 प्राप्त करने का एकमात्र तरीका उपज या वापसी के बजाय प्रिंट vrisko ['eponimia'] का उपयोग करना है। – mindcast
@ मिंडकास्ट, आपको यह कहां मिला? आप वस्तुओं के साथ क्या करते हैं (जेसन फ़ीड, सीएसवी फ़ीड, या शायद कस्टम पाइपलाइन को सहेजना)? – reclosedev
स्क्रैप क्रॉल vrisko -o scraped_data.json -t json या यहां तक कि स्केपर क्रॉल vrisko और मेरी स्क्रीन पर परिणाम देखें। मुझे पता है कि मुझे कुछ याद आती है लेकिन मैं इसे समझ नहीं सकता। आपके प्रयास के लिए धन्यवाद। – mindcast