मुझे लिखने वाले स्क्रैपर के साथ मदद की ज़रूरत है। मैं विश्वविद्यालय रैंकिंग की एक तालिका को खरोंच करने की कोशिश कर रहा हूं, और उनमें से कुछ स्कूल यूरोपीय विश्वविद्यालय हैं जिनके नाम पर विदेशी पात्र हैं (उदा। Ä, ü)। मैं पहले से ही एक ही साइट पर विदेशी विश्वविद्यालयों के साथ एक और साइट पर स्क्रैप कर रहा हूं, और सब कुछ ठीक काम करता है। लेकिन किसी कारण से, वर्तमान स्क्रैपर विदेशी पात्रों के साथ काम नहीं करेगा (और जहां तक विदेशी पात्रों को पार्स कर रहे हैं, दो स्क्रैपर्स बिल्कुल वही हैं)।विदेशी अक्षरों के साथ स्क्रैपिंग साइट के साथ समस्या
यहाँ मैं चीजों को काम करने के & कोशिश करने के लिए कर रहा हूँ है:
# -*- coding: utf-8 -*-
& आयात कर रहा है Django से स्मार्ट यूनिकोड का उपयोग कर: फ़ाइल के पहले लाइन पर
प्रचार एन्कोडिंग django.utils.encoding आयात से फ्रेमवर्क smart_unicode
school_name = smart_unicode(html_elements[2].text_content(), encoding='utf-8', strings_only=False, errors='strict').encode('utf-8')
स्मार्ट_निकोड फ़ंक्शन के साथ जंजीर होने पर ऊपर देखे गए एन्कोड फ़ंक्शन का उपयोग करें। मैं नहीं सोच सकता कि मैं और क्या गलत कर सकता हूं। इन स्क्रैपर्स से निपटने से पहले, मुझे वास्तव में अलग-अलग एन्कोडिंग के बारे में बहुत कुछ नहीं पता था, इसलिए यह एक आंख खोलने का अनुभव रहा है। मैं इस समस्या को
मैं समझता हूँ कि कोई एन्कोडिंग में, हर चरित्र है कि दूर नहीं कर सकते हैं निम्नलिखित पढ़ने की कोशिश की है, लेकिन अभी भी एक संख्या असाइन की गई, जिसे हेक्स, बाइनरी इत्यादि में व्यक्त किया जा सकता है। विभिन्न एन्कोडिंग में विभिन्न क्षमताओं की आवश्यकता होती है कि वे कितनी भाषाओं का समर्थन करते हैं (जैसे ASCII केवल समर्थन करता है अंग्रेजी, यूटीएफ -8 ऐसा लगता है जो सब कुछ लगता है। हालांकि, मुझे लगता है कि पात्रों को सही तरीके से मुद्रित करने के लिए मैं आवश्यक सब कुछ कर रहा हूं। मुझे नहीं पता कि मेरी गलती कहां है, और यह मुझे पागल कर रही है। कृपया मदद करें !!
FYI करें, (1) केवल अजगर स्रोत फ़ाइल की एन्कोडिंग सेट, ताकि आप कोड में गैर- ASCII वर्ण एम्बेड कर सकते हैं; यह कुछ भी wrt नहीं करता है। इनपुट आउटपुट। –
आह ठीक है, मुझे यह नहीं पता था। मुझे जानकारी देने के लिए धन्यवाद। – user642547
'ASCII केवल अंग्रेजी का समर्थन करता है 'ठीक नहीं है। ऐसी अन्य भाषाएं हैं जो ASCII द्वारा "समर्थित" हैं। – dda