अनुरोध और मैं की सामग्री को क्वेरी करने के लिए एक वेब पेज URL से एक लेख प्राप्त करने के लिए पुस्तकालय अनुरोध Diffbot एपीआई का उपयोग कर रहा हूँ।पायथन यूनिकोड
{ "आइकन": जब मैं एक अनुरोध URL मैं अपने ब्राउज़र में बनाने यही जाते हैं, तो यह यूनिकोड में पाठ के साथ एक JSON ऑब्जेक्ट (? दाएं) उदाहरण के लिए (मैं पाठ कुछ हद तक shortended) "http : //mexico.cnn.com/images/ico_mobile.jpg "," पाठ ":" Ciudad de मेक्सिको (CNNMéxico) \ u2014 Kassandra कानो Guazo 32 है, लेकिन रविवार एक चुनावी \ में पहली भाग लिया। n \ "वहाँ मेरी (क्रेडेंशियल) IFE (संघीय निर्वाचन संस्थान) मिला nSánchez था, क्योंकि प्रक्रिया बनाने वहाँ बहुत उपहास जब वे देखते हैं आपके नाम अपने नए पहचान के अनुसार अपने और अन्य दस्तावेजों से मेल नहीं खाता है। \ वह कहता है कि आवेदकों साथ भेदभाव नहीं कर रहे हैं दो, लेकिन अनुभव अलग है Kassanda: \ "आप एक वकील, दो विशेषज्ञों (एक एंडोक्राइनोलॉजिस्ट सहित) भुगतान करना होगा। इसके अलावा, नाम बदलने के लिए और अगर यह अनुकूल नहीं है न्यायाधीश सजा चार साल इंतजार करना फिर से मुकदमा करने के लिए नागरिक पंजीकरण \ "नहीं है। \ Nante यह स्थिति, रोकथाम और sculina के उन्मूलन के लिए परिषद, ट्रांसजेंडर वोट - मेक्सिको: वोट 2012 - राष्ट्रीय "," url ":" http://mexico.cnn.com/nacional/2012/07/02/con-apariencia-de-mujer-e-identidad-masculina- ट्रांस वोट "," xpath ""/HTML [1]/शरीर [1]/अनुभाग [5]/DIV [1]/लेख [1]/DIV [1]/DIV [6] "}
जब मैं अजगर पुस्तकालय अनुरोध का उपयोग इस प्रकार है:
def get_article(self, params={}):
api_endpoint = 'http://www.diffbot.com/api/article'
params.update({
'token': self.dev_token,
'format': self.output_format,
})
req = requests.get(api_endpoint, params=params)
return json.loads(req.content)
यह रिटर्न इस (फिर पाठ मैं कुछ हद तक छोटा है कि ध्यान दें):
{u'url ': u'http: //mexico.cnn.com/nacional/2012/07/02/ साथ-उपस्थिति के- स्त्री-ए-पहचान-पुरुष-ट्रांसजेंडर-वोट ', u'text': u'CIUDAD एम \ xc9XICO (CNNM \ xe9xico) \ u2014 Kassandra Guazo कानो 32 \ xf1os है लेकिन रविवार को एक विकल्प \ xf3n में xf3 पहले \ भाग लिया। \ n "नहीं Hab \ Xeda मेरी (क्रेडेंशियल) IFE (संघीय निर्वाचन संस्थान) मिल गया क्योंकि hacOyuky मार्ट \ xednez कर्नल \ xedn, भी \ xe9n transg \ xe9nero, और साथ \ अपने दो बेटों 012,351,641 के xf1ada थाऔर मम् \ XE1। \ समर्थन केंद्र ट्रांस पहचान, ई.पू., जहां वे यौन रोगों के रोकथाम \ xf3n का एक अभियान \ xf1a में भाग लेने में कार्यकर्ताओं के रूप में Nambas काम करते हैं। \ N "किशी \ xe9ramos है कि न केवल हमें यौनकर्मियों या स्टाइलिस्ट के रूप में देखते हैं, लेकिन हमारे अधिकारों के लिए लड़ाई कहते हैं, "Kassandra जबकि मुस्कान \ xede, उसकी मतदाता पकड़े और ', u'title' अपने अंगूठे करार को जन्म देती है। u'Con उपस्थिति महिला और पुरुष पहचान, transg \ xe9nero वोट - एम \ xe9xico: वोट 2012 - राष्ट्रीय 'u'xpath': यू '/ HTML [1]/शरीर [1]/अनुभाग [5]/DIV [1]/लेख [1]/DIV [1]/DIV [6] ' u'icon': u'http: //mexico.cnn.com/images/ico_mobile.jpg '}
012,
मैं काफी यूनिकोड समझ में नहीं आता। कैसे यकीन है कि मुझे क्या अभी भी यूनिकोड अनुरोध है कि के साथ हो जाओ करने के लिए?
की तरह आपको लगता है कि json परिणाम में यूनिकोड तार है लग रहा है। "यू" ... नोटेशन पर ध्यान दें? आप कुछ परिणामों के प्रकार की जांच भी कर सकते हैं: 'टाइप (परिणाम [' टेक्स्ट ']) '। http://docs.python.org/howto/unicode.html – istruble
धन्यवाद! मुझे लगता है कि यह वास्तव में यू 'के साथ यूनिकोड है, हालांकि यह प्राथमिकता (ब्राउज़र में) के बजाय prevenci \ xf3n (अनुरोधों का उपयोग करते समय) कहता है। मैं इसे कैसे बना सकता हूं कि prevenci \ xf3n पसंद है? – Javaaaa
यह सिर्फ पुरानी पुरानी स्ट्रिंग शाब्दिक वाक्यविन्यास है। पायथन आपको \ xc9' दिखाता है क्योंकि यह सभी कंसोल पर प्रिंट करना सुरक्षित है, जबकि 'ई' उन कंसोल पर असफल होगा जो यूनिकोड को सही तरीके से समर्थन नहीं देते हैं। यदि आपका कंसोल काम कर रहा है, तो आप देख सकते हैं कि वे वही हैं। '>>> यू 'सियुडैड डी एम \ xc9XICO' == यू 'सियुड डे डेक्सिको' सच है। – bobince