मैं सुंदर सूप के साथ एचटीएमएल दस्तावेज़ों से कुछ पाठ पकड़ने की कोशिश कर रहा हूं। मेरे लिए एक बहुत ही अव्यवस्थित मामले में, यह एक अजीब और रोचक परिणाम उत्पन्न करता है: एक निश्चित बिंदु के बाद, सूप पाठ के भीतर अतिरिक्त रिक्त स्थान से भरा होता है (एक स्थान प्रत्येक पत्र को निम्नलिखित से अलग करता है)। मैंने इसके लिए कोई कारण खोजने के लिए वेब पर खोजने की कोशिश की, लेकिन मुझे विपरीत बग के बारे में केवल कुछ खबरें मिलीं (बिल्कुल कोई जगह नहीं)।सुंदर सूप अप्रत्याशित अतिरिक्त रिक्त स्थान
क्या आपके पास कुछ सुझाव या इशारा है कि यह क्यों होता है, और इस समस्या को हल करने के लिए कैसे संकेत मिलता है?
यह बहुत ही बुनियादी कोड है कि मैं बनाया है:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
और यह एक पंक्ति परिणामों से लिया, लाइन जहां इस समस्या को प्रकट करने के लिए शुरू होता है:
मूल्य = \ " ग्यूसेप labbate ogm? गैर vorremmo Nuovi uccelli chiamati lontre \ "> < इनपुट onmouseover = \" टिप ('< केंद्रों terclass = \ \' शीर्षक _ वीडियो \ \ '> < ख > जी iuseppelabbateo जी मीटर? ओ न हीं वी ओ आर आर ई मीटर मीटर ओ एन यू वी मैं यू सी सी ई एल एल मैं खो ज मैं एक मीटर एक टी मैं एल ओ एन टी आर ई <
आप 'अल्ट्रासोप' क्यों प्रिंट कर रहे हैं? यह 'सूप' नहीं होना चाहिए? – svineet
एक अन्य वेबसाइट के साथ यहां एक ही समस्या है। मैं अभी भी यह पता लगाने की कोशिश कर रहा हूं कि यह सुंदर सूप या अंतर्निहित एलएक्सएमएल के साथ एक समस्या है या नहीं। सॉफ्टवेयर 32 बिट-पायथन पर समस्याओं के बिना चलता है और 64 बिट के साथ विफल रहता है। – Matthias
मैं 'अल्ट्रासूप' के लिए क्षमा चाहता हूं, बस एक छोटी सी त्रुटि। बेशक, सही कोड 'प्रिंट सूप' –