मैं lxml का उपयोग कर एक HTML दस्तावेज़ को पार्स करना चाहता हूं। मैं अजगर 3.2.3 और lxml 2.3.4 (http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml) मैं etree.iterparse उपयोग कर रहा हूँ दस्तावेज़ को पार्स क
मुझे एक्सएमएल दस्तावेजों को संभालना है जो काफी बड़े हैं (1 जीबी तक) और उन्हें अजगर के साथ पार्स करें। मैं iterparse() फ़ंक्शन (SAX शैली पार्सिंग) का उपयोग कर रहा हूं। मेरी चिंता का विषय निम्नलिखित है,
को पार्स करने के लिए lxml और iterparse() का उपयोग करके मुझे 1 जीबी एक्सएमएल फ़ाइल को नीचे की संरचना के साथ पार्स करना होगा और टैग "लेखक" और "सामग्री" टैग के भीतर टेक्स्ट निकालना होगा: <Database>
यह अंततः मेरी सभी उपलब्ध स्मृति का उपभोग करता है और फिर प्रक्रिया मारे जाती है। मैंने schedule से टैग को 'छोटे' टैग में बदलने की कोशिश की है, लेकिन इससे कोई फर्क नहीं पड़ता। मैं क्या गलत कर रहा/मैं it