मेरे पास एक प्रोजेक्ट है जहां मैं किसी विशेष श्रेणी से संबंधित सभी विकिपीडिया लेख एकत्र करता हूं, विकिपीडिया से डंप खींचता हूं, और इसे हमारे डीबी में डालता हूं।क्या पाइथन का उपयोग करके पार्सर विकिपीडिया डंप फ़ाइलों को पार्सर/रास्ता उपलब्ध है?
तो मुझे सामान प्राप्त करने के लिए विकिपीडिया डंप फ़ाइल को पार्स करना चाहिए। क्या हमारे पास यह काम करने के लिए एक कुशल पार्सर है? मैं एक अजगर डेवलपर हूँ। तो मैं अजगर में किसी भी पार्सर पसंद करते हैं। यदि कोई सुझाव नहीं देता है और मैं इसे पाइथन में एक बंदरगाह लिखने की कोशिश करता हूं और इसे वेब पर योगदान देता हूं, तो अन्य व्यक्ति इसका उपयोग करते हैं या कम से कम इसे आजमाते हैं।
तो मैं चाहता हूं कि विकिपीडिया डंप फ़ाइलों को पार्स करने के लिए एक पाइथन पार्सर है। मैंने एक मैनुअल पार्सर लिखना शुरू किया जो प्रत्येक नोड को पार करता है और सामान पूरा करता है।