2010-08-12 13 views
7

मैंने वेब स्क्रैपिंग के लिए 3 भाषाओं का उपयोग किया है - रूबी, PHP और पायथन और ईमानदारी से उनमें से कोई भी कार्य के लिए बिल्कुल सही नहीं लगता है।क्या कोई ऐसी भाषा है जो वेब स्क्रैपिंग के लिए सिर्फ "सही" है?

रूबी में एक उत्कृष्ट मशीनीकरण और एक्सएमएल पार्सिंग लाइब्रेरी है लेकिन स्प्रेडशीट समर्थन बहुत खराब है।

PHP में उत्कृष्ट स्प्रेडशीट और HTML पार्सिंग लाइब्रेरी है लेकिन इसमें WWW के बराबर नहीं है: मैकेनाइजेशन।

पायथन में बहुत खराब मैकेनाइजेशन लाइब्रेरी है। मुझे इसके साथ कई समस्याएं थीं और अभी भी उन्हें हल करने में असमर्थ थीं। इसकी स्प्रेडशीट लाइब्रेरी भी कम या ज्यादा सभ्य है क्योंकि यह एक्सएलएसएक्स फाइलें बनाने में असमर्थ है।

क्या ऐसा कुछ भी है जो वेबक्रैपिंग के लिए बिल्कुल सही है।

पीएस: मैं विंडोज प्लेटफॉर्म पर काम कर रहा हूं।

+3

एक्सेल प्रारूप समर्थन वेब scraping के लिए एक तरह से ओर्थोगोनल है ... –

+2

मुझे लगता है कि 'सही' है सुंदर व्यक्तिपरक, हालांकि, आप नेट की कोशिश की है? मुझे लगता है कि इसकी एक्सएमएल पार्सिंग लाइब्रेरी बहुत मजबूत है और आप एमएसऑफिस में आसानी से स्प्रेडशीट समर्थन के लिए भी जोड़ सकते हैं। – Tommy

+0

@ टॉमी: क्या इसमें मशीनीकरण के बराबर है? मैंने इसे WebBrowserControl के साथ उपयोग किया था लेकिन इसे अक्षम पाया। – Shubham

उत्तर

2

चेक अजगर + टुकड़ेदार, यह बहुत अच्छा है:

http://scrapy.org/

+1

मैं हर समय इसका उपयोग करता हूं! – JudoWill

1

क्यों न सिर्फ XML Spreadsheet प्रारूप का उपयोग करें? यह बनाना बहुत आसान है, और यह शायद किसी भी प्रकार के वर्ग-आधारित सिस्टम के साथ तुच्छ होगा।

इसके अलावा, पाइथन के लिए आपने BeautifulSoup पार्सिंग के लिए प्रयास किया है? Urllib + BeautifulSoup एक सुंदर शक्तिशाली कॉम्बो बनाता है।

0

वेब स्क्रैपिंग के लिए पायथन + Beautiful Soup और जब से आप विंडोज़ पर हैं, तो आप एक्सेल ऑटोमेशन के लिए Win32com का उपयोग अपनी xlsx फ़ाइलों को उत्पन्न करने के लिए कर सकते हैं।

1

संक्षिप्त उत्तर नहीं है।

समस्या यह है कि एचटीएमएल प्रारूपों का एक बड़ा परिवार है - और केवल हाल ही के संस्करण लगातार (और एक्सएमएल आधारित) हैं। यदि आप PHP का उपयोग करने जा रहे हैं तो मैं डीओएम पार्सर का उपयोग करने की सलाह दूंगा क्योंकि यह बहुत सारे एचटीएमएल को संभाल सकता है जो अच्छी तरह से गठित एक्सएमएल के रूप में योग्य नहीं है। -

अपनी पोस्ट के लाइनों के बीच पढ़ा जाए तो यह होने लगते हैं:

1) जटिल बातचीत प्रबंधन

2 के लिए एक आवश्यकता के साथ वेब से सामग्री पर कब्जा करने) के लिए एक सुसंगत मशीन पठनीय प्रारूप में डेटा को पार्स

3) एक स्प्रेडशीट

जो निश्चित रूप से 3 अलग समस्या है करने के लिए डेटा लेखन - अगर कोई भी भाषा सभी 3 आवश्यकताओं को पूरा करती तो क्यों इस काम के लिए सबसे अच्छा उपकरण का उपयोग नहीं है और बस abo चिंता डेटा के लिए एक उपयुक्त अंतरिम प्रारूप/माध्यम के रूप में?

सी

संबंधित मुद्दे