मैंने वेब स्क्रैपिंग के लिए 3 भाषाओं का उपयोग किया है - रूबी, PHP और पायथन और ईमानदारी से उनमें से कोई भी कार्य के लिए बिल्कुल सही नहीं लगता है।क्या कोई ऐसी भाषा है जो वेब स्क्रैपिंग के लिए सिर्फ "सही" है?
रूबी में एक उत्कृष्ट मशीनीकरण और एक्सएमएल पार्सिंग लाइब्रेरी है लेकिन स्प्रेडशीट समर्थन बहुत खराब है।
PHP में उत्कृष्ट स्प्रेडशीट और HTML पार्सिंग लाइब्रेरी है लेकिन इसमें WWW के बराबर नहीं है: मैकेनाइजेशन।
पायथन में बहुत खराब मैकेनाइजेशन लाइब्रेरी है। मुझे इसके साथ कई समस्याएं थीं और अभी भी उन्हें हल करने में असमर्थ थीं। इसकी स्प्रेडशीट लाइब्रेरी भी कम या ज्यादा सभ्य है क्योंकि यह एक्सएलएसएक्स फाइलें बनाने में असमर्थ है।
क्या ऐसा कुछ भी है जो वेबक्रैपिंग के लिए बिल्कुल सही है।
पीएस: मैं विंडोज प्लेटफॉर्म पर काम कर रहा हूं।
एक्सेल प्रारूप समर्थन वेब scraping के लिए एक तरह से ओर्थोगोनल है ... –
मुझे लगता है कि 'सही' है सुंदर व्यक्तिपरक, हालांकि, आप नेट की कोशिश की है? मुझे लगता है कि इसकी एक्सएमएल पार्सिंग लाइब्रेरी बहुत मजबूत है और आप एमएसऑफिस में आसानी से स्प्रेडशीट समर्थन के लिए भी जोड़ सकते हैं। – Tommy
@ टॉमी: क्या इसमें मशीनीकरण के बराबर है? मैंने इसे WebBrowserControl के साथ उपयोग किया था लेकिन इसे अक्षम पाया। – Shubham