2011-02-23 12 views
5

ऐसा लगता है कि उन्होंने अपने API के साथ काम किया है। उनके पास Search Gateway नामक बहुत कम शक्तिशाली टूल है। इसका उपयोग करके एयरफेयर मूल्य डेटा को स्क्रैप करने के बारे में मैं कैसे जाउंगा? क्या यह भी संभव है? यदि संभव हो तो मैं रेल पर PHP या रूबी में काम करता हूं।kayak.com से मूल्य निर्धारण डेटा कैसे स्क्रैप करें?

विशेष रूप से, मैं लगभग 10 जोड़े शहरों के बीच सबसे कम हवाई किराया मूल्य पर डेटा एकत्र करना शुरू करना चाहता हूं। मैं दिन के प्रत्येक घंटे के लिए डेटा रखना चाहता हूं। मैं सिर्फ हाथ से कयाक की जांच कर सकता था, लेकिन मैं इस प्रक्रिया को स्वचालित करने में सक्षम होना चाहता हूं।

+1

मैं ऐसा नहीं करूँगा क्योंकि स्क्रीन स्क्रैपिंग एक मूल हैक है, मेरा मतलब है कि हर बार जब वे अपनी वेबसाइट अपडेट करने जा रहे हैं तो आपको अपनी स्क्रिप्ट अपडेट करनी होगी। इसके अलावा कानूनी दृष्टि से वे आपकी सहमति के बिना अपने डेटा का उपयोग करने के लिए मुकदमा कर सकते हैं या बस अपने सर्वर आईपी पर प्रतिबंध लगा सकते हैं। – RageZ

+1

हां, आप यह सुनिश्चित कर सकते हैं कि अगर वे अपने एपीआई से छुटकारा पा चुके हैं, तो शायद वे नहीं चाहते हैं कि आप उनमें से डेटा प्राप्त कर सकें। – Brad

+0

अच्छा बिंदु। मैंने सिर्फ एक ईमेल कयाक लिखा है और अनुमति मांगी है। उम्मीद है कि वे दिमाग में नहीं होंगे, क्योंकि मेरी छोटी परियोजना उनके सर्वर पर कोई अवांछित तनाव नहीं डालेगी। – dasl

उत्तर

2

रेलस्कास्ट screen scraping पर एक एपिसोड है। मूल रूप से आप जिस डेटा को आपको आवश्यक डेटा प्राप्त करने के लिए वेबसाइट को पार्स करने के लिए नोकोगिरी मणि का उपयोग कर सकते हैं।

इसे नियमित रूप से चलाने के लिए, आप इसके लिए एक क्रॉन नौकरी बना सकते हैं। यहां एक संबंधित stackoverflow question है।

यदि आप साइट को कहीं होस्ट करना चाहते हैं तो मैं Heroku का सुझाव दूंगा। एकमात्र चीज जो मुक्त नहीं होगी दिन में एक बार से अधिक क्रॉन नौकरी चला रही है। लेकिन अगर आप इसे चलाने के ठीक हैं तो दिन में सिर्फ एक बार सब कुछ मुफ्त में होस्ट किया जाएगा।

+0

क्या कोई पहले से ही ऐसा करता है? मैं इस तरह कुछ करने की योजना बना रहा हूं, लेकिन मैं सोच रहा था कि क्या कोई ओएसएस परियोजनाएं थीं जो समान थीं .. –

2
+0

2015 तक, "क्षमा करें, यह सेवा अब केएके द्वारा पेश नहीं की जाती है।" – htatche

+0

2017 तक, "410 क्षमा करें, हमें वह पृष्ठ नहीं मिला।" – rigsby

0

जांच iMacros प्रयास करें, मैं स्क्रीन विभिन्न होटल बुकिंग वेबसाइटों scraping लिए इसका इस्तेमाल किया।

लेकिन एक अच्छे उपकरण के साथ भी, यह अभी भी बहुत काम है। तो मैं सिर्फ एक उड़ान बुकिंग के लिए ऐसा नहीं करूँगा ...

-1

आप पाइथन की अनुरोध लाइब्रेरी का उपयोग करके ऐसा कर सकते हैं; हालांकि, कयाक स्वचालित स्क्रिप्ट और बॉट से यातायात का पता लगाने और फ़िल्टर करने के लिए कुकीज़ और http शीर्षलेख का उपयोग करता है। इसे बाईपास करने के लिए, आपको वास्तव में समझना होगा कि जीईटी और POST अनुरोध किए जा रहे हैं और क्या यूआरएल, और कुकीज़ कैसे सेट की जाती हैं। इसके अलावा, सही HTTP शीर्षलेखों को धोखा देने के बिना, स्क्रिप्ट/बॉट का पता लगाया जाएगा। यहां एक काम कर रहे पायथन स्क्रिप्ट है जो सफलतापूर्वक वेबकैप्स कायाक है: https://github.com/seaunderwater/kayak-webscraper

+1

हालांकि यह लिंक प्रश्न का उत्तर दे सकता है, लेकिन यहां उत्तर के आवश्यक हिस्सों को शामिल करना बेहतर है और संदर्भ के लिए लिंक प्रदान करना बेहतर है। लिंक किए गए पृष्ठ में परिवर्तन होने पर लिंक-केवल उत्तर अमान्य हो सकते हैं। - [समीक्षा से] (/ समीक्षा/कम गुणवत्ता वाली पोस्ट/18 9 88139) – dferenc

+0

कृपया कुछ टूल या लाइब्रेरी को उत्तर के रूप में न पोस्ट करें। उत्तर में कम से कम प्रदर्शन [यह समस्या कैसे हल करता है] (http://meta.stackoverflow.com/a/251605)। – LW001

संबंधित मुद्दे