2014-10-30 10 views
5

मैं जानना चाहता हूं कि नोडजेस के लिए स्केपर की तरह कुछ है या नहीं? यदि नहीं, तो आप सरल पेज डाउनलोड का उपयोग करने और चीरियो का उपयोग करके इसे पार्स करने के बारे में क्या सोचते हैं? क्या कोई बेहतर तरीका है।नोडज के लिए उपकरण की तरह स्केपर?

उत्तर

1

मैंने पाइथन में स्केपर जैसी संपूर्ण वेबसाइटों को क्रॉल/अनुक्रमणित करने के लिए इतना मजबूत समाधान नहीं देखा है, इसलिए व्यक्तिगत रूप से मैं वेबसाइटों को क्रॉल करने के लिए पायथन स्कैरपी का उपयोग करता हूं।

लेकिन पृष्ठों से डेटा स्क्रैप करने के लिए कैस्परजे नोडजेज़ में है। यह एक बहुत अच्छा समाधान है। यह AJAX वेबसाइटों के लिए भी काम करता है, उदा। कोणीय-जेएस पेज। पायथन स्कैंच AJAX पृष्ठों को पार्स नहीं कर सकता है। तो एक या कुछ पृष्ठों के लिए डेटा स्क्रैप करने के लिए मैं CasperJs का उपयोग करना पसंद करता हूं।

चीरियो कैस्पर्ज से वास्तव में तेज़ है, लेकिन यह AJAX पृष्ठों के साथ काम नहीं करता है और इसमें कैस्पर जैसे कोड की ऐसी अच्छी संरचना नहीं है। तो जब आप चीरियो पैकेज का उपयोग कर सकते हैं तब भी मैं कैस्परज पसंद करता हूं।

कॉफी स्क्रिप्ट उदाहरण:

casper.start 'https://reports.something.com/login', -> 
    this.fill 'form', 
    username: params.username 
    password: params.password 
    , true 

casper.thenOpen queryUrl, {method:'POST', data:queryData}, -> 
    this.click 'input' 

casper.then -> 
    get = (number) => 
    value = this.fetchText("tr[bgcolor= '#AFC5E4'] > td:nth-of-type(#{number})").trim() 
0

बस आपको अभी भी एक उत्तर की आवश्यकता है, https://www.npmjs.org/package/scrapy मैंने कभी इसका परीक्षण नहीं किया, लेकिन लगता है कि इससे मदद मिल सकती है। खुश स्क्रैपिंग।

+0

इस मॉड्यूल कॉन्फ़िगर नहीं किया जा सकता है। यह केवल व्यवसाय का नाम और फोन देता है। मुझे स्क्रैपी के रूप में कलाकार के रूप में एक संभावित समाधान नहीं मिला। लेकिन चेरीओ का उपयोग करके पेज को हेरफेर करना संभव होगा। Jquery का उपयोग करने की तरह। – user2422940

संबंधित मुद्दे