2012-01-04 7 views
12

मैं node.js. का उपयोग करके कई tutorials explaining how to scrape public websites that don't require authentication/login में आया हूं।मैं उन साइटों को कैसे स्क्रैप कर सकता हूं जिन्हें node.js का उपयोग करके प्रमाणीकरण की आवश्यकता होती है?

क्या कोई यह बता सकता है कि node.js का उपयोग करके लॉगिन की आवश्यकता वाले साइटों को कैसे स्क्रैप करना है?

+1

क्या आपको यह काम मिल गया? यदि आपने किया तो कोड कोड नमूना पोस्ट करें। – codecowboy

+0

संभावित डुप्लिकेट [ऐसी वेबसाइट को स्क्रैप करना जिसके लिए node.js का उपयोग करके प्रमाणीकरण की आवश्यकता होती है] (http://stackoverflow.com/questions/17765525/scraping-a-website-which-requires-authentication-using-node-js) – velop

उत्तर

17

उपयोग Mikeal's Request पुस्तकालय, अगर आप इस तरह का समर्थन कुकीज़ सक्षम करना होगा: (स्वयं)

var request = request.defaults({jar: true}) 

तो आप पहली बार उस साइट पर एक उपयोगकर्ता नाम बनाना चाहिए और जब पोस्ट बनाने उपयोगकर्ता नाम और पैरामीटर के रूप में पासवर्ड पारित उस साइट के लिए अनुरोध करें। उसके बाद सर्वर एक कुकी के साथ जवाब देगा जो अनुरोध याद रखेगा, ताकि आप उन पृष्ठों तक पहुंच सकें जिनके लिए आपको उस साइट पर लॉग इन करना होगा।

नोट: लॉगिन पृष्ठ पर रीकैप्चा जैसे कुछ उपयोग किए जाने पर यह दृष्टिकोण काम नहीं करता है।

+0

@ alessioalex धन्यवाद। मैं आपके सुझाव का प्रयास करूंगा और यहां स्थिति अपडेट करूँगा। – ekanna

+1

क्या आप मुझे ऐसा करने के लिए कोई नमूना प्रदान कर सकते हैं कि मैं ऐसा कर रहा हूं जैसा कि आपने कहा था लेकिन बिना किस्मत के मैं एक एएसपीनेट साइट स्क्रैप करने की कोशिश कर रहा हूं। –

+1

यदि आप कहीं भी कोड नमूना पोस्ट करते हैं तो यह उपयोगी होगा (एक गिस्ट या कुछ), इसलिए मैं यह समझ सकता हूं कि आप क्या कर रहे हैं। यह इस तरह से तेज होगा। – alessioalex

5

या superagent का उपयोग कर:

var superagent = require('superagent') 
var agent = superagent.agent(); 

agent तो एक लगातार ब्राउज़र है, जो हो रही है और बस agent.get, agent.post() सामान्य रूप में कुकीज़, referers, आदि की स्थापना संभाल लेंगे है।

+0

क्या आपके पास एजेंट के लिए स्रोत/डॉक्टर हैं? मुझे http://visionmedia.github.io/superagent – velop

+1

@velop https://visionmedia.github.io/superagent/#preserving-cookies पर कोई भी नहीं मिला – yckart

संबंधित मुद्दे

 संबंधित मुद्दे