मैं एक वेब ऐप हैकिंग की प्रक्रिया में हूं जो node.js. में व्यापक स्क्रीन स्क्रैपिंग का उपयोग करता है। मुझे लगता है कि मैं हर कोने में वर्तमान के खिलाफ लड़ रहा हूं। ऐसा करने का एक आसान तरीका होना चाहिए। सबसे विशेष रूप से, दो चीजें परेशान हैं:node.js में स्क्रीन स्क्रैप करने का सबसे शानदार तरीका क्या है?
कुकी प्रचार। मैं प्रतिक्रिया हेडर से 'सेट-कुकी' सरणी खींच सकता हूं, लेकिन सरणी से कुकीज़ को पार्स करने के लिए स्ट्रिंग ऑपरेशंस निष्पादित करना बेहद हैकिश लगता है।
निम्नलिखित पर पुनर्निर्देशित करें। मैं 302 स्टेटस कोड लौटाए जाने पर प्रत्येक अनुरोध को रीडायरेक्ट के माध्यम से पालन करना चाहता हूं।
मैं दो बातें जो उपयोगी देखा भर में आया था, लेकिन मैं अंत में इस्तेमाल कर सकते हैं नहीं:
http://zombie.labnotes.org/, लेकिन यह HTTPS नहीं है समर्थन है, इसलिए मैं कर सकते हैं ' इसका इस्तेमाल नहीं करते हैं।
http://www.phantomjs.org/, लेकिन इसका उपयोग नहीं कर सका क्योंकि यह node.js. के साथ एकीकृत नहीं होता है। मैं जो कर रहा हूं उसके लिए यह भी भारी हेवीवेट है।
क्या कोई जावास्क्रिप्ट स्क्रीनक्रैपिंग-एस्क्यू पुस्तकालय हैं जो कुकीज़ का प्रचार करते हैं, रीडायरेक्ट का पालन करते हैं, और HTTPS का समर्थन करते हैं? यह आसान बनाने के लिए कोई संकेतक?
सूर्य के नीचे ज़ोंबी और हर दूसरे हेडलेस ब्राउज़र की कोशिश करने के बाद, मैं प्रेत के साथ संयोजन में नोड का उपयोग करके समाप्त हुआ और यह खूबसूरती से काम करता था। आप नोड में स्पॉन विधि का उपयोग करते हैं और प्रेत से प्रतिक्रियाओं को पकड़ते हैं। यह एकमात्र जावास्क्रिप्ट आधारित समाधान है जो मैंने पाया है कि कुकीज़, रीडायरेक्ट, लॉगिन सत्र और उन्नत जावास्क्रिप्ट के साथ कुछ भी काम करता है। मैं जल्द ही एक ब्लॉग पोस्ट कर दूंगा और वापस आऊंगा और टिप्पणी करूंगा। – Clint
भी http://node.io –