web-crawler

    6गर्मी

    1उत्तर

    मैं ग्रोवी (ग्रेल्स फ्रेमवर्क और मोंगोडीबी डेटाबेस का उपयोग करके) में एक वेब क्रॉलर विकसित करना चाहता हूं जिसमें वेबसाइट को क्रॉल करने की क्षमता है, साइट यूआरएल और उनके संसाधन प्रकारों की एक सूची बनान

    6गर्मी

    2उत्तर

    की सामग्री प्राप्त करें (AJAX कॉल के माध्यम से लोड) मैं क्रॉलिंग करने वाला एक नौसिखिया हूं। मुझे एक लिंक से पोस्ट और टिप्पणियां लाने की आवश्यकता है। मैं इस प्रक्रिया को स्वचालित करना चाहता हूं। मैंने

    7गर्मी

    2उत्तर

    मैं AJAX क्रॉलिंग के बारे में Google विनिर्देशों के बारे में पढ़ रहा हूं; मैं अवधारणा समझा, लेकिन मैं कुछ और स्पष्टीकरण की जरूरत: अपने URL सब इस तरह हैं: http://www.website.com/?_escaped_fragment_=/en

    7गर्मी

    1उत्तर

    हमें एक क्रॉलर के साथ एक अजीब समस्या है। कभी कभी यह कुछ अनुरोध पर एक Rails FATAL त्रुटि फेंक देंगे, लेकिन ट्रेस बहुत सीमित है और इस [2014-07-01 18:16:37] FATAL Rails : ArgumentError (invalid %-encodi

    12गर्मी

    3उत्तर

    स्केपर में कुछ समवर्ती सेटिंग्स हैं, जैसे CONCURRENT_REQUESTS। क्या इसका मतलब है कि स्केपर क्रॉलर बहु-थ्रेडेड है? तो अगर मैं scrapy crawl my_crawler चलाता हूं तो यह सचमुच समानांतर अनुरोधों को समानांतर

    7गर्मी

    1उत्तर

    क्या मैं क्रोम डेवटोल्स नेटवर्क टैब में केवल विशिष्ट अनुरोधों को सहेज सकता हूं? यह मेरे लिए बहुत उपयोगी होगा क्योंकि हमारी कंपनी एक्स्ट्रानेट से जानकारी प्राप्त करने के लिए वेब क्रॉलिंग का उपयोग करती

    6गर्मी

    2उत्तर

    से start_urls मैं spider.py का उपयोग कर ने MySQL तालिका से एक का चयन के साथ START_URL पॉप्युलेट करने के लिए कोशिश कर रहा हूँ पॉप्युलेट। जब मैं "स्केपर रनपाइडर स्पाइडर.py" चलाता हूं तो मुझे कोई आउटपुट

    6गर्मी

    5उत्तर

    के साथ काम नहीं कर रहा है https://developers.google.com/webmasters/ajax-crawling/docs/html-snapshot के अनुसार, HtmlUnit (2.13) के साथ मैं AngularJS (1.2.1) का उपयोग कर वेबपृष्ठ के लिए स्नैपशॉट बनाने क

    5गर्मी

    2उत्तर

    मुझे किसी डोम में सभी जावास्क्रिप्ट आधारित लिंक पर क्लिक करने और आउटपुट को सहेजने में समस्या हो रही है। लिंक निम्न फ़ॉर्म में <a id="html" href="javascript:void(0);" onclick="goToHtml();">HTML</a> न

    5गर्मी

    3उत्तर

    मेरे पास एक वेब क्रॉलिंग पायथन लिपि है जो पूर्ण होने में घंटों लगती है, और अपनी स्थानीय मशीन पर पूरी तरह से चलाने के लिए अक्षम है। क्या इसे सरल वेब सर्वर पर तैनात करने का कोई सुविधाजनक तरीका है? लिपि