nutch

    6गर्मी

    1उत्तर

    मैं एक ऐसे प्रोजेक्ट पर काम कर रहा हूं जहां मुझे कुछ काम करने के लिए परिपक्व क्रॉलर चाहिए, और मैं इस उद्देश्य के लिए नच का मूल्यांकन कर रहा हूं। मेरी वर्तमान ज़रूरतें अपेक्षाकृत सरल हैं: मुझे एक क्रॉल

    6गर्मी

    1उत्तर

    क्या मैं मोटा हो रहा हूं या क्या कुछ जावा कोड प्रोग्रामेटिक रूप से अपाचे नच को आमंत्रित करने का कोई तरीका नहीं है? यह कैसे करें इस पर दस्तावेज़ (या एक गाइड या ट्यूटोरियल) कहां है? Google ने मुझे असफल

    11गर्मी

    2उत्तर

    Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166)

    6गर्मी

    1उत्तर

    से पढ़ने वाली ईएमआर समस्या पर नच हाय मैं अमेज़ॅन के ईएमआर पर Apache Nutch 1.2 चलाने की कोशिश कर रहा हूं। ऐसा करने के लिए मैं S3 से इनपुट निर्देशिका निर्दिष्ट करता हूं। मैं निम्नलिखित त्रुटि मिलती है:

    5गर्मी

    2उत्तर

    मैं इन चार नच/हेरिट्रिक्स/ओपनपाइपलाइन/अपाचे टीका की तुलना कर रहा हूं जो सबसे अच्छा है? प्रत्येक के गुण और दोष क्या हैं? मैं कुछ विस्तारणीय क्रॉलर चाहता हूं जो वेबसाइटों की सूची क्रॉल कर सकता है और यदि

    5गर्मी

    3उत्तर

    पिछले एक महीने के लिए मैं एक वेब रेंगने परियोजना मैं शुरू कर दिया है के लिए Scrapy उपयोग कर रहे हैं। इस परियोजना के किसी एक डोमेन नाम पर सभी वेब पृष्ठों है कि मुख पृष्ठ से पहुंचा जा सकता है का पूरा दस

    11गर्मी

    2उत्तर

    मैं (Nutch का उपयोग कर कई वेबपेजों रेंगने द्वारा बनाई गई) एक Lucene सूचकांक का उपयोग करने की जरूरत है, लेकिन यह त्रुटि ऊपर दिखाए दे रहा है: java.io.FileNotFoundException: no segments* file found in [e

    6गर्मी

    4उत्तर

    से एचटीएमएल सामग्री कैसे प्राप्त करें वेब पेज को क्रॉल करते समय नच में प्रत्येक वेबपृष्ठ की एचटीएमएल सामग्री प्राप्त करने का कोई तरीका है?

    19गर्मी

    5उत्तर

    पर एक वैकल्पिक वेब क्रॉलर मैं एक विशेष खोज इंजन वेबसाइट बनाने की कोशिश कर रहा हूं जो सीमित संख्या में वेब साइटों को अनुक्रमणित करता है। समाधान मैं के साथ आया है: Nutch वेब क्रॉलर के रूप में उपयोग करते

    8गर्मी

    5उत्तर

    मैं नच और हडूप के साथ कुछ परीक्षण कर रहा हूं और मुझे बड़ी मात्रा में डेटा चाहिए। मैं 20 जीबी के साथ शुरू करना चाहता हूं, 100 जीबी, 500 जीबी पर जाएं और अंततः 1-2 टीबी तक पहुंचें। समस्या यह है कि मेरे प