2015-11-03 6 views
6

जब मैं निम्न आदेश के साथ nutch 1.10 चलाने के लिए, यह सोचते हैं कि TestCrawl2 पहले से मौजूद नहीं था और, बनाने की आवश्यकता है ...Nutch 1.10 इनपुट पथ मौजूद नहीं है/linkdb/वर्तमान

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

मैं प्राप्त एक त्रुटि इंडेक्सिंग पर दावा करता है कि:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current 

लिंकडीबी निर्देशिका मौजूद है, लेकिन इसमें 'वर्तमान' निर्देशिका नहीं है। निर्देशिका रूट के स्वामित्व में है इसलिए कोई अनुमति समस्या नहीं होनी चाहिए। चूंकि प्रक्रिया किसी त्रुटि से निकलती है, इसलिए linkdb निर्देशिका में .locked और .. locked.crc फ़ाइलें शामिल हैं। यदि मैं फिर से आदेश चलाता हूं, तो इन लॉक फ़ाइलों को उसी स्थान पर बाहर निकलने का कारण बनता है। TestCrawl2 निर्देशिका हटाएं, कुल्ला, दोहराना।

ध्यान दें कि नच और सोलर इंस्टॉलेशन स्वयं TestCrawl उदाहरण में समस्याओं के बिना पहले चला चुके हैं। अभी यह है कि मैं एक नया प्रयास कर रहा हूं जिसमें मुझे समस्याएं आ रही हैं। इस समस्या का निवारण करने पर कोई सुझाव?

उत्तर

3

ठीक है, ऐसा लगता है जैसे कि मैं इस समस्या का एक संस्करण में चलाने की है:

https://issues.apache.org/jira/browse/NUTCH-2041

कौन सा क्रॉल स्क्रिप्ट मेरे Nutch-site.xml ignore_external_links में परिवर्तन के बारे में पता नहीं किया जा रहा का एक परिणाम है फ़ाइल।

मैं कई साइट क्रॉल करने की कोशिश कर रहा हूँ और मेरे जीवन बाहरी लिंक अनदेखी और regex-urlfilter.txt अकेला छोड़ कर सरल रखने की उम्मीद कर रहा था (बस का उपयोग कर +।)

अब ऐसा लगता है कि मैं करना होगा ignore_external_links को वापस गलत में बदलें और मेरे प्रत्येक यूआरएल के लिए एक रेगेक्स फ़िल्टर जोड़ें। उम्मीद है कि मैं जल्द ही एक नच 1.11 रिलीज प्राप्त कर सकता हूं। ऐसा लगता है कि यह तय है।

संबंधित मुद्दे