जब मैं निम्न आदेश के साथ nutch 1.10
चलाने के लिए, यह सोचते हैं कि TestCrawl2
पहले से मौजूद नहीं था और, बनाने की आवश्यकता है ...Nutch 1.10 इनपुट पथ मौजूद नहीं है/linkdb/वर्तमान
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
मैं प्राप्त एक त्रुटि इंडेक्सिंग पर दावा करता है कि:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
लिंकडीबी निर्देशिका मौजूद है, लेकिन इसमें 'वर्तमान' निर्देशिका नहीं है। निर्देशिका रूट के स्वामित्व में है इसलिए कोई अनुमति समस्या नहीं होनी चाहिए। चूंकि प्रक्रिया किसी त्रुटि से निकलती है, इसलिए linkdb निर्देशिका में .locked
और .. locked.crc
फ़ाइलें शामिल हैं। यदि मैं फिर से आदेश चलाता हूं, तो इन लॉक फ़ाइलों को उसी स्थान पर बाहर निकलने का कारण बनता है। TestCrawl2
निर्देशिका हटाएं, कुल्ला, दोहराना।
ध्यान दें कि नच और सोलर इंस्टॉलेशन स्वयं TestCrawl
उदाहरण में समस्याओं के बिना पहले चला चुके हैं। अभी यह है कि मैं एक नया प्रयास कर रहा हूं जिसमें मुझे समस्याएं आ रही हैं। इस समस्या का निवारण करने पर कोई सुझाव?