मैं अपाचे नच 2.1 के साथ कुछ साइट क्रॉल करता हूं।अपाचे नच 2.1 अलग बैच आईडी (शून्य)
क्रॉल करते समय मुझे कई पेजों पर निम्न संदेश दिखाई देता है:
पूर्व। http://www.domainname.com/news/subcategory/111111/index.html छोड़ना; अलग बैच आईडी (शून्य)।
इस त्रुटि का कारण क्या है?
मैं इस समस्या को कैसे हल कर सकता हूं, क्योंकि अलग-अलग बैच आईडी (शून्य) वाले पृष्ठ डेटाबेस में संग्रहीत नहीं होते हैं।
जो साइट मैंने क्रॉल की है वह ड्रूपल पर आधारित है, लेकिन मैंने कई अन्य गैर ड्रोपल साइटों पर कोशिश की है।
क्या आप इसे हल करने में सक्षम हैं? – darksky
नहीं। मैंने कई हफ्तों की कोशिश की, लेकिन सफलता के बिना। उसके बाद मैंने नच का उपयोग करना बंद कर दिया। वैकल्पिक की तरह आप php क्रॉलर का उपयोग कर सकते हैं: [लिंक] (http://www.sphider.eu/download.php) [लिंक] (http://www.sphider-plus.eu/) –
मुझे मिला एक कामकाज जो मेरी जरूरतों को फिट करता है। पायथन स्क्रैपी भी महान है: http://scrapy.org/ – darksky