2013-02-12 14 views
8

मैं अपाचे नच 2.1 के साथ कुछ साइट क्रॉल करता हूं।अपाचे नच 2.1 अलग बैच आईडी (शून्य)

क्रॉल करते समय मुझे कई पेजों पर निम्न संदेश दिखाई देता है:
पूर्व। http://www.domainname.com/news/subcategory/111111/index.html छोड़ना; अलग बैच आईडी (शून्य)।

इस त्रुटि का कारण क्या है?
मैं इस समस्या को कैसे हल कर सकता हूं, क्योंकि अलग-अलग बैच आईडी (शून्य) वाले पृष्ठ डेटाबेस में संग्रहीत नहीं होते हैं।

जो साइट मैंने क्रॉल की है वह ड्रूपल पर आधारित है, लेकिन मैंने कई अन्य गैर ड्रोपल साइटों पर कोशिश की है।

+0

क्या आप इसे हल करने में सक्षम हैं? – darksky

+0

नहीं। मैंने कई हफ्तों की कोशिश की, लेकिन सफलता के बिना। उसके बाद मैंने नच का उपयोग करना बंद कर दिया। वैकल्पिक की तरह आप php क्रॉलर का उपयोग कर सकते हैं: [लिंक] (http://www.sphider.eu/download.php) [लिंक] (http://www.sphider-plus.eu/) –

+0

मुझे मिला एक कामकाज जो मेरी जरूरतों को फिट करता है। पायथन स्क्रैपी भी महान है: http://scrapy.org/ – darksky

उत्तर

1

मुझे लगता है, संदेश समस्या नहीं है। batch_id सभी यूआरएल को असाइन नहीं किया गया है। तो, यदि बैच_आईड शून्य है, तो यूआरएल छोड़ें। यूआरएल के लिए बैच_आईडी के लिए यूआरएल उत्पन्न करें।

संबंधित मुद्दे