लिखना मैं साइट पर क्रॉल करने के लिए पाइथन में एक मकड़ी लिख रहा हूं। परेशानी है, मुझे 2.5 मिलियन पृष्ठों की जांच करने की ज़रूरत है, इसलिए मैं वास्तव में गति के लिए अनुकूलित करने में कुछ मदद कर सकता हूं।एक तेज़ पायथन स्पाइडर
मुझे क्या करना है एक निश्चित संख्या के लिए पृष्ठों की जांच करना है, और यदि यह पृष्ठ के लिंक को रिकॉर्ड करने के लिए मिलता है। मकड़ी बहुत सरल है, इसे बहुत सारे पृष्ठों के माध्यम से क्रमबद्ध करने की जरूरत है।
मैं पाइथन के लिए बिल्कुल नया हूं, लेकिन पहले जावा और सी ++ का उपयोग किया है। मैंने अभी तक इसे कोडिंग शुरू करना शुरू कर दिया है, इसलिए पुस्तकालयों या ढांचे पर शामिल करने के लिए कोई भी सिफारिशें बहुत अच्छी होंगी। किसी भी अनुकूलन युक्तियों की भी सराहना की जाती है।
प्रक्रिया को तेज करने के लिए आपकी सबसे अच्छी शर्त आपकी कनेक्शन की गति में सुधार करना है। यह आपकी बाधा होगी, पायथन गति नहीं। – tzot