यह उस स्पाइडरिंग के पैमाने पर निर्भर करता है जिसे आप करने जा रहे हैं, और जिस तरह की मशीन आप इसे कर रहे हैं। मान लीजिए कि एक सामान्य यूआरएल 60 बाइट्स की स्ट्रिंग है या तो, इन-मेमोरी सेट प्रति यूआरएल 100 बिट्स से थोड़ा अधिक ले जाएगा (पाइथन में सेट और डिक्ट्स को 60% पूर्ण होने की अनुमति नहीं है, गति कारणों से)। यदि आपके पास 64-बिट मशीन (और पायथन डिस्ट्रो) है, तो लगभग 16 जीबी रैम उपलब्ध है, तो आप निश्चित रूप से प्रश्न में महत्वपूर्ण सेट पर 10 जीबी से अधिक समर्पित कर सकते हैं, जिससे आप आसानी से 100 मिलियन यूआरएल या मकड़ी कर सकते हैं; लेकिन दूसरी चरम पर, यदि आपके पास 3 जीबी रैम वाली 32-बिट मशीन है, तो आप स्पष्ट रूप से एक महत्वपूर्ण जीबी से अधिक जीबी नहीं दे सकते हैं, जिससे आप लगभग 10 मिलियन यूआरएल तक सीमित हो सकते हैं। स्क्लाइट आकार की एक ही श्रृंखला के आसपास मदद करेगा जहां 32-बिट मशीन इसे नहीं बना सका लेकिन उदारता से संपन्न 64-बिट एक - 100 या 200 मिलियन यूआरएल कह सकता है।
उनसे परे, मैं पोस्टग्रेएसक्यूएल की सिफारिश करता हूं, जिसमें मूल रूप से कोई समस्या नहीं होने के कारण एक अलग मशीन (फास्ट लैन पर) चलाने में सक्षम होने का लाभ होता है, जिससे आप अपनी मुख्य मशीन को स्पाइडरिंग में समर्पित कर सकते हैं। मुझे लगता है कि MySQL & सी इसके लिए भी ठीक होगा, लेकिन मुझे PostgreSQL मानक अनुपालन और मजबूती से प्यार है ;-)। यह कुछ अरब समस्याओं के बिना कुछ अरब यूआरएल (बस एक तेज डिस्क, या एक बेहतर RAID व्यवस्था, और जितनी रैम आप कर सकते हैं उतनी रैम के रूप में, आप निश्चित रूप से चीजों को गति देने के लिए बर्दाश्त कर सकते हैं) की अनुमति देंगे।
URL हैं, जो काफी लंबा हो सकता है के एवज में एक निश्चित लंबाई हैश का उपयोग करके स्मृति/भंडारण को बचाने के लिए कोशिश कर रहा है ठीक है अगर आप एक सामयिक झूठी सकारात्मक है कि आप रेंगने क्या वास्तव में एक नया क्या है से बंद हो जाएगा के साथ ठीक कर रहे हैं यूआरएल। इस तरह के "टकराव" की संभावना बिल्कुल नहीं होनी चाहिए: भले ही आप केवल हैश के लिए 8 बाइट्स का उपयोग करते हैं, भले ही आप अरबों यूआरएल ("स्क्वायर रूट हेरिस्टिक" के लिए देख रहे हों तो आपको केवल कुछ टकराव का खतरा होना चाहिए जाने-माने समस्या)।
8-बाइट तार के साथ यूआरएल प्रतिनिधित्व करने के लिए, इन-स्मृति सेट वास्तुकला आसानी से एक अरब यूआरएल या अधिक एक अच्छी तरह से संपन्न मशीन पर ऊपर के रूप में उल्लिखित समर्थन करना चाहिए।
स्रोत
2010-04-11 02:34:59
यह एक बहुत भारी कर्तव्य समस्या है, यह निर्भर करता है कि आप अपने समाधान को कितना भारी कर्तव्य चाहते हैं :) आप जिस बड़ी समस्या में भाग लेंगे वह ऐसी साइटें हैं जो कुकीज़ और यादृच्छिक संख्या को उनके यूआरएल में डालती हैं, जिससे अनंत क्रॉल स्पेस मिलता है कुछ बिंदु पर पकड़ा गया, आपको सामग्री के आधार पर डुप्लीकेट हटाने की आवश्यकता होगी। – Stephen