मेरे पास स्ट्रिंग्स का एक बड़ा सेट है जिसका उपयोग मैं प्राकृतिक भाषा प्रसंस्करण अनुसंधान के लिए कर रहा हूं, और मुझे इसे पायथन में स्टोर करने का एक अच्छा तरीका चाहिए।पायथन में बड़ी (~ 10 जीबी) सूचियों को स्टोर और एक्सेस करने के तरीके?
मैं अचार इस्तेमाल कर सकते हैं, लेकिन स्मृति में पूरे सूची लोड तो, एक असंभव (मेरा मानना है कि) होगा के रूप में इसके बारे में 10 जीबी बड़ी है, और मैं इतना मुख्य स्मृति नहीं है। वर्तमान में मेरे पास शेल्व लाइब्रेरी के साथ संग्रहित सूची है ... शेल्फ को तारों, "0", "1", ..., "n" द्वारा अनुक्रमित किया गया है जो थोड़ा सा गुंजाइश है।
क्या ऐसी ऑब्जेक्ट को एक फ़ाइल में स्टोर करने के अच्छे तरीके हैं, और अभी भी इसमें यादृच्छिक (आईएसएच) पहुंच है?
यह हो सकता है कि इसे सबसे अच्छा विकल्प कई सूचियों में विभाजित करना है।
धन्यवाद!
मुझे लगता है कि एक डेटाबेस वास्तव में इस तरह के कार्य के लिए अधिक उपयुक्त है। मुझे लगता है कि मैं इसे एक शॉट दूंगा: डी –
बस SQLite3 पर पोर्ट किया गया। प्रसंस्करण बहुत तेज़ है, और डिस्क स्पेस का एक तिहाई हिस्सा लेता है जो एक शेल्फ उठाता है! –
हा! तेज़ _and_ छोटा। मुझे SQLite3 पसंद है। : डी – sarnold