मुझे python mining
में रुचि है डेटा रैम में बैठने के लिए बहुत बड़ा सेट है लेकिन एक ही एचडी में बैठा है।आउट-ऑफ-कोर गणना/डेटा खनन के लिए पायथन टूल
मैं समझता हूं कि मैं pytables
का उपयोग कर डेटा को hdf5
फ़ाइलों के रूप में निर्यात कर सकता हूं। इसके अलावा numexpr
कुछ मूलभूत आउट-ऑफ-कोर गणना के लिए अनुमति देता है।
अगला क्या होगा? जब संभव हो मिनी-बैचिंग, और रैखिक बीजगणित परिणामों पर भरोसा करने के लिए गणना को विघटित करने के लिए जब मिनी-बैचिंग का उपयोग नहीं किया जा सकता है?
या क्या कुछ उच्च स्तर के उपकरण हैं जिन्हें मैंने याद किया है?
अंतर्दृष्टि के लिए धन्यवाद,
उत्तर डेनिस के लिए धन्यवाद। ऐसा लगता है कि skilearn में मिनी बैचिंग सुविधाएं हैं। दरअसल मैं एक उप मानचित्र-आकार को कम करने के बाहर की कोर सीखने से निपटने के लिए सबसे तर्कसंगत तरीका ढूंढ रहा हूं। विशेष रूप से मैं hdf5, sql, nosql की सापेक्ष ताकत को समझने का प्रयास कर रहा हूं। – user17375
ज़ेलाज़नी 7 का बड़ा डेटा-वर्क-फ्लो प्रश्न बेहतर है क्योंकि कंक्रीट, और बेहतर जवाब मिलते हैं – denis