2013-11-28 10 views
5

इस उद्देश्य के लिए मैंने अब तक उस थ्रेड link से समाधान का उपयोग किया है, हालांकि यह मेरी मैट्रिक्स के बाद से स्मृति त्रुटि को 6 मिलियन से 40000 मैट्रिक्स के बाद अपेक्षित है। इसलिए मैं सहसंबंध मैट्रिक्स का अनुमान लगाने के लिए फिर भी किसी अन्य समाधान की तलाश में हूं। मैं उस समस्या को कैसे टीका कर सकता हूं? किसी भी मदद की सराहना की है।बड़े स्पैस scipy matrices में सहसंबंध मैट्रिक्स का अनुमान लगाने के लिए कैसे?

+0

सबसे पहले, आपको निम्न प्रश्न का उत्तर देने की आवश्यकता है: आपके मैट्रिक्स में आपके पास कितने nonzero तत्व हैं। इस नंबर को 'nnz' पर कॉल करें। उन्हें स्टोर करने के लिए आवश्यक स्मृति '16e-9 * nnz' गीगाबाइट्स है। आपको कितने गीगाबाइट की आवश्यकता होगी? –

उत्तर

1

आपकी समस्या यह है कि आप परिणाम को स्मृति में नहीं रख सकते (6e6^2 मान?)।

आप मूल मैट्रिक्स से पंक्तियां छोड़ सकते हैं। यदि, उदाहरण के लिए, आप अत्यधिक सहसंबंधित पंक्तियों की खोज कर रहे हैं, तो आप समस्या को तोड़ने के लिए पंक्तियों को क्लस्टर करना चाहेंगे।

आप कॉलम की संख्या को कम करने के लिए scipy.sparse.linalg.svds का भी उपयोग कर सकते हैं। लेकिन आपको अभी भी पंक्तियों^2 सहसंबंधों को संभालना होगा।

संबंधित मुद्दे