मैं एक बहुत बड़े मैट्रिक्स पर कुछ के-साधन क्लस्टरिंग करने की कोशिश कर रहा हूं।के-मतलब आर में बहुत बड़ा, स्पैर मैट्रिक्स पर क्लस्टरिंग है?
मैट्रिक्स लगभग 500000 पंक्तियों x 4000 कोल्स अभी तक बहुत दुर्लभ है (प्रति पंक्ति केवल "1" मानों में से कुछ)।
पूरी बात स्मृति में फिट नहीं होती है, इसलिए मैंने इसे एक स्पैर एआरएफएफ फ़ाइल में परिवर्तित कर दिया। लेकिन आर स्पष्ट रूप से स्पैस एआरएफएफ फ़ाइल प्रारूप नहीं पढ़ सकता है। मेरे पास एक सादा सीएसवी फ़ाइल के रूप में डेटा भी है।
क्या ऐसे स्पैर मैट्रिक्स को कुशलतापूर्वक लोड करने के लिए आर में कोई पैकेज उपलब्ध है? मैं आगे बढ़ने के लिए क्लस्टर पैकेज से नियमित के-साधन एल्गोरिदम का उपयोग करूंगा।
बहुत धन्यवाद
उत्तर के लिए धन्यवाद! मुझे एक और सवाल मिला हालांकि :-) मैं लगभग 2000 की क्लस्टर संख्या के साथ बड़े पैमाने पर चलाने की कोशिश कर रहा हूं जैसे "क्लस्ट <- bigkmeans (mymatrix, center = 2000)" हालांकि, मुझे निम्न त्रुटि मिलती है: त्रुटि 1: (10 + 2^के): परिणाम बहुत लंबा होगा वेक्टर क्या कोई मुझे संकेत दे सकता है कि मैं यहां क्या गलत कर रहा हूं? धन्यवाद! – movingabout
मूल पर http://stackoverflow.com/questions/3177827/clustering-on-very-large-sparse-matrix –