मुझे इस समस्या का सामना करना पड़ रहा है जैसे post, लेकिन मेरे पास वहां कोई टिप्पणी जोड़ने के लिए पर्याप्त अंक नहीं हैं। मेरे डेटासेट में 1 मिलियन पंक्तियां, 100 कॉल हैं। मैं मलिब केमैन का भी उपयोग कर रहा हूं और यह बेहद धीमा है। नौकरी वास्तव में कभी खत्म नहीं होती है और मुझे इसे मारना है। मैं इसे Google क्लाउड (डेटाप्रोक) पर चला रहा हूं। अगर मैं क्लस्टर (के = 1000) की छोटी संख्या मांगता हूं तो यह चलता है, लेकिन फिर भी 35 मिनट से अधिक समय लेता है। मुझे इसे ~ 5000 के लिए चलाने की ज़रूरत है। मुझे नहीं पता कि यह इतना धीमा क्यों है। डेटा को ठीक से विभाजित किया जाता है क्योंकि श्रमिकों/नोड्स और एसवीडी की संख्या 1 मिलियन x ~ 300,000 कॉल मैट्रिक्स पर ~ 3 मिनट लगती है, लेकिन जब केएमन्स की बात आती है तो यह सिर्फ ब्लैक होल में जाता है। अब मैं कम संख्या में पुनरावृत्तियों (100 के बजाय 2) की कोशिश कर रहा हूं, लेकिन मुझे लगता है कि कहीं कुछ गलत है।स्पार्क मलिब केएमन्स एल्गोरिदम क्यों धीमा है?
KMeansModel Cs = KMeans.train(datamatrix, k, 100);//100 iteration, changed to 2 now. # of clusters k=1000 or 5000
# पुनरावृत्ति को 2 में बदलना कोई फर्क नहीं पड़ता। – Kai
काई, मेरे पास एक [समान समस्या] है (http://stackoverflow.com/questions/39260820/is-sparks-kmeans-unable-to-handle-bigdata)। हालांकि, मेरे मामले में नौकरी बस * लटकती है *, यह सिर्फ इतना धीमा नहीं है। क्या आप अपनी नौकरी चलाने के दौरान कोई प्रगति देखेंगे और यह धीमा होगा, या यह मेरे मामले में कुछ भी नहीं करेगा? – gsamaras