मेरे पास निम्न समस्या है। मैं कुछ जगह और एपीआई का उपयोग कर कनेक्ट कर रहा हूं और डेटा को इनपुटस्ट्रीम के रूप में प्राप्त कर रहा हूं। लक्ष्य डुप्लिकेट लाइनों को हटाने के बाद डेटा को सहेजना है। कॉलम 10, 15, 22 द्वारा परिभाषित डुप्लिकेशन।बड़े पैमाने पर जावा पर डुप्लिकेट को हटाने
मुझे कई धागे का उपयोग कर डेटा मिल रहा है। वर्तमान में मैं पहले डेटा को एक सीएसवी फ़ाइल में सहेजता हूं और फिर डुप्लिकेट हटा देता हूं। मैं डेटा पढ़ रहा हूं, जबकि मैं इसे करना चाहता हूं। डेटा की मात्रा लगभग 10 मिलियन रिकॉर्ड है। मेरे पास सीमित स्मृति है जिसका मैं उपयोग कर सकता हूं। मशीन में 32 जीबी मेमोरी है लेकिन मैं सीमित हूं क्योंकि इसका उपयोग करने वाले अन्य एप्लिकेशन हैं।
मैं हैश नक्शे का उपयोग के बारे में पढ़। लेकिन मुझे यकीन नहीं है कि इसका उपयोग करने के लिए मेरे पास पर्याप्त स्मृति है।
क्या किसी के पास इस समस्या को हल करने का सुझाव है?
क्या आपके पास अपने एपीआई द्वारा दिए गए आउटपुट का एक उदाहरण है? और तीन स्तंभों (10,15,22) के संयोजन द्वारा परिभाषित डुप्लिकेशन है या इनमें से प्रत्येक कॉलम को दूसरों के संदर्भ के बिना अद्वितीय होना चाहिए? –
एपीआई का आउटपुट एक स्ट्रिंग जैसा है: = "banna", = "नारंगी", = "सेब" ... आदि लगभग 30 तत्व। इन कॉलम का संयोजन कुंजी है। – mikeP