में डेटा की विशाल सूचियां रखने के लिए सबसे अच्छा अभ्यास मैं जावा में एक छोटी सी प्रणाली लिख रहा हूं जिसमें मैं पाठ फ़ाइलों से एन-ग्राम सुविधा निकालता हूं और बाद में सबसे अधिक भेदभाव सुविधाओं का चयन करने के लिए फ़ीचर चयन प्रक्रिया करने की आवश्यकता होती है।जावा
एक फ़ाइल के लिए फ़ीचर निष्कर्षण प्रक्रिया एक मानचित्र लौटाती है जिसमें प्रत्येक अद्वितीय सुविधा के लिए फ़ाइल में इसकी घटनाएं होती हैं। मैं सभी फाइलों के मानचित्र (मानचित्र) को एक मानचित्र में विलय करता हूं जिसमें सभी फ़ाइलों से निकाली गई सभी अनूठी विशेषताओं के दस्तावेज़ आवृत्ति (डीएफ) होते हैं। एकीकृत मानचित्र में 10,000,000 से अधिक प्रविष्टियां हो सकती हैं।
वर्तमान में फ़ीचर एक्सट्रैक्शन प्रक्रिया बहुत अच्छी तरह से काम कर रही है और मैं फ़ीचर चयन करना चाहता हूं जिसमें मुझे सूचना लाभ या लाभ अनुपात लागू करने की आवश्यकता है। मुझे पहले मानचित्र को सॉर्ट करना होगा, अंततः एक सूची (प्रत्येक फीचर के लिए, इसके फीचर चयन स्कोर)
मेरा प्रश्न है: सर्वोत्तम अभ्यास और सर्वोत्तम क्या है डेटा संरचना इस बड़ी मात्रा में डेटा (~ 10 एम) पकड़ने और गणना करने के लिए?
हैश मैप पर एक नज़र डालें। – Hungry