मेरे पास एक डेटाबेस है, जिसमें रिकॉर्ड का पूरा समूह (लगभग 600,000) शामिल है, जहां कुछ रिकॉर्ड में कुछ फ़ील्ड गुम हैं। मेरा लक्ष्य मौजूदा डेटा के आधार पर गायब डेटा मानों (इसलिए मैं उन्हें भर सकता हूं) की भविष्यवाणी करने का एक तरीका ढूंढना है।किसी डेटाबेस में अनुपलब्ध डेटा मानों की भविष्यवाणी करना
एक विकल्प जो मैं देख रहा हूं वह क्लस्टरिंग है - यानी कुछ स्थानों में बिंदुओं के रूप में पूर्ण होने वाले रिकॉर्ड का प्रतिनिधित्व करना, अंक के क्लस्टर की तलाश करना, और फिर जब खोए गए डेटा मानों के साथ रिकॉर्ड दिया गया तो पता लगाने का प्रयास करें कि क्या हैं किसी भी क्लस्टर जो उसमें से संबंधित हो सकते हैं मौजूदा डेटा मानों के अनुरूप हैं। हालांकि यह संभव नहीं हो सकता है क्योंकि कुछ डेटा फ़ील्ड नाममात्र पैमाने पर हैं (उदा। रंग) और इस प्रकार क्रम में नहीं रखा जा सकता है।
मेरे पास एक और विचार है जो किसी प्रकार का संभाव्य मॉडल बनाने के लिए है जो आंकड़ों की भविष्यवाणी करेगा, मौजूदा डेटा पर प्रशिक्षित करेगा, और उसके बाद इसे निकालने के लिए उपयोग करेगा।
उपर्युक्त करने के लिए कौन से एल्गोरिदम उपलब्ध हैं, और क्या कोई स्वतंत्र रूप से उपलब्ध सॉफ़्टवेयर है जो उन एल्गोरिदम लागू करता है (यह सॉफ़्टवेयर रास्ते में सी # में होगा)।
भारी समस्या। बहुत सी चीजों पर बहुत निर्भर है जो हम भविष्यवाणी नहीं कर सकते हैं। सरल उदाहरण: क्या कोई चयन पूर्वाग्रह है जिसमें रिकॉर्ड्स में फ़ील्ड गुम हैं? आपको कैसे मालूम? आप इसके बारे में क्या कर सकते हैं? क्या प्रॉक्सी संकेतक उपलब्ध हैं? और इतने पर ... – dmckee
उपरोक्त टिप्पणी के साथ सहमत हैं। कुछ सामान्य एल्गोरिदम हो सकते हैं जो आप उपयोग कर सकते हैं, लेकिन आपको उनमें से प्रत्येक को अपने डोमेन में अनुकूलित करना होगा। – job