किसी डेटाबेस में अनुपलब्ध डेटा मानों की भविष्यवाणी करना

मेरे पास एक डेटाबेस है, जिसमें रिकॉर्ड का पूरा समूह (लगभग 600,000) शामिल है, जहां कुछ रिकॉर्ड में कुछ फ़ील्ड गुम हैं। मेरा लक्ष्य मौजूदा डेटा के आधार पर गायब डेटा मानों (इसलिए मैं उन्हें भर सकता हूं) की भविष्यवाणी करने का एक तरीका ढूंढना है।किसी डेटाबेस में अनुपलब्ध डेटा मानों की भविष्यवाणी करना

एक विकल्प जो मैं देख रहा हूं वह क्लस्टरिंग है - यानी कुछ स्थानों में बिंदुओं के रूप में पूर्ण होने वाले रिकॉर्ड का प्रतिनिधित्व करना, अंक के क्लस्टर की तलाश करना, और फिर जब खोए गए डेटा मानों के साथ रिकॉर्ड दिया गया तो पता लगाने का प्रयास करें कि क्या हैं किसी भी क्लस्टर जो उसमें से संबंधित हो सकते हैं मौजूदा डेटा मानों के अनुरूप हैं। हालांकि यह संभव नहीं हो सकता है क्योंकि कुछ डेटा फ़ील्ड नाममात्र पैमाने पर हैं (उदा। रंग) और इस प्रकार क्रम में नहीं रखा जा सकता है।

मेरे पास एक और विचार है जो किसी प्रकार का संभाव्य मॉडल बनाने के लिए है जो आंकड़ों की भविष्यवाणी करेगा, मौजूदा डेटा पर प्रशिक्षित करेगा, और उसके बाद इसे निकालने के लिए उपयोग करेगा।

उपर्युक्त करने के लिए कौन से एल्गोरिदम उपलब्ध हैं, और क्या कोई स्वतंत्र रूप से उपलब्ध सॉफ़्टवेयर है जो उन एल्गोरिदम लागू करता है (यह सॉफ़्टवेयर रास्ते में सी # में होगा)।

स्रोत

2009-07-23 Alex319

भारी समस्या। बहुत सी चीजों पर बहुत निर्भर है जो हम भविष्यवाणी नहीं कर सकते हैं। सरल उदाहरण: क्या कोई चयन पूर्वाग्रह है जिसमें रिकॉर्ड्स में फ़ील्ड गुम हैं? आपको कैसे मालूम? आप इसके बारे में क्या कर सकते हैं? क्या प्रॉक्सी संकेतक उपलब्ध हैं? और इतने पर ... – dmckee

उपरोक्त टिप्पणी के साथ सहमत हैं। कुछ सामान्य एल्गोरिदम हो सकते हैं जो आप उपयोग कर सकते हैं, लेकिन आपको उनमें से प्रत्येक को अपने डोमेन में अनुकूलित करना होगा। – job

लापता मूल्यों के साथ काम एक व्यवस्थित सवाल का वास्तविक अर्थ के साथ क्या करना है कि डेटा।

कई तरीकों का उपयोग कर सकते (post on my blog विवरण):

डेटा पंक्ति पर ध्यान न दें। यह आमतौर पर तब किया जाता है जब कक्षा लेबल गुम हो जाता है (माना जाता है कि आपको डेटा खनन लक्ष्य वर्गीकरण है), या पंक्ति से कई विशेषताएं गायब हैं (केवल एक नहीं)।हालांकि, यदि आप पंक्तियों का प्रतिशत उच्च है तो
गुम मूल्यों को भरने के लिए वैश्विक स्थिरता का उपयोग करें। "अज्ञात", "एन/ए" या शून्य अनंतता की तरह। इसका उपयोग किया जाता है क्योंकि कभी-कभी गुम मूल्य की कोशिश करने और भविष्यवाणी करने के लिए समझ में नहीं आता है। उदाहरण के लिए यदि आप एक डीबी अगर कहते हैं,, कॉलेज उम्मीदवारों और निवास के राज्य के लिए कुछ याद आ रही है है, इसे न भरने ज्यादा मतलब नहीं है ...
उपयोग मतलब जोड़कर देखते हैं। उदाहरण के लिए यदि अमेरिकी परिवार की औसत आय एक्स है तो आप उस मूल्य का उपयोग लापता आय मूल्यों को प्रतिस्थापित करने के लिए कर सकते हैं।
उसी श्रेणी से संबंधित सभी नमूनों के लिए विशेषता का उपयोग करें। कहते हैं कि तुम एक कारों के मूल्य निर्धारण डीबी कि अन्य बातों के अलावा, कारों "विलासिता" और "कम बजट" करने के लिए और आप लागत क्षेत्र में लापता मूल्यों के साथ काम कर रहे वर्गीकृत किया है देता है। सभी लक्जरी कारों की औसत लागत के साथ एक लक्जरी कार की जगह याद आ रही लागत शायद ज्यादा सटीक तो मूल्य अगर आप
उपयोग डाटा माइनिंग एल्गोरिथ्म कम बजट कारों में कारक मूल्य भविष्यवाणी करने के लिए मिल चाहते हैं। मूल्य Baysian रीतिवाद, निर्णय वृक्ष, क्लस्टरिंग के लिए कदम विधि # 4 (कश्मीर मीन \ माध्य आदि) इनपुट उत्पन्न करने के लिए मैं प्रतिगमन और निर्णय वृक्ष में पहले का सुझाव देते हैं होता इस्तेमाल किया एल्गोरिदम का उपयोग करते प्रतिगमन, अनुमान आधारित उपकरण का उपयोग कर निर्धारित किया जा सकता (आईडी 3 पेड़ पीढ़ी) क्योंकि वे अपेक्षाकृत आसान हैं और नेट पर बहुत सारे उदाहरण हैं।

संकुल के रूप में, आप इसे बर्दाश्त कर सकते हैं और आप SQL सर्वर विश्लेषण सेवा में माइक्रोसॉफ्ट दुनिया देखो (संक्षिप्त में SSAS) कि ऊपर उल्लेख किया है के सबसे को लागू कर रहे हैं अगर। http://www.cs.waikato.ac.nz/ml/weka/index.html

नारंगी - - http://www.ailab.si/orange

Tanagra -

हालांकि http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html नहीं सी # वह एक बहुत अच्छी पहचान है

WEKA:

यहाँ मुक्त डेटा minning सॉफ्टवेयर संकुल के लिए कुछ लिंक कर रहे हैं http://www.igvita.com/2007/04/16/decision-tree-learning-in-ruby/: निर्णय के पेड़ और baysian सीखने (रूबी का उपयोग) करने के लिएhttp://www.igvita.com/2007/05/23/bayes-classification-in-ruby/

वहाँ भी है इस रूबी पुस्तकालय है कि मैं (सीखने प्रयोजनों के लिए भी) बहुत उपयोगी पाते हैं: http://ai4r.rubyforge.org/machineLearning.html

वहाँ किसी भी भाषा में इन एल्गोरिदम ऑनलाइन के लिए नमूने के बहुत होना चाहिए तो मैं वाकई हूँ आसानी से सी # सामान भी मिल ...

संपादित:

अपने मूल पोस्ट में इस भूल। यह एक निश्चित रूप से अगर आप डाटा खनन के साथ खेल रहे हैं चाहिए है है ... डाउनलोड Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office 2007 (यह एसक्यूएल सर्वर विश्लेषण सेवा की आवश्यकता है - SSAS - जो मुक्त नहीं है, लेकिन आप एक परीक्षण डाउनलोड कर सकते हैं)।

यह आप आसानी से खेल सकते हैं और इससे पहले कि आप जा सकते हैं और इस सामग्री अपने आप को लागू Excel में विभिन्न तकनीकों की कोशिश करने की अनुमति देगा।फिर फिर से, चूंकि आप माइक्रोसॉफ्ट पारिस्थितिक तंत्र में हैं, इसलिए आप एसएसएएस आधारित समाधान के लिए जाने का निर्णय ले सकते हैं और एसक्यूएल सर्वर लोगों पर गिनती कर सकते हैं :)

स्रोत

2009-07-26 22:21:18

लापता मूल्यों की भविष्यवाणी करना आम तौर पर डेटा सफाई चरण का हिस्सा माना जाता है जिसे डेटा खनन या विश्लेषण से पहले किया जाना चाहिए। असली दुनिया के आंकड़ों में यह काफी प्रमुख है।

कृपया इस एल्गोरिथ्म http://arxiv.org/abs/math/0701152

वर्तमान में Microsoft SQL सर्वर विश्लेषण सेवाएँ 2008 इन http://technet.microsoft.com/en-us/library/ms175312.aspx जो विशेषताओं के भविष्य कहनेवाला मॉडलिंग में मदद की तरह एल्गोरिदम के साथ आता है पर एक नजर है।

चियर्स

स्रोत

2009-07-23 17:45:11 Arnkrishn

अच्छा। लेकिन पेपर यह अनुमान लगाता है कि कोई चयन पूर्वाग्रह नहीं है। या किसी को याद किया था? – dmckee

यह और एक दार्शनिक और methodological सवाल का एक एल्गोरिथम का कम अधिक है। इस तरह के प्रश्न से निपटने के लिए कुछ अलग तकनीकें उपलब्ध हैं। एकॉक (2005) कुछ तरीकों से एक अच्छा परिचय देता है। यद्यपि ऐसा लगता है कि इसमें बहुत सारे गणित/आंकड़े शामिल हैं (और बहुत सारे प्रयासों की तरह लग सकते हैं), यह सोचने योग्य है कि अगर आप गड़बड़ हो जाएंगे तो क्या होगा।

एंड्रयू गेल्मैन के ब्लॉग भी एक अच्छा संसाधन है, हालांकि अपने ब्लॉग पर खोज की कार्यक्षमता वांछित होने के लिए कुछ ...

आशा इस मदद करता है छोड़ देता है।

सावधान (2005)

http://oregonstate.edu/~acock/growth-curves/working%20with%20missing%20values.pdf

एंड्रयू गेल्मैन के ब्लॉग

http://www.stat.columbia.edu/~cook/movabletype/mlm/

स्रोत

2009-07-24 09:47:49

किसी डेटाबेस में अनुपलब्ध डेटा मानों की भविष्यवाणी करना

उत्तर

संबंधित मुद्दे