2009-07-23 13 views
7

मेरे पास एक डेटाबेस है, जिसमें रिकॉर्ड का पूरा समूह (लगभग 600,000) शामिल है, जहां कुछ रिकॉर्ड में कुछ फ़ील्ड गुम हैं। मेरा लक्ष्य मौजूदा डेटा के आधार पर गायब डेटा मानों (इसलिए मैं उन्हें भर सकता हूं) की भविष्यवाणी करने का एक तरीका ढूंढना है।किसी डेटाबेस में अनुपलब्ध डेटा मानों की भविष्यवाणी करना

एक विकल्प जो मैं देख रहा हूं वह क्लस्टरिंग है - यानी कुछ स्थानों में बिंदुओं के रूप में पूर्ण होने वाले रिकॉर्ड का प्रतिनिधित्व करना, अंक के क्लस्टर की तलाश करना, और फिर जब खोए गए डेटा मानों के साथ रिकॉर्ड दिया गया तो पता लगाने का प्रयास करें कि क्या हैं किसी भी क्लस्टर जो उसमें से संबंधित हो सकते हैं मौजूदा डेटा मानों के अनुरूप हैं। हालांकि यह संभव नहीं हो सकता है क्योंकि कुछ डेटा फ़ील्ड नाममात्र पैमाने पर हैं (उदा। रंग) और इस प्रकार क्रम में नहीं रखा जा सकता है।

मेरे पास एक और विचार है जो किसी प्रकार का संभाव्य मॉडल बनाने के लिए है जो आंकड़ों की भविष्यवाणी करेगा, मौजूदा डेटा पर प्रशिक्षित करेगा, और उसके बाद इसे निकालने के लिए उपयोग करेगा।

उपर्युक्त करने के लिए कौन से एल्गोरिदम उपलब्ध हैं, और क्या कोई स्वतंत्र रूप से उपलब्ध सॉफ़्टवेयर है जो उन एल्गोरिदम लागू करता है (यह सॉफ़्टवेयर रास्ते में सी # में होगा)।

+2

भारी समस्या। बहुत सी चीजों पर बहुत निर्भर है जो हम भविष्यवाणी नहीं कर सकते हैं। सरल उदाहरण: क्या कोई चयन पूर्वाग्रह है जिसमें रिकॉर्ड्स में फ़ील्ड गुम हैं? आपको कैसे मालूम? आप इसके बारे में क्या कर सकते हैं? क्या प्रॉक्सी संकेतक उपलब्ध हैं? और इतने पर ... – dmckee

+1

उपरोक्त टिप्पणी के साथ सहमत हैं। कुछ सामान्य एल्गोरिदम हो सकते हैं जो आप उपयोग कर सकते हैं, लेकिन आपको उनमें से प्रत्येक को अपने डोमेन में अनुकूलित करना होगा। – job

उत्तर

7

लापता मूल्यों के साथ काम एक व्यवस्थित सवाल का वास्तविक अर्थ के साथ क्या करना है कि डेटा।

कई तरीकों का उपयोग कर सकते (post on my blog विवरण):

  1. डेटा पंक्ति पर ध्यान न दें। यह आमतौर पर तब किया जाता है जब कक्षा लेबल गुम हो जाता है (माना जाता है कि आपको डेटा खनन लक्ष्य वर्गीकरण है), या पंक्ति से कई विशेषताएं गायब हैं (केवल एक नहीं)।हालांकि, यदि आप पंक्तियों का प्रतिशत उच्च है तो

  2. गुम मूल्यों को भरने के लिए वैश्विक स्थिरता का उपयोग करें। "अज्ञात", "एन/ए" या शून्य अनंतता की तरह। इसका उपयोग किया जाता है क्योंकि कभी-कभी गुम मूल्य की कोशिश करने और भविष्यवाणी करने के लिए समझ में नहीं आता है। उदाहरण के लिए यदि आप एक डीबी अगर कहते हैं,, कॉलेज उम्मीदवारों और निवास के राज्य के लिए कुछ याद आ रही है है, इसे न भरने ज्यादा मतलब नहीं है ...

  3. उपयोग मतलब जोड़कर देखते हैं। उदाहरण के लिए यदि अमेरिकी परिवार की औसत आय एक्स है तो आप उस मूल्य का उपयोग लापता आय मूल्यों को प्रतिस्थापित करने के लिए कर सकते हैं।

  4. उसी श्रेणी से संबंधित सभी नमूनों के लिए विशेषता का उपयोग करें। कहते हैं कि तुम एक कारों के मूल्य निर्धारण डीबी कि अन्य बातों के अलावा, कारों "विलासिता" और "कम बजट" करने के लिए और आप लागत क्षेत्र में लापता मूल्यों के साथ काम कर रहे वर्गीकृत किया है देता है। सभी लक्जरी कारों की औसत लागत के साथ एक लक्जरी कार की जगह याद आ रही लागत शायद ज्यादा सटीक तो मूल्य अगर आप

  5. उपयोग डाटा माइनिंग एल्गोरिथ्म कम बजट कारों में कारक मूल्य भविष्यवाणी करने के लिए मिल चाहते हैं। मूल्य Baysian रीतिवाद, निर्णय वृक्ष, क्लस्टरिंग के लिए कदम विधि # 4 (कश्मीर मीन \ माध्य आदि) इनपुट उत्पन्न करने के लिए मैं प्रतिगमन और निर्णय वृक्ष में पहले का सुझाव देते हैं होता इस्तेमाल किया एल्गोरिदम का उपयोग करते प्रतिगमन, अनुमान आधारित उपकरण का उपयोग कर निर्धारित किया जा सकता (आईडी 3 पेड़ पीढ़ी) क्योंकि वे अपेक्षाकृत आसान हैं और नेट पर बहुत सारे उदाहरण हैं।

संकुल के रूप में, आप इसे बर्दाश्त कर सकते हैं और आप SQL सर्वर विश्लेषण सेवा में माइक्रोसॉफ्ट दुनिया देखो (संक्षिप्त में SSAS) कि ऊपर उल्लेख किया है के सबसे को लागू कर रहे हैं अगर। http://www.cs.waikato.ac.nz/ml/weka/index.html

  • नारंगी - - http://www.ailab.si/orange
  • Tanagra -
  • हालांकि http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html नहीं सी # वह एक बहुत अच्छी पहचान है

    • WEKA:

      यहाँ मुक्त डेटा minning सॉफ्टवेयर संकुल के लिए कुछ लिंक कर रहे हैं http://www.igvita.com/2007/04/16/decision-tree-learning-in-ruby/: निर्णय के पेड़ और baysian सीखने (रूबी का उपयोग) करने के लिएhttp://www.igvita.com/2007/05/23/bayes-classification-in-ruby/

      वहाँ भी है इस रूबी पुस्तकालय है कि मैं (सीखने प्रयोजनों के लिए भी) बहुत उपयोगी पाते हैं: http://ai4r.rubyforge.org/machineLearning.html

      वहाँ किसी भी भाषा में इन एल्गोरिदम ऑनलाइन के लिए नमूने के बहुत होना चाहिए तो मैं वाकई हूँ आसानी से सी # सामान भी मिल ...

      संपादित:

      अपने मूल पोस्ट में इस भूल। यह एक निश्चित रूप से अगर आप डाटा खनन के साथ खेल रहे हैं चाहिए है है ... डाउनलोड Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office 2007 (यह एसक्यूएल सर्वर विश्लेषण सेवा की आवश्यकता है - SSAS - जो मुक्त नहीं है, लेकिन आप एक परीक्षण डाउनलोड कर सकते हैं)।

      यह आप आसानी से खेल सकते हैं और इससे पहले कि आप जा सकते हैं और इस सामग्री अपने आप को लागू Excel में विभिन्न तकनीकों की कोशिश करने की अनुमति देगा।फिर फिर से, चूंकि आप माइक्रोसॉफ्ट पारिस्थितिक तंत्र में हैं, इसलिए आप एसएसएएस आधारित समाधान के लिए जाने का निर्णय ले सकते हैं और एसक्यूएल सर्वर लोगों पर गिनती कर सकते हैं :)

    2

    लापता मूल्यों की भविष्यवाणी करना आम तौर पर डेटा सफाई चरण का हिस्सा माना जाता है जिसे डेटा खनन या विश्लेषण से पहले किया जाना चाहिए। असली दुनिया के आंकड़ों में यह काफी प्रमुख है।

    कृपया इस एल्गोरिथ्म http://arxiv.org/abs/math/0701152

    वर्तमान में Microsoft SQL सर्वर विश्लेषण सेवाएँ 2008 इन http://technet.microsoft.com/en-us/library/ms175312.aspx जो विशेषताओं के भविष्य कहनेवाला मॉडलिंग में मदद की तरह एल्गोरिदम के साथ आता है पर एक नजर है।

    चियर्स

    +0

    अच्छा। लेकिन पेपर यह अनुमान लगाता है कि कोई चयन पूर्वाग्रह नहीं है। या किसी को याद किया था? – dmckee

    6

    यह और एक दार्शनिक और methodological सवाल का एक एल्गोरिथम का कम अधिक है। इस तरह के प्रश्न से निपटने के लिए कुछ अलग तकनीकें उपलब्ध हैं। एकॉक (2005) कुछ तरीकों से एक अच्छा परिचय देता है। यद्यपि ऐसा लगता है कि इसमें बहुत सारे गणित/आंकड़े शामिल हैं (और बहुत सारे प्रयासों की तरह लग सकते हैं), यह सोचने योग्य है कि अगर आप गड़बड़ हो जाएंगे तो क्या होगा।

    एंड्रयू गेल्मैन के ब्लॉग भी एक अच्छा संसाधन है, हालांकि अपने ब्लॉग पर खोज की कार्यक्षमता वांछित होने के लिए कुछ ...

    आशा इस मदद करता है छोड़ देता है।


    सावधान (2005)

    http://oregonstate.edu/~acock/growth-curves/working%20with%20missing%20values.pdf

    एंड्रयू गेल्मैन के ब्लॉग

    http://www.stat.columbia.edu/~cook/movabletype/mlm/

    संबंधित मुद्दे