2010-01-15 15 views
9

मैंने 200 डेटा पंक्तियों का सेट किया है (डेटा का एक छोटा सा सेट इंगित करता है)। मैं कुछ सांख्यिकीय विश्लेषण करना चाहता हूं, लेकिन इससे पहले मैं बहिष्कार को बाहर करना चाहता हूं।डेटा के सेट से आउटलेटर्स को बाहर करने के लिए कुशल और सटीक एल्गोरिदम क्या हैं?

उद्देश्य के लिए संभावित अलगाव क्या हैं? शुद्धता चिंता का विषय है।

मैं आंकड़ों के लिए बहुत नया हूं, इसलिए बहुत ही बुनियादी अल्गोस में मदद की ज़रूरत है।

+1

का उपयोग कर कैसे जा सकते हैं; इसमें सटीकता कहां आती है? –

+0

का अर्थ है आउटलेटर्स की पहचान सटीक होना चाहिए –

उत्तर

5

आउटलाइर्स के leverage की साजिश करके प्रारंभ करें और फिर कुछ अच्छे ओल 'इंटरोकुलर आघात (स्कैटरप्लॉट पर उर्फ ​​देखें) के लिए जाएं।

बहुत से सांख्यिकीय पैकेजों में बाहरी/अवशिष्ट निदान है, लेकिन मैं कुक डी को पसंद करता हूं। यदि आप this formula from mtsu.edu (मूल लिंक मर चुका है, तो यह archive.org से प्राप्त किया गया है) आप इसे हाथ से गणना कर सकते हैं।

1

सेट पर मानक विचलन की गणना करें, और पहले, दूसरे या तीसरे मानक विचलन के बाहर सब कुछ छोड़ दें।

+1

ध्यान रखें कि (सामान्य रूप से वितरित डेटा के लिए) डेटा का ~ 1/3 एक सिग्मा के बाहर स्थित है, और दो सिग्मा के बाहर ~ 1/10 है। सीमाओं को बहुत कसकर सेट करना आपके आंकड़ों को नुकसान पहुंचाएगा और व्यवस्थित प्रभावों को मुखौटा कर सकता है। – dmckee

+2

-1 क्योंकि मानक विचलन और माध्य बहिर्वाह की उपस्थिति से विकृत हो जाएगा। – Kena

+1

@ केना। बीएफडी, पोस्टर ने बहिष्कार को बाहर करने का अनुरोध किया, और निश्चित रूप से मानक विचलन बहिष्कार को बाहर करने का कारण बन जाएगा। आपको बहिष्कार को बहिष्कृत नहीं करना चाहिए, या मानक विचलन प्रारंभ में परिणामस्वरूप एक अजीब या कम आदर्श वितरण से कम होगा, जो काफी हद तक अप्रासंगिक है। – Bear

2

आपने अभिव्यक्ति 'छः सिग्मा' सुना होगा।

यह अर्थ के आस-पास प्लस और माइनस 3 सिग्मा (यानी मानक विचलन) को संदर्भित करता है।

'छह सिग्मा' रेंज के बाहर कुछ भी को एक बाहरी के रूप में माना जा सकता है।

प्रतिबिंब पर, मुझे लगता है कि 'छह सिग्मा' बहुत व्यापक है।

This article वर्णन करता है कि यह "3.4 लाख दोषपूर्ण भागों प्रति मिलियन अवसरों" के बारे में बताता है।

यह प्रमाणीकरण उद्देश्यों के लिए एक बहुत कठोर आवश्यकता की तरह लगता है। केवल आप तय कर सकते हैं कि यह आपके लिए उपयुक्त है या नहीं।

+0

यह उन बुलाए गए बॉक्स प्लॉट और अन्य तकनीक –

+0

* "3.4 लाख दोषपूर्ण भागों प्रति मिलियन अवसरों" से अधिक कुशल होगा। * उस मामले में, लेख का मानना ​​है कि +/- 6 सिग्मा, +/- 3 सिग्मा नहीं है। – dmckee

+0

हाँ, आप सही हैं, dmckee। मैं वापस गया और देखा। और 99.9 99 66% उपज 3.4 पीपीएम से मेल खाती है। कम से कम लेख एक उपयोगी संदर्भ होना चाहिए। – pavium

19

कुल मिलाकर, इस बात की तरह एक सवाल यह है कि एक बाहरी की कोई कठोर परिभाषा नहीं है। ,

  1. कुछ बाहरी कारकों के मानक विचलन के अपने अनुमान पर एक विशाल प्रभाव हो सकता है के रूप में मानक विचलन एक मजबूत नहीं है: मैं वास्तव में निम्नलिखित कारणों के लिए कटऑफ के रूप में मानक विचलन की एक निश्चित संख्या का उपयोग कर के खिलाफ की सिफारिश करेंगे आंकड़ा।
  2. मानक विचलन की व्याख्या आपके डेटा के वितरण पर काफी निर्भर करती है। यदि आपका डेटा सामान्य रूप से वितरित किया जाता है तो 3 मानक विचलन बहुत अधिक होते हैं, लेकिन यदि यह है, उदाहरण के लिए, लॉग-सामान्य रूप से वितरित, तो 3 मानक विचलन बहुत नहीं है।

    1. सभी डेटा रखें, और सिर्फ मजबूत आंकड़े (मतलब के बजाय मंझला, बजाय टी परीक्षण के Wilcoxon परीक्षण, आदि) का उपयोग करें:

    वहाँ आगे बढ़ने के लिए कुछ अच्छे तरीके हैं। शायद आपका डेटासेट बड़ा होने पर शायद अच्छा है।

  3. अपने डेटा को ट्रिम या विनोराइज़ करें। ट्रिमिंग का मतलब है ऊपर और नीचे x% को हटा देना। Winsorizing मतलब क्रमशः xth और 1-xth प्रतिशत मूल्य के लिए शीर्ष और नीचे x% सेट करना है।

  4. यदि आपके पास एक छोटा डेटासेट है, तो आप केवल अपना डेटा प्लॉट कर सकते हैं और इसे अयोग्य मूल्यों के लिए मैन्युअल रूप से जांच सकते हैं।

  5. अपने डेटा यथोचित करीब लग रहा है सामान्य रूप से (कोई भारी पूंछ और मोटे तौर पर सममित) वितरित करने के लिए है, तो मंझला से दूर 3 या 4 मंझला निरपेक्ष विचलन के लिए अपने परीक्षण आंकड़ा और फिल्टर के रूप में मानक विचलन के बजाय median absolute deviation का उपयोग करें।

+3

+1 यह नोट करने के लिए कि आउटलाइजर्स आपके मानक विचलन को खराब कर देगा। – Kena

2

आपके डेटा और इसके अर्थ के आधार पर, आप RANSAC (यादृच्छिक नमूना सर्वसम्मति) में देखना चाहेंगे। यह कंप्यूटर दृष्टि में व्यापक रूप से उपयोग किया जाता है, और आम तौर पर मॉडल के बहुत सारे आउटलेटर्स के साथ डेटा फिट करने का प्रयास करते समय उत्कृष्ट परिणाम देता है।

और संकल्पना और व्याख्या करना बहुत आसान है। दूसरी ओर, यह गैर निर्धारक नहीं है, जो आवेदन के आधार पर समस्याएं पैदा कर सकता है।

0

यहाँ कैसे मैं एसक्यूएल सर्वर में इसके बारे में जाना होगा है

क्वेरी के नीचे पकड़े एक काल्पनिक स्केल मेज से औसत वजन मिलेगा एक भी वजन में प्रत्येक व्यक्ति के लिए है, जबकि की अनुमति नहीं जो लोग बहुत ज्यादा मोटे हैं या

select w.Gender, Avg(w.Weight) as AvgWeight 
    from ScaleData w 
    join (select d.Gender, Avg(d.Weight) as AvgWeight, 
        2*STDDEVP(d.Weight) StdDeviation 
      from ScaleData d 
      group by d.Gender 
     ) d 
     on w.Gender = d.Gender 
    and w.Weight between d.AvgWeight-d.StdDeviation 
         and d.AvgWeight+d.StdDeviation 
    group by w.Gender 

इस बारे में जाने के लिए एक बेहतर तरीका हो सकता है, लेकिन यह काम करता है और अच्छी तरह से काम करता है: और अधिक यथार्थवादी औसत फेंक करने के लिए पतली। यदि आप एक और अधिक कुशल समाधान में आ गए हैं, तो मुझे इसके बारे में सुनना अच्छा लगेगा।

नोट: उपर्युक्त औसत के उद्देश्य से चित्र के बाहर 5% आउटलेटर्स को ऊपर और नीचे हटा देता है। आप 2 * एसटीडीडीवीपी में 2 * को समायोजित करके हटाए गए आउटलाइर्स की संख्या को समायोजित कर सकते हैं: http://en.wikipedia.org/wiki/Standard_deviation

0

यदि आप इसका विश्लेषण करना चाहते हैं, तो आप कहें कि आप किसी अन्य चर के साथ सहसंबंध की गणना करना चाहते हैं, यह आउटलेटर्स को बाहर करने के लिए ठीक है । लेकिन यदि आप मॉडल/भविष्यवाणी करना चाहते हैं, तो उन्हें हमेशा बाहर निकालना हमेशा सर्वोत्तम नहीं होता है।

इसे कैपिंग जैसी विधियों के साथ इलाज करने का प्रयास करें या यदि आपको संदेह है कि आउटलाइर्स में जानकारी/पैटर्न है, तो इसे गायब के साथ बदलें, और मॉडल/भविष्यवाणी करें। मैंने कुछ उदाहरण लिखे हैं कि आप इस here के बारे में आर

संबंधित मुद्दे