डेटा के सेट से आउटलेटर्स को बाहर करने के लिए कुशल और सटीक एल्गोरिदम क्या हैं?

मैंने 200 डेटा पंक्तियों का सेट किया है (डेटा का एक छोटा सा सेट इंगित करता है)। मैं कुछ सांख्यिकीय विश्लेषण करना चाहता हूं, लेकिन इससे पहले मैं बहिष्कार को बाहर करना चाहता हूं।डेटा के सेट से आउटलेटर्स को बाहर करने के लिए कुशल और सटीक एल्गोरिदम क्या हैं?

उद्देश्य के लिए संभावित अलगाव क्या हैं? शुद्धता चिंता का विषय है।

मैं आंकड़ों के लिए बहुत नया हूं, इसलिए बहुत ही बुनियादी अल्गोस में मदद की ज़रूरत है।

स्रोत

2010-01-15 Ashish Agarwal

का उपयोग कर कैसे जा सकते हैं; इसमें सटीकता कहां आती है? –

का अर्थ है आउटलेटर्स की पहचान सटीक होना चाहिए –

आउटलाइर्स के leverage की साजिश करके प्रारंभ करें और फिर कुछ अच्छे ओल 'इंटरोकुलर आघात (स्कैटरप्लॉट पर उर्फ देखें) के लिए जाएं।

बहुत से सांख्यिकीय पैकेजों में बाहरी/अवशिष्ट निदान है, लेकिन मैं कुक डी को पसंद करता हूं। यदि आप this formula from mtsu.edu (मूल लिंक मर चुका है, तो यह archive.org से प्राप्त किया गया है) आप इसे हाथ से गणना कर सकते हैं।

स्रोत

2010-01-19 00:26:24

सेट पर मानक विचलन की गणना करें, और पहले, दूसरे या तीसरे मानक विचलन के बाहर सब कुछ छोड़ दें।

स्रोत

2010-01-15 06:12:59 Bear

ध्यान रखें कि (सामान्य रूप से वितरित डेटा के लिए) डेटा का ~ 1/3 एक सिग्मा के बाहर स्थित है, और दो सिग्मा के बाहर ~ 1/10 है। सीमाओं को बहुत कसकर सेट करना आपके आंकड़ों को नुकसान पहुंचाएगा और व्यवस्थित प्रभावों को मुखौटा कर सकता है। – dmckee

-1 क्योंकि मानक विचलन और माध्य बहिर्वाह की उपस्थिति से विकृत हो जाएगा। – Kena

@ केना। बीएफडी, पोस्टर ने बहिष्कार को बाहर करने का अनुरोध किया, और निश्चित रूप से मानक विचलन बहिष्कार को बाहर करने का कारण बन जाएगा। आपको बहिष्कार को बहिष्कृत नहीं करना चाहिए, या मानक विचलन प्रारंभ में परिणामस्वरूप एक अजीब या कम आदर्श वितरण से कम होगा, जो काफी हद तक अप्रासंगिक है। – Bear

आपने अभिव्यक्ति 'छः सिग्मा' सुना होगा।

यह अर्थ के आस-पास प्लस और माइनस 3 सिग्मा (यानी मानक विचलन) को संदर्भित करता है।

'छह सिग्मा' रेंज के बाहर कुछ भी को एक बाहरी के रूप में माना जा सकता है।

प्रतिबिंब पर, मुझे लगता है कि 'छह सिग्मा' बहुत व्यापक है।

This article वर्णन करता है कि यह "3.4 लाख दोषपूर्ण भागों प्रति मिलियन अवसरों" के बारे में बताता है।

यह प्रमाणीकरण उद्देश्यों के लिए एक बहुत कठोर आवश्यकता की तरह लगता है। केवल आप तय कर सकते हैं कि यह आपके लिए उपयुक्त है या नहीं।

स्रोत

2010-01-15 06:27:05 pavium

यह उन बुलाए गए बॉक्स प्लॉट और अन्य तकनीक –

* "3.4 लाख दोषपूर्ण भागों प्रति मिलियन अवसरों" से अधिक कुशल होगा। * उस मामले में, लेख का मानना है कि +/- 6 सिग्मा, +/- 3 सिग्मा नहीं है। – dmckee

हाँ, आप सही हैं, dmckee। मैं वापस गया और देखा। और 99.9 99 66% उपज 3.4 पीपीएम से मेल खाती है। कम से कम लेख एक उपयोगी संदर्भ होना चाहिए। – pavium

कुल मिलाकर, इस बात की तरह एक सवाल यह है कि एक बाहरी की कोई कठोर परिभाषा नहीं है। ,

कुछ बाहरी कारकों के मानक विचलन के अपने अनुमान पर एक विशाल प्रभाव हो सकता है के रूप में मानक विचलन एक मजबूत नहीं है: मैं वास्तव में निम्नलिखित कारणों के लिए कटऑफ के रूप में मानक विचलन की एक निश्चित संख्या का उपयोग कर के खिलाफ की सिफारिश करेंगे आंकड़ा।
मानक विचलन की व्याख्या आपके डेटा के वितरण पर काफी निर्भर करती है। यदि आपका डेटा सामान्य रूप से वितरित किया जाता है तो 3 मानक विचलन बहुत अधिक होते हैं, लेकिन यदि यह है, उदाहरण के लिए, लॉग-सामान्य रूप से वितरित, तो 3 मानक विचलन बहुत नहीं है।
1. सभी डेटा रखें, और सिर्फ मजबूत आंकड़े (मतलब के बजाय मंझला, बजाय टी परीक्षण के Wilcoxon परीक्षण, आदि) का उपयोग करें:
वहाँ आगे बढ़ने के लिए कुछ अच्छे तरीके हैं। शायद आपका डेटासेट बड़ा होने पर शायद अच्छा है।
अपने डेटा को ट्रिम या विनोराइज़ करें। ट्रिमिंग का मतलब है ऊपर और नीचे x% को हटा देना। Winsorizing मतलब क्रमशः xth और 1-xth प्रतिशत मूल्य के लिए शीर्ष और नीचे x% सेट करना है।
यदि आपके पास एक छोटा डेटासेट है, तो आप केवल अपना डेटा प्लॉट कर सकते हैं और इसे अयोग्य मूल्यों के लिए मैन्युअल रूप से जांच सकते हैं।
अपने डेटा यथोचित करीब लग रहा है सामान्य रूप से (कोई भारी पूंछ और मोटे तौर पर सममित) वितरित करने के लिए है, तो मंझला से दूर 3 या 4 मंझला निरपेक्ष विचलन के लिए अपने परीक्षण आंकड़ा और फिल्टर के रूप में मानक विचलन के बजाय median absolute deviation का उपयोग करें।

स्रोत

2010-01-15 19:54:05 dsimcha

+1 यह नोट करने के लिए कि आउटलाइजर्स आपके मानक विचलन को खराब कर देगा। – Kena

आपके डेटा और इसके अर्थ के आधार पर, आप RANSAC (यादृच्छिक नमूना सर्वसम्मति) में देखना चाहेंगे। यह कंप्यूटर दृष्टि में व्यापक रूप से उपयोग किया जाता है, और आम तौर पर मॉडल के बहुत सारे आउटलेटर्स के साथ डेटा फिट करने का प्रयास करते समय उत्कृष्ट परिणाम देता है।

और संकल्पना और व्याख्या करना बहुत आसान है। दूसरी ओर, यह गैर निर्धारक नहीं है, जो आवेदन के आधार पर समस्याएं पैदा कर सकता है।

स्रोत

2010-01-15 19:59:46 Kena

यहाँ कैसे मैं एसक्यूएल सर्वर में इसके बारे में जाना होगा है

क्वेरी के नीचे पकड़े एक काल्पनिक स्केल मेज से औसत वजन मिलेगा एक भी वजन में प्रत्येक व्यक्ति के लिए है, जबकि की अनुमति नहीं जो लोग बहुत ज्यादा मोटे हैं या

select w.Gender, Avg(w.Weight) as AvgWeight 
    from ScaleData w 
    join (select d.Gender, Avg(d.Weight) as AvgWeight, 
        2*STDDEVP(d.Weight) StdDeviation 
      from ScaleData d 
      group by d.Gender 
     ) d 
     on w.Gender = d.Gender 
    and w.Weight between d.AvgWeight-d.StdDeviation 
         and d.AvgWeight+d.StdDeviation 
    group by w.Gender

इस बारे में जाने के लिए एक बेहतर तरीका हो सकता है, लेकिन यह काम करता है और अच्छी तरह से काम करता है: और अधिक यथार्थवादी औसत फेंक करने के लिए पतली। यदि आप एक और अधिक कुशल समाधान में आ गए हैं, तो मुझे इसके बारे में सुनना अच्छा लगेगा।

नोट: उपर्युक्त औसत के उद्देश्य से चित्र के बाहर 5% आउटलेटर्स को ऊपर और नीचे हटा देता है। आप 2 * एसटीडीडीवीपी में 2 * को समायोजित करके हटाए गए आउटलाइर्स की संख्या को समायोजित कर सकते हैं: http://en.wikipedia.org/wiki/Standard_deviation

स्रोत

2010-02-17 20:35:35

यदि आप इसका विश्लेषण करना चाहते हैं, तो आप कहें कि आप किसी अन्य चर के साथ सहसंबंध की गणना करना चाहते हैं, यह आउटलेटर्स को बाहर करने के लिए ठीक है । लेकिन यदि आप मॉडल/भविष्यवाणी करना चाहते हैं, तो उन्हें हमेशा बाहर निकालना हमेशा सर्वोत्तम नहीं होता है।

इसे कैपिंग जैसी विधियों के साथ इलाज करने का प्रयास करें या यदि आपको संदेह है कि आउटलाइर्स में जानकारी/पैटर्न है, तो इसे गायब के साथ बदलें, और मॉडल/भविष्यवाणी करें। मैंने कुछ उदाहरण लिखे हैं कि आप इस here के बारे में आर

स्रोत

2016-04-15 17:57:27 Selva

डेटा के सेट से आउटलेटर्स को बाहर करने के लिए कुशल और सटीक एल्गोरिदम क्या हैं?

उत्तर

संबंधित मुद्दे