2016-11-16 7 views
5

मैंलोअर और अपर चतुर्थकों

X=c(20 ,18, 34, 45, 30, 51, 63, 52, 29, 36, 27, 24) 
boxplot साथ

है, मैं साजिश कोशिश कर रहा हूँ quantile(X,0.25) और quantile(X,0.75) लेकिन इस आर

में boxplot में एक ही लोअर और अपर चतुर्थकों वास्तव में नहीं है
boxplot(X) 
abline(h=quantile(X,0.25),col="red",lty=2) 
abline(h=quantile(X,0.75),col="red",lty=2) 

enter image description here क्या आपको पता है क्यों?

+0

बीटीडब्ल्यू, 'बॉक्सप्लॉट' एक ऑब्जेक्ट देता है जिसे आवश्यकतानुसार उपयोग किया जा सकता है: 'bX = boxplot (X); abline (एच = बीएक्स $ आँकड़े [सी (2, 4), 1], col = "लाल", lty = 2) ' –

उत्तर

7

बॉक्स के मानों को टिका कहा जाता है और क्वार्टाइल के साथ मिल सकता है (जैसा कि quantile(x, c(0.25, .075)) द्वारा गणना की जाती है), लेकिन इसकी गणना अलग-अलग होती है।

?boxplot.stats से:

दो 'टिका' अर्थात quantile के करीब (एक्स, सी (1,3)/4) पहले और तीसरे चतुर्थक के संस्करणों,, कर रहे हैं। विषम एन (जहां एन < - लंबाई (एक्स)) के लिए क्वार्टाइल के बराबर होता है और यहां तक ​​कि एन के लिए भिन्न होता है। जबकि क्वार्टाइल केवल n %% 4 == 1 (n = 1 mod 4) के लिए अवलोकन के बराबर होते हैं, तो कंगन n %% 4 == 2 (n = 2 mod 4) के लिए अतिरिक्त रूप से करते हैं, और दो के बीच में होते हैं अन्यथा अवलोकन।

कि मूल्यों टिप्पणियों की एक विषम संख्या के साथ मेल खाना देखने के लिए, निम्न कोड का प्रयास करें:

set.seed(1234) 
x <- rnorm(9) 

boxplot(x) 
abline(h=quantile(x, c(0.25, 0.75)), col="red") 

enter image description here

3

विसंगति quantiles की परिभाषा में एक अस्पष्टता से उठता है। कोई भी विधि सख्ती से सही या गलत नहीं है - परिस्थितियों में क्वांटाइल का अनुमान लगाने के लिए अलग-अलग तरीके हैं (जैसे डेटा पॉइंट्स की संख्या) जब वे एक विशिष्ट डेटा बिंदु के साथ अच्छी तरह से मेल नहीं खाते हैं और उन्हें अलग-अलग किया जाना चाहिए। कुछ हद तक disconcertingly, boxplot और quantile (और अन्य कार्यों कि सारांश आँकड़े प्रदान) अलग-अलग डिफ़ॉल्ट तरीकों का उपयोग quantiles गणना करने के लिए हम कार्रवाई में अधिक स्पष्ट रूप से इन मतभेदों को देख सकते हैं, हालांकि इन चूक quantile

में हो सकता है type = तर्क का उपयोग करने पर ग्रस्त

boxplot.stats(X)$stats 
# [1] 18.0 25.5 32.0 48.0 63.0 
fivenum(X) 
# [1] 18.0 25.5 32.0 48.0 63.0 

: विभिन्न तरीकों में से कुछ को देखकर आर

में quantile आँकड़े

दोनों boxplot और fivenum ही मान देने के उत्पन्न करने के लिए

c(median(X[ X <= median(X) ]), median(X[ X >= median(X) ])) 
# [1] 25.5 48.0 

लेकिन, quartile और summary बातें करते हैं: boxplot और fivenum में, कम (ऊपरी) चतुर्थक (पूरा आंकड़ों की माध्यिका सहित) डेटा के निचले (ऊपरी) आधा की औसत के बराबर है अलग ढंग से:

summary(X) 
# Min. 1st Qu. Median Mean 3rd Qu. Max. 
# 18.00 26.25 32.00 35.75 46.50 63.00 

quantile(X, c(0.25,0.5,0.75)) 
# 25% 50% 75% 
# 26.25 32.00 46.50 

इस और boxplot से परिणाम और fivenum के बीच का अंतर कैसे काम करता है डेटा के बीच अंतर्वेशन पर टिका है। quartile संचयी वितरण फ़ंक्शन के आकार का अनुमान लगाकर इंटरपोलेट करने का प्रयास करता है।?quantile के अनुसार:

quantile रिटर्न अंतर्निहित वितरण quantiles के अनुमान की आपूर्ति की probs में संभावनाओं पर एक्स में तत्वों से एक या दो आदेश आँकड़ों के आधार पर । नौ क्वांटाइल एल्गोरिदम में से एक ने पर हाइंडमैन और फैन (1 99 6) में टाइप किया, जिसे टाइप किया गया है, नियोजित है।

नौ अलग-अलग तरीकों quantile का पूरा विवरण डेटा का वितरण समारोह ?quantile में पाया जा सकता है, और भी यहाँ पूर्ण में पुन: पेश करने लंबी हैं अनुमान लगाने के लिए काम करते हैं। ध्यान देने योग्य महत्वपूर्ण बात यह है कि 9 विधियों को हाइंडमैन और फैन (1 99 6) से लिया गया है, जिन्होंने टाइप 8 की सिफारिश की थी। quantile द्वारा उपयोग की जाने वाली डिफ़ॉल्ट विधि एस के साथ संगतता के ऐतिहासिक कारणों के लिए टाइप 7 है, हम अनुमानों को देख सकते हैं का उपयोग कर quantile में विभिन्न तरीकों द्वारा प्रदान की चतुर्थकों:

quantile_methods = data.frame(q25 = sapply(1:9, function(method) quantile(X, 0.25, type = method)), 
      q50 = sapply(1:9, function(method) quantile(X, 0.50, type = method)), 
      q75 = sapply(1:9, function(method) quantile(X, 0.75, type = method))) 
#  q25 q50 q75 
# 1 24.0000 30 45.000 
# 2 25.5000 32 48.000 
# 3 24.0000 30 45.000 
# 4 24.0000 30 45.000 
# 5 25.5000 32 48.000 
# 6 24.7500 32 49.500 
# 7 26.2500 32 46.500 
# 8 25.2500 32 48.500 
# 9 25.3125 32 48.375 

जिसमें type = 5boxplot करता है चतुर्थकों का एक ही अनुमान मूल्यों प्रदान करता है। हालांकि, जब डेटा की एक विषम संख्या होती है, तो यह type=7 है जो बॉक्सप्लॉट आंकड़ों के साथ मेल खाती है।

हम इस काम को स्वचालित रूप से 5 या 7 के प्रकार का चयन करके दिखा सकते हैं कि क्या कोई अजीब या यहां तक ​​कि डेटा भी है। Boxplot 1 से 30 मूल्यों, boxplot और quantile दोनों अजीब और यहां तक ​​कि एन के लिए एक ही मान देने के साथ साथ डेटा सेट के लिए शो quantiles नीचे छवि में:

layout(matrix(1:30,5,6, byrow = T), respect = T) 
par(mar=c(0.2,0.2,0.2,0.2), bty="n", yaxt="n", xaxt="n") 

for (N in 1:30){ 
    X = sample(100, N) 
    boxplot(X) 
    abline(h=quantile(X, c(0.25, 0.5, 0.75), type=c(5,7)[(N %% 2) + 1]), col="red", lty=2) 
} 

enter image description here


Hyndman, आरजे और फैन , वाई। (1 99 6) सांख्यिकीय पैकेजों में नमूना क्वांटाइल, अमेरिकी सांख्यिकीविद् 50, 361-365

संबंधित मुद्दे