मैं कई स्थितियों में आया हूं जहां मैं वास्तव में होना चाहिए उससे अधिक अंक प्लॉट करना चाहता हूं - मुख्य धारणा यह है कि जब मैं अपने भूखंडों को लोगों के साथ साझा करता हूं या उन्हें कागजात में एम्बेड करता हूं, तो वे बहुत अधिक जगह पर कब्जा करते हैं। डेटाफ्रेम में यादृच्छिक रूप से नमूना पंक्तियों के लिए यह बहुत सरल है।आर में अधिकतम साजिश बिंदु?
अगर मैं एक बिंदु साजिश के लिए वास्तव में एक नमूने के तौर पर चाहते हैं, यह कहना आसान है:
ggplot(x,y,data=myDf[sample(1:nrow(myDf),1000),])
हालांकि, यदि कोई और अधिक प्रभावी (आदर्श डिब्बाबंद) साजिश अंकों की संख्या को निर्दिष्ट करने के तरीके थे मैं सोच रहा था जैसे कि आपका वास्तविक डेटा साजिश में सटीक रूप से प्रतिबिंबित होता है। तो यहां एक उदाहरण है। मान लीजिए कि मैं एक भारी पूंछ वितरण के सीसीडीएफ की तरह कुछ प्लॉट कर रहा हूं, उदाहरण के लिए
ccdf <- function(myList,density=FALSE)
{
# generates the CCDF of a list or vector
freqs = table(myList)
X = rev(as.numeric(names(freqs)))
Y =cumsum(rev(as.list(freqs)));
data.frame(x=X,count=Y)
}
qplot(x,count,data=ccdf(rlnorm(10000,3,2.4)),log='xy')
यह एक साजिश है, जहां x & y अक्ष तेजी से सघन हो का उत्पादन करेगा। यहां बड़े एक्स या वाई मानों के लिए प्लॉट किए गए कम नमूनों के लिए आदर्श होगा।
क्या किसी के पास इसी तरह के मुद्दों से निपटने के लिए कोई सुझाव या सुझाव हैं?
धन्यवाद, -e
हैलो रोब, एक प्रकार की कटार - मैं स्पष्ट करने के लिए है कि मैं कर रहा हूँ चाहता हूँ एक अलग विज़ुअलाइजेशन विधि का उपयोग करके ओवरप्लॉटिंग से निपटने के लिए एक रास्ता तलाश नहीं है। मैं विशेष रूप से एक बिंदु साजिश करना चाहता हूं कि मैं एक लाटेक्स पेपर में स्केलेबल वेक्टर ग्राफ़िक के रूप में एम्बेड कर सकता हूं। जिस तरह से मैं यह करना चाहता हूं वह है कि मेरे डेटा को व्यक्त करने के लिए आवश्यक साजिश बिंदुओं की संख्या को कम करें। – eytan
फिर उप-नमूनाकरण आपकी सबसे अच्छी शर्त हो सकती है। यह निश्चित रूप से 'गैर-वर्दी' नमूनाकरण के साथ किया जा सकता है, ताकि आप पूंछ से अधिक अंक (या यहां तक कि सभी) रखना चाहें लेकिन नाटकीय रूप से मुख्य भाग को पतला कर सकते हैं। लेकिन यह समस्या-विशिष्ट लगता है ताकि आपको इसे स्वयं पकाएं। –