मैं आर के साथ बहुत नया हूं, इसलिए उम्मीद है कि मैं अपने डेटा के वांछित हेरफेर को प्राप्त करने के तरीके पर कुछ पॉइंटर्स प्राप्त कर सकता हूं।आर: क्वार्टाइल/deciles में विभाजित डेटासेट। सही तरीका क्या है?
मेरे पास तीन चर के साथ डेटा की एक सरणी है।
gene_id fpkm meth_val
1 100629094 0.000 0.0063
2 100628995 0.000 0.0000
3 102655614 111.406 0.0021
मैं चतुर्थकों या deciles में fpkm के आधार पर मेरे gene_ids stratifying के बाद औसत meth_val प्लॉट करने के लिए करना चाहते हैं।
एक बार मैं एक dataframe में मेरी डेटा लोड ...
data <- read.delim("myfile.tsv", sep='\t')
मैं fpkm निर्धारित कर सकते हैं का उपयोग कर deciles:
quantile(data$fpkm, prob = seq(0, 1, length = 11), type = 5
जो पैदावार
0% 10% 20% 30% 40% 50%
0.000000e+00 9.783032e-01 7.566164e+00 3.667630e+01 1.379986e+02 3.076280e+02
60% 70% 80% 90% 100%
5.470552e+02 8.875592e+02 1.486200e+03 2.974264e+03 1.958740e+05
वहाँ से, मैं 'ffkm_val इन deciles में से किसी एक में फिट बैठता है या नहीं, इस पर आधारित डेटा फ्रेम को अनिवार्य रूप से 10 समूहों में विभाजित करना चाहते हैं। फिर मैं बॉक्स प्लॉट के रूप में ggplot में प्रत्येक डेसील के meth_val को प्लॉट करना चाहता हूं और deciles में एक सांख्यिकीय परीक्षण कर सकता हूं।
मुख्य बात यह है कि मैं वास्तव में अटक गया हूं कि मेरे डेटासेट को उचित तरीके से कैसे विभाजित किया जाए। किसी भी सहायता की सराहना की जाएगी!
धन्यवाद एक गुच्छा!
क्वांटाइल पर सेट ब्रेक तर्क के साथ आर में कट फ़ंक्शन का उपयोग करें। यहां एक समान प्रश्नोत्तर है http://stackoverflow.com/questions/11728419/using-cut-and-quartile-to-generate-breaks-in-r- कार्यक्षमता – technOslerphile