में प्रोबसेट्स को जोड़ना सबसे पहले, यह इस प्रश्न के लिए गलत फोरम हो सकता है, क्योंकि यह बहुत अच्छा आर + बायोकॉन्डक्टर विशिष्ट है। यहाँ मैं क्या है:आर + बायोकॉन्डक्टर: अभिव्यक्तिसेट
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
अब cd4T एक ExpressionSet वस्तु जो 19,794 पंक्तियाँ (probesets) और 15 कॉलम (नमूने) के साथ एक बड़ा मैट्रिक्स लपेटता है। अंतिम पंक्ति उन सभी प्रोबसेट्स से छुटकारा पाती है जिनके पास समान जीन प्रतीकों नहीं होते हैं। अब मुसीबत यह है कि इस सेट में अधिकांश जीन एक से अधिक प्रोबसेट को आवंटित किए जाते हैं। > जीन मैपिंग - आप
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
कार्य करके यह देख सकते हैं तो मेरी 19,794 probesets का केवल 6897 अद्वितीय probeset है। मैं किसी भी तरह से प्रत्येक जीन से जुड़े प्रत्येक प्रोबसेट के अभिव्यक्ति स्तर को जोड़ना चाहता हूं। मुझे प्रत्येक जांच के लिए वास्तविक जांच आईडी के बारे में ज्यादा परवाह नहीं है। मैं एक अभिव्यक्ति सेट के साथ समाप्त होना चाहता हूं जिसमें विलय की जानकारी है, क्योंकि मेरे सभी डाउनस्ट्रीम विश्लेषण को इस कक्षा के साथ काम करने के लिए डिज़ाइन किया गया है।
मुझे लगता है कि मैं कुछ कोड लिख सकता हूं जो हाथ से ऐसा करेगा, और स्क्रैच से एक नया अभिव्यक्ति सेट करेगा। हालांकि, मुझे लगता है कि यह एक नई समस्या नहीं हो सकती है और यह कोड जीन अभिव्यक्ति के स्तर को गठबंधन करने के लिए सांख्यिकीय रूप से ध्वनि विधि का उपयोग करके ऐसा करने के लिए मौजूद है। मुझे लगता है कि इसके लिए एक उचित नाम भी है लेकिन मेरे गुगल अधिक उपयोग नहीं दिखा रहे हैं। क्या कोई मदद कर सकता है?
आपको biostar.stackexchange.com को एक प्रयास देना चाहिए - यह जैव सूचना विज्ञान प्रश्नों के लिए विशेष रूप से एक स्टैक ओवरफ्लो-प्रकार साइट है। –
(हालांकि मुझे लगता है कि यह भी एक उचित सवाल है)। –
ठंडा - इसे बायोस्टार पर भी रखा है। –