2010-05-05 5 views
8

में प्रोबसेट्स को जोड़ना सबसे पहले, यह इस प्रश्न के लिए गलत फोरम हो सकता है, क्योंकि यह बहुत अच्छा आर + बायोकॉन्डक्टर विशिष्ट है। यहाँ मैं क्या है:आर + बायोकॉन्डक्टर: अभिव्यक्तिसेट

library('GEOquery') 
GDS = getGEO('GDS785') 
cd4T = GDS2eSet(GDS) 
cd4T <- cd4T[!fData(cd4T)$symbol == "",] 

अब cd4T एक ExpressionSet वस्तु जो 19,794 पंक्तियाँ (probesets) और 15 कॉलम (नमूने) के साथ एक बड़ा मैट्रिक्स लपेटता है। अंतिम पंक्ति उन सभी प्रोबसेट्स से छुटकारा पाती है जिनके पास समान जीन प्रतीकों नहीं होते हैं। अब मुसीबत यह है कि इस सेट में अधिकांश जीन एक से अधिक प्रोबसेट को आवंटित किए जाते हैं। > जीन मैपिंग - आप

gene_symbols = factor(fData(cd4T)$Gene.symbol) 
length(gene_symbols)-length(levels(gene_symbols)) 
[1] 6897 

कार्य करके यह देख सकते हैं तो मेरी 19,794 probesets का केवल 6897 अद्वितीय probeset है। मैं किसी भी तरह से प्रत्येक जीन से जुड़े प्रत्येक प्रोबसेट के अभिव्यक्ति स्तर को जोड़ना चाहता हूं। मुझे प्रत्येक जांच के लिए वास्तविक जांच आईडी के बारे में ज्यादा परवाह नहीं है। मैं एक अभिव्यक्ति सेट के साथ समाप्त होना चाहता हूं जिसमें विलय की जानकारी है, क्योंकि मेरे सभी डाउनस्ट्रीम विश्लेषण को इस कक्षा के साथ काम करने के लिए डिज़ाइन किया गया है।

मुझे लगता है कि मैं कुछ कोड लिख सकता हूं जो हाथ से ऐसा करेगा, और स्क्रैच से एक नया अभिव्यक्ति सेट करेगा। हालांकि, मुझे लगता है कि यह एक नई समस्या नहीं हो सकती है और यह कोड जीन अभिव्यक्ति के स्तर को गठबंधन करने के लिए सांख्यिकीय रूप से ध्वनि विधि का उपयोग करके ऐसा करने के लिए मौजूद है। मुझे लगता है कि इसके लिए एक उचित नाम भी है लेकिन मेरे गुगल अधिक उपयोग नहीं दिखा रहे हैं। क्या कोई मदद कर सकता है?

+1

आपको biostar.stackexchange.com को एक प्रयास देना चाहिए - यह जैव सूचना विज्ञान प्रश्नों के लिए विशेष रूप से एक स्टैक ओवरफ्लो-प्रकार साइट है। –

+0

(हालांकि मुझे लगता है कि यह भी एक उचित सवाल है)। –

+0

ठंडा - इसे बायोस्टार पर भी रखा है। –

उत्तर

2

मैं एक विशेषज्ञ नहीं हूं, लेकिन पिछले कुछ सालों में मैंने देखा है कि हर किसी के पास प्रोबसेट्स का संयोजन करने का अपना पसंदीदा तरीका है। मैंने जो दो तरीकों को देखा है, वे बड़े पैमाने पर सबसे अधिक इस्तेमाल करते हैं, केवल प्रोबसेट का उपयोग कर रहे हैं, जिसमें अभिव्यक्ति मैट्रिक्स में सबसे बड़ा अंतर है और दूसरा प्रोबसेट का मतलब लेना और मेटा-प्रोबसेट बनाना है । प्रोबसेट्स के छोटे ब्लॉक के लिए मैंने देखा है कि लोग प्रति-जांच प्लॉट्स को देखने के लिए और अधिक गहन तरीकों का उपयोग करते हुए देख रहे हैं कि क्या हो रहा है ... आम तौर पर क्या होता है कि एक प्रोबसेट 'अच्छा' होता है और बाकी बहुत अच्छे नहीं हैं।

मैंने ऐसा करने के लिए सामान्यीकृत कोड नहीं देखा है - उदाहरण के तौर पर हमने हाल ही में अपनी प्रयोगशाला में महसूस किया है कि हम में से कुछ को भी यही काम करने के लिए अपने निजी कार्य हैं।

0

जो शब्द आप खोज रहे हैं वह 'आर जीनफिल्टर पैकेज में है। यह फ़ंक्शन दो प्रमुख चीजें असाइन करता है, यह केवल एंटरज़ जीन आईडी की तलाश करता है, शेष प्रोबसेट फ़िल्टर किए जाएंगे। जब एक एंट्रेज़ आईडी में एकाधिक प्रोबसेट होते हैं, तो सबसे बड़ा मान बरकरार रखा जाएगा और अन्य हटा दिए जाएंगे। अब आपके पास अद्वितीय entrez जीन आईडी मैप मैट्रिक्स है। उम्मीद है की यह मदद करेगा।