2012-03-23 16 views
8

मैं माइक्रोएरे प्रयोगों द्वारा उत्पन्न जीन अभिव्यक्ति डेटा डाउनलोड करना चाहता था। मुझे इस विषय के बारे में बहुत कुछ पता नहीं है, लेकिन जैसा कि मैं समझता हूं, पंक्तियां अक्सर जीन के अनुरूप होती हैं और कॉलम नमूने से मेल खाते हैं। आदर्श रूप में, मैं जीन अभिव्यक्ति डेटा के एक मैट्रिक्स की उम्मीद करता हूं।मैं जीन अभिव्यक्ति डेटा कहां डाउनलोड करूं?

मैं इंटरनेट पर खोज कर रहा हूं, और हालांकि ऐसा लगता है कि इस तरह के डेटा को डाउनलोड करने के लिए कई जगहें हैं, जब मैं वास्तव में डेटा डाउनलोड करता हूं, तो मुझे जीन अभिव्यक्ति का मैट्रिक्स नहीं मिलता है। क्या कोई मुझे बता सकता है कि क्या कोई जगह है या प्रारूप में जीन अभिव्यक्ति डेटा डाउनलोड करने के लिए कैसे ऊपर की उम्मीद है?

किसी भी मदद की सराहना की जाती है।

+0

यह प्रश्न प्रोग्रामिंग से संबंधित नहीं है। कृपया इसे बायोस्टार पर पूछें http://biostar.stackexchange.com/ – gotgenes

+0

@gotgenes धन्यवाद! मैंने वास्तव में यह देखने का प्रयास किया कि क्या यहां पोस्ट करने से पहले अन्य स्टैक एक्सचेंज चैनल थे या नहीं। लेकिन अब मैं निश्चित रूप से जानता हूँ! सौभाग्य से मुझे अब महान प्रतिक्रियाएं और उपयुक्त साइट मिली है।उस TXT फ़ाइल के लिए –

उत्तर

6

यदि आप उदा। this entryGene Expression Omnibus में, फ़ाइल स्वरूपों में से एक "TXT" है और इसमें कुछ मेटाडेटा के बाद आप एक मैट्रिक्स शामिल कर रहे हैं।

+0

, कॉलम हैं (यानी जीएसएम 33 9 455, जीएसएम 33 9456, जीएसएम 33 9 457, आदि ...) जीन और पंक्तियों के नमूने? –

+0

मैं क्लस्टर विश्लेषण देख रहा हूं। ऐसा लगता है कि जीएसएम नमूने हैं और पंक्तियां जीन के अनुरूप होती हैं। क्या आप नामकरण सम्मेलनों की व्याख्या कर सकते हैं? यानी पंक्ति पहचानकर्ताओं के लिए कॉलम हेडर के लिए जीएसएम का उपयोग क्यों करें और फिर 998_at या 9890_at? –

+0

जीएसएम संख्या नमूने के लिए प्रवेश आईडी हैं (आप आईडी के साथ जीईओ में प्रत्येक नमूना पा सकते हैं)। फ़ाइल में सूचीबद्ध "श्रृंखला मंच आईडी" जीपीएल 7144 है, और यदि आप उस आईडी के साथ जीईओ से पूछताछ करते हैं, तो आपको पंक्ति पहचानकर्ताओं से जीन का जिक्र करने के कई अन्य तरीकों से मैपिंग मिलती है। –

5

सैद्धांतिक माइक्रोएरे डेटा को नमूने के साथ एक मैट्रिक्स के रूप में व्यक्त किया जा सकता है (कृपया पन क्षमा करें) कॉलम और पंक्तियों के रूप में पंक्तियों के रूप में। अभ्यास में यह एक प्रयोग के कच्चे डेटा के लिए इस तरह के एक प्रतिनिधित्व प्राप्त करने के लिए एक और अधिक जटिल है। यदि आपको बस एक पूर्व-संसाधित डेटासेट मिलता है तो आपको कम गारंटी है कि कच्चे डेटा को इस तरह से संसाधित किया गया था जो इसे अन्य प्रयोगों के साथ तुलनीय बनाता है या अंतर्निहित कच्चा डेटा पर्याप्त उच्च गुणवत्ता का था।

आपको डेटा मैट्रिक्स से किसी भी अर्थ प्राप्त करने के लिए उच्च गुणवत्ता वाले मेटाडेटा की भी आवश्यकता होगी। जैविक स्थितियों और स्रोतों से क्या नमूने प्राप्त किए गए थे? विशेष सरणी पर जांच क्या जीन का प्रयोग किया जाता है? (ध्यान दें कि 9890_at "प्रोबसेट आईडी" है, जो एक विशेष अनुक्रम डिज़ाइन की आणविक जांच का एक अद्वितीय पहचानकर्ता है, जिसे एक जीन में मैप करने की आवश्यकता होती है, उसी जीन के लिए अलग-अलग जांच बिल्कुल वही प्रतिक्रिया नहीं देगी।)

सार्वजनिक माइक्रोरैरे डेटाबेस इसलिए संसाधित डेटा मैट्रिक्स के अतिरिक्त बहुत अधिक जानकारी प्रदान करते हैं। GEO के अतिरिक्त जो पहले से ही उल्लेख किया गया है, मैं ArrayExpress की सिफारिश करूंगा जो मेरी राय में बेहतर खोज इंटरफ़ेस है।

कई के लिए माइक्रोएरे डेटा के साथ काम करने का विकल्प bioconductor सांख्यिकीय प्रोग्रामिंग भाषा R के लिए सॉफ्टवेयर का सूट है।

बायोकॉन्डक्टर दोनों रिपॉजिटरीज़ से मेटाडेटा के साथ कच्चे डेटा को डाउनलोड करने के लिए एपीआई प्रदान करता है, GEO bioc package और ArrayExpress bioc package देखें।

दोनों पैकेज, सबसे BioConductor उत्कृष्ट "विगनेट्स" है कि सॉफ्टवेयर का परिचय के साथ आते हैं सॉफ्टवेयर के साथ आम में: GEO bioc vignette और Arrayexpress bioc vignette

उन विगनेट्स भी आप कच्चे डेटा ले रहे हैं और "पु नः निर्धारित करता" पाने का उदाहरण देना चाहिए (अभिव्यक्ति सेट) कच्चे डेटा से। उस बिंदु पर आप बायोकॉंडक्टर एसेट ऑब्जेक्ट में जीन अभिव्यक्ति मैट्रिक्स तक पहुंच सकते हैं, और आपके पास आवश्यक मेटाडेटा पूछताछ करने के लिए एक ऑब्जेक्ट और एपीआई है।

ध्यान दें कि विभिन्न प्रकार के माइक्रोएरे हैं। मैं एफ़िमेट्रिक्स सरणी से डेटा के साथ शुरू करने की सलाह दूंगा क्योंकि उनके पास शायद सबसे सरल विश्लेषण API है।

+0

धन्यवाद एलेक्स, यह भी बहुत उपयोगी था। मैं प्रतिक्रिया की बहुत सराहना करता हूं। –

संबंधित मुद्दे