2012-01-21 25 views
49

मैं एक मानव डीएनए स्टोर करने के लिए बाइट्स (एमबी, जीबी, टीबी, जो कुछ भी) में स्मृति की मात्रा की तलाश में हूं। मैंने डीएनए, क्रोमोसोम, बेस जोड़े, जीन के बारे में विकिपीडिया पर कुछ लेख पढ़े हैं, और कुछ अनुमान लगाया है, लेकिन कुछ भी प्रकट करने से पहले मैं देखना चाहता हूं कि अन्य इस मुद्दे पर कैसे पहुंचेंगे।मानव डीएनए को स्टोर करने के लिए कितनी मेमोरी की आवश्यकता होगी?

वैकल्पिक प्रश्न यह होगा कि मानव डीएनए में कितने परमाणु हैं, लेकिन यह इस साइट के लिए विषय बंद होगा।

मैं समझता हूं कि यह एक अनुमान होगा, इसलिए मैं न्यूनतम मूल्य की तलाश में हूं जो किसी भी मानव के डीएनए को स्टोर करने में सक्षम होगा।

+0

परमाणुओं की संख्या के लिए, यह संरचना पर निर्भर करता है। ए और टी जी और सी से छोटे अणु हैं। अणु की संरचना गोमांस है, हालांकि, इसकी परमाणु संरचना नहीं है, इसलिए यह वास्तव में एक बहुत ही उपयोगी गणना नहीं है। (इसके लिए क्या लायक है, उदाहरण के लिए ए अणु उर्फ ​​[deoxyadenosine] (https://en.wikipedia.org/wiki/Deoxyadenosine) C10H13N5O3 है इसलिए 31 परमाणु।) – tripleee

+0

यह भी देखें https://www.biostars.org/p/5514/ –

+0

उपयोगकर्ताओं के स्लेटन के अलावा, पॉल एम्स्ट्रांग और राउचेन दिए गए सभी अन्य उत्तरों को इसके सार में या पूर्ण से बहुत गलत हैं। जवाब में उपयोगकर्ता (विफल) संपीड़न विधियों का उल्लेख किया है या खराब समझाया गया है। जीनोम के 4 गुना डाउनसाइजिंग को स्पष्ट करने के लिए मेरा जवाब देखें जैसा कि कई उत्तरों में देखा गया है। – ZF007

उत्तर

45

आप ऐसी बातों पर विश्वास करते हैं, यहाँ विकिपीडिया क्या (http://en.wikipedia.org/wiki/Human_genome#Information_content से) का दावा है है:

2,9 अरब अगुणित मानव जीनोम के आधार जोड़े, डेटा के 725 के बारे में मेगाबाइट की एक अधिकतम के अनुरूप हर के बाद से आधार जोड़ी 2 बिट्स द्वारा कोडित हो सकती है। चूंकि अलग-अलग जीनोम से 1% से कम भिन्न होते हैं, इसलिए उन्हें लगभग 4 मेगाबाइट तक लापरवाही से संपीड़ित किया जा सकता है।

+6

बस कुछ जैविक टिप्पणी जोड़ने के लिए, "हैप्लोइड" का अर्थ है प्रत्येक गुणसूत्र की केवल एक प्रति। मानव संदर्भ असेंबली हैप्लोइड (और कई लोगों का मोज़ेक) है। एक वास्तविक व्यक्तिगत जीनोम डिप्लोइड (प्रत्येक गुणसूत्र की 2 प्रतियां, एक्स और वाई को छोड़कर) होगा, लेकिन फिर साइट्स के एक छोटे से सबसेट पर दो प्रतियों के बीच केवल भिन्नता होगी। –

+1

मुझे आश्चर्य है कि इसे संपीड़ित किया जा सकता है ... – Costa

+5

एक दिन के लिए इसके बारे में सोचा, और यह महसूस किया: यदि आपने कुछ मूल मामला मानव डीएनए संग्रहीत किया है, तो किसी भी बाद के मानव डीएनए को केवल इसके बीच के आधार के रूप में संग्रहीत करने की आवश्यकता होगी मामला। उसी लिंग उदाहरण के लिए डीएनए 99.9% समान है। और लिंगों में यह 98.5% की तरह है। – Costa

3

मानव जीनोम में 2.9 बिलियन बेस जोड़े हैं। तो यदि आप प्रत्येक बेस जोड़ी को बाइट के रूप में दर्शाते हैं तो इसमें 2.9 बिलियन बाइट या 2.9 जीबी लगेंगे। आप बेस जोड़ों को संग्रहित करने के एक और रचनात्मक तरीके से आ सकते हैं क्योंकि प्रत्येक बेस जोड़ी को केवल 2 बिट्स की आवश्यकता होती है। तो आप संभवतः एक जीबी से कम कुल नीचे लाने के लिए प्रति बाइट 4 बेस जोड़े स्टोर कर सकते हैं।

+0

बिट्स ~ = बाइट्स। 2.9 बिलियन बिट्स लगभग 350 एमबी – SDGuero

+1

@ एसडीगुएरो है, बेस-जोड़े आधार 4 आधार 2 नहीं हैं, इसलिए आपको बेस जोड़ी का प्रतिनिधित्व करने के लिए कम से कम 2 बिट्स की आवश्यकता है। – slayton

+0

बिट लिंगो पर बीएस ... प्रत्येक न्यूक्लियोटाइड बेस 1 वर्ण है और इस प्रकार 1 बाइट है, चरित्र रूपांतरण तालिका (एएससीआईआई, यूटीएफ -8, आदि) के बावजूद; 2byte एशियाई कोडिंग सहित नहीं। – ZF007

21

आप एक धारा में पूरे डीएनए की दुकान नहीं है ... सबसे अधिक समय यह गुणसूत्र द्वारा की दुकान है

एक बड़ी गुणसूत्र के बारे में 300 एमबी एक छोटे से एक ले के बारे में 50 MB


संपादित करें:

मुझे लगता है कि यह 2 कारण प्रति बेस जोड़ी में सहेजा नहीं गया पहला कारण यह है कि इससे डेटा के साथ काम करने में बाधा उत्पन्न होती है। अधिकांश लोगों को यह नहीं पता होगा कि इसे कैसे परिवर्तित किया जाए। और यहां तक ​​कि जब रूपांतरण के लिए एक कार्यक्रम दिया जाएगा, तो बड़ी कंपनियों या शोध संस्थानों में बहुत से लोगों को पूछने की आवश्यकता नहीं है या नहीं जानते कि प्रोग्राम कैसे इंस्टॉल करें ...

1 जीबी संग्रहण लागत कुछ भी नहीं .. यहां तक ​​कि 3 जीबी के डाउनलोड में 100 एमबीआईटी के साथ केवल 4 मिनट लगते हैं और ज्यादातर कंपनियों के पास तेजी से कनेक्शन होता है।

एक और बिंदु यह है कि डेटा उतना आसान नहीं है जितना आप हमेशा बताते हैं।

उदा। Craig_Venter द्वारा आविष्कार किए गए अनुक्रमण के लिए विधि एक महान ब्रेक था, लेकिन इसकी डाउन साइट भी है। यह एक ही आधार जोड़ी की लंबी श्रृंखला को अलग नहीं कर सका, इसलिए 8 ए या 9 ए के होने पर यह हमेशा 100% स्पष्ट नहीं होता है। जिन चीजों को आप बाद में देखभाल करना चाहते थे ..

एक और उदाहरण DNA methylation है। ऐसी जानकारी आप 2-बिट प्रतिनिधित्व में स्टोर नहीं कर सकते हैं।

+3

thx ... अन्य लोगों के विकिपीडिया/Google ज्ञान के बजाय मैंने डेटा के साथ काम किया है .... – rauschen

+2

मेरे द्वारा +1। हालांकि, मुझे कोई संकेत नहीं है कि "बड़ा" या "छोटा" गुणसूत्र क्या है? –

+1

ये संख्या विकिपीडिया के साथ मेल नहीं खाती है (http://en.wikipedia.org/wiki/Human_genome#Information_content पर तालिका देखें); मैं यह नहीं कह रहा कि आप गलत हैं, लेकिन क्या आप विसंगति को समझा सकते हैं? –

10

असल में, प्रत्येक बेस जोड़ी में 2 बिट होते हैं (आप टी, जी, सी, और ए के लिए 00, 01, 10, 11 का उपयोग कर सकते हैं)। चूंकि मानव जीनोम में लगभग 2.9 अरब बेस जोड़े हैं, (2 * 2.9 बिलियन) बिट्स = = 691 मेगाबाइट्स।

मैं कोई विशेषज्ञ, हालांकि, विकिपीडिया पर Human Genome पेज निम्नलिखित राज्यों हूँ:

कच्चे एमबी:

  • पुरुष (XY): 770MB
  • महिला (XX): 756MB

मुझे यकीन नहीं है कि उनका अंतर कहां से आता है, लेकिन मुझे यकीन है कि आप इसे समझ सकते हैं।

+5

वास्तविक रूप से, और अधिक अनुक्रम जानकारी में संग्रहीत अन्य आधार हैं (उदाहरण के लिए, जहां डेटा मैपबल नहीं है और इसलिए अज्ञात है) के रूप में 2 बिट्स की आवश्यकता होती है। आईयूपीएसी न्यूक्लियोटाइड कोड मानक चार से अधिक शामिल हैं, और यह स्टोरेज ओवरहेड बढ़ा सकता है। http://www.ebi.ac.uk/2can/tutorials/aa.html –

+0

@AlexReynolds टूटी हुई लिंक:/ –

+1

@AlexReynolds @ o0 'http://www.bioinformatics.org/sms2/iupac.html बेहतर है उन IUPAC कोड के लिए लिंक। एआईयूआई, एक विशेष जीनोम "स्कैन" को अपर्याप्तता के कारण 2 बिट से अधिक की आवश्यकता होती है, इस प्रकार किसी भी आधार के लिए ए या जी, 'एन' के लिए 'आर', एक अंतर के लिए' '' '। यदि हम पूरी तरह से जीनोम पढ़ सकते हैं , यह प्रति आधार केवल 2 बिट होगा। – skierpage

2

4 न्यूक्लियोटाइड बेस हैं जो हमारे डीएनए बनाते हैं, इसलिए ए, सी, जी, टी इसलिए डीएनए में प्रत्येक आधार के लिए 2 बिट लेते हैं। लगभग 2.9 बिलियन बेस हैं, जो लगभग 700 मेगाबाइट्स हैं। अजीब बात यह है कि एक सामान्य डेटा सीडी भर जाएगा! संयोग?!?

6

हां, पूरे मानव डीएनए के लिए आवश्यक न्यूनतम रैम लगभग 770 एमबी है। हालांकि, 2-बिट प्रतिनिधित्व व्यावहारिक है। इस पर कुछ कंप्यूटेशंस खोजना या करना मुश्किल है। इसलिए कुछ गणितज्ञों ने आधारों की उन अनुक्रमों को संग्रहीत करने के लिए और अधिक प्रभावी तरीका डिजाइन किया है ... और उन्हें खोज और तुलना एल्गोरिदम में उपयोग करें जैसे उदाहरण के लिए गारली (www.bio.utexas.edu/faculty/antisense/garli/garli.html)। यह एप्लिकेशन अभी मेरे पीसी पर चलता है, इसलिए मैं आपको कह सकता हूं ... कि व्यावहारिक रूप से इसमें डीएनए संग्रहीत है: 1 563 एमबी

2

बस यह भी किया। कच्चा अनुक्रम ~ 700 एमबी है। यदि कोई एक निश्चित स्टोरेज अनुक्रम या एक निश्चित अनुक्रम भंडारण एल्गोरिदम का उपयोग करता है - और तथ्य यह है कि परिवर्तन 1% हैं, तो मैंने एक पेक्रोमोसोम-अनुक्रम-अनुक्रम-निर्दिष्ट स्टोरेज के साथ ~ 120 एमबी का कैलकुएटेड किया है। यह भंडारण के लिए है।

-1

बेस जोड़े के केवल 2 प्रकार हैं, साइटोसिन केवल गुआनाइन से बांध सकता है, और एडिनिन केवल थाइमाइन, से बांध सकता है इसलिए प्रत्येक बेस जोड़ी को एक बिट माना जा सकता है। इसका मतलब है कि मानव डीएनए ~ 3 बिलियन "बिट्स" का एक संपूर्ण स्ट्रैंड ~ 350 मेगाबाइट के आसपास सही होगा।

+0

आपके पास 2 प्रकार के जोड़े हैं, और वे दो दिशाओं में हो सकते हैं - इसलिए आपको प्रत्येक जोड़ी के लिए दो बिट्स की आवश्यकता है। यही कारण है कि उपरोक्त अधिकांश पोस्ट ~ 700 एमबी लिखते हैं, और 350 एमबी नहीं। – Trondster

2

उपयोगकर्ताओं को छोड़कर अधिकांश उत्तरों स्लेटन, रॉचन, पॉल एम्स्ट्रांग खराब हैं क्योंकि यह संपीड़न तकनीक के बिना एक-एक-एक शुद्ध भंडारण के बारे में है।

3 जीबी न्यूक्लियोटाइड्स के साथ मानव जीनोम बाइट्स के 3 जीबी से मेल खाता है और ~ 750 एमबी नहीं है। एनसीबीआई के अनुसार निर्मित "हैप्लाइड" जीनोम वर्तमान में 3436687 केबी या 3.436687 जीबी आकार में है। अपने लिए here देखें।

हैप्लोइड = गुणसूत्र की एक प्रति। डिप्लोइड = हैप्लोइड के दो संस्करण। मनुष्यों के पास 22 अद्वितीय गुणसूत्र x 2 = 44 हैं। पुरुष 23 वां गुणसूत्र एक्स, वाई है और कुल 46 बनाता है। महिलाओं 23 वें क्रोम। एक्स, एक्स है और इस प्रकार कुल 46 बनाता है।

पुरुषों के लिए यह एचडीडी पर डेटा स्टोरेज में 23 + 1 गुणसूत्र होगा और 23 गुणसूत्रों के लिए, अब वर्णित छोटे अंतरों और फिर जवाब में बताएगा। एक्स क्रोम। पुरुषों से एक्स क्रोम के बराबर है। मादाओं से

इस प्रकार जीनोम (23 + 1) को स्मृति में लोड करना फ्लैश-फाइलों से निर्मित डेटाबेस का उपयोग करके ब्लास्ट के माध्यम से भागों में किया जाता है। ज़िप्ड संस्करणों के बावजूद या न्यूक्लियोटाइड नहीं संकुचित होने के लिए शायद ही कभी हैं। शुरुआती दिनों में उपयोग की जाने वाली चालों में से एक टंडेम दोहराने के लिए था (छोटे कोडिंग के साथ GACGACGAC उदा। "3 जीएसी"; 9बीटी से 4byte)। कारण हार्डड्राइव स्पेस को बचाने के लिए था (7.200 आरपीएम और एससीएसआई कनेक्टर के साथ 500 बीएम -2 जीबी एचडीडीडी प्लेटर्स का क्षेत्र)।अनुक्रम खोज के लिए यह क्वेरी के साथ भी किया गया था।

"कोडित न्यूक्लियोटाइड" भंडारण पत्र प्रति 2-बिट होगा तो आप एक बाइट के लिए मिलती है:

एक = 00
सी = 01
जी = 10
टी = 11

कोडिंग के 1 बाइट के लिए केवल 1,2,3,4,5,6,7 और 8 पदों से पूरी तरह लाभ प्राप्त करते हैं। उदाहरण के लिए संयोजन 00.01.10.11 "ACTG" के अनुरूप है। यह फ़ाइल आकार में 4 गुणा कम करने के लिए अकेला है क्योंकि हम अन्य उत्तरों में देखते हैं। इस प्रकार 3.4 जीबी को 0.85 9 7175 जीबी तक घटा दिया जाएगा ... ~ 860MB एक तत्काल आवश्यक रूपांतरण कार्यक्रम (23 केबी -4 एमबी) सहित।

लेकिन ... जीवविज्ञान में आप कुछ पढ़ने में सक्षम होना चाहते हैं इस प्रकार संपीड़न gzipped पर्याप्त से अधिक है। अनजिप आप अभी भी इसे पढ़ सकते हैं। यदि इस बाइट भरने का उपयोग किया गया था तो डेटा को पढ़ने में मुश्किल हो जाती है। यही कारण है कि फास्टा-फाइलें वास्तविकता में सादे-पाठ फ़ाइलें हैं।

संबंधित मुद्दे

 संबंधित मुद्दे