2010-01-21 15 views
15

क्या कोई जानता है कि Google Analytics में डेटा कैसे व्यवस्थित किया जाता है? बड़ी मात्रा में डेटा से कठिन चयन वे बहुत तेज़ी से करते हैं, डेटाबेस की कौन सी संरचना है?Google Analytics डेटाबेस

+1

मुझे लगता है कि Google के लिए काम कर रहे अधिकांश डेवलपर्स ने किसी प्रकार का गैर प्रकटीकरण समझौता गाया है और इसके बारे में बात करने की अनुमति नहीं है। – Kolky

+0

नीचे दिए गए उत्तर जानकारीपूर्ण हैं, लेकिन मैं अभी भी सोच रहा हूं कि वे उस डेटा को कैसे व्यवस्थित करते हैं? क्या वे रीयल-टाइम मैप/कम कर रहे हैं, या पहले से गणना किए गए सभी स्कोर हैं? यदि उत्तरार्द्ध, फिर, वे इसे व्यवस्थित कैसे करते हैं, क्योंकि एपीआई जटिल फिल्टर और 7 आयामों को समूहीकृत करने की अनुमति देता है? –

उत्तर

1

Google पोर्टफोलियो में कई स्थान और एप्लिकेशन मैड्रिडस एल्गोरिदम का उपयोग बड़ी मात्रा में डेटा के भंडारण और प्रसंस्करण के लिए करते हैं।

अधिक जानकारी के लिए Google Research Publications on MapReduce देखें और यह भी this आधारभूत लेख के page 4 पर एक नज़र और page 5 है।

11

AFAIK गूगल एनालिटिक्स अर्चिन से ली गई है का उपयोग मान चाहते हैं। जैसा कि कहा गया है कि यह संभव है कि अब से Analytics Google परिवार का हिस्सा है, यह MapReduce/BigTable का उपयोग कर रहा है। मैं मान सकता हूं कि Google ने नए बिगटेबल/मैपराइडस के साथ उर्चिन डीबी के पुराने प्रारूप को एकीकृत किया था।

मुझे यह लिंक मिला जो Urchin डीबी के बारे में बात करते हैं। शायद इस समय कुछ चीजें अभी भी उपयोग में हैं।

http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/

इस कहते हैं:

[कटाव] ... अभी भी एक मालिकाना डेटाबेस डेटा है, जो बनाता है तदर्थ में थोड़ा और अधिक सीमित प्रश्नों रिपोर्टिंग स्टोर करने के लिए उपयोग करते हैं, के बाद से आप का उपयोग करने के लिए है अधिक लचीला SQL उपकरण की बजाय Urchin- विकसित उपकरण।

http://www.urchinexperts.com/software/faq/#ques45

अर्चिन डेटाबेस किस प्रकार उपयोग करता है?

Urchin रिपोर्ट डेटा संग्रहण के लिए एक मालिकाना फ्लैट फ़ाइल डेटाबेस का उपयोग करता है। उच्च प्रदर्शन डेटाबेस आर्किटेक्चर कुशलता से बहुत अधिक यातायात साइटों को संभालता है। डेटा बेस वास्तुकला के लाभों में से कुछ में शामिल हैं: अर्चिन के बारे में

* Small database footprint approximately 5-10% of raw logfile size 
* Small number of database files required per profile (9 per month of historical reporting) 
* Support for parallel processing of load-balanced webserver logs for increased performance 
* Databases are standard files that are easy to back up and restore using native operating system utilitiesv 

अधिक जानकारी

http://www.google.com/support/urchin45/bin/answer.py?answer=28737

बहुत समय पहले मैं एक ट्रैकर और अपनी साइट पर वे डेटा सामान्यीकरण के बारे में चर्चा कर रहे थे किया करते थे : http://www.2enetworx.com/dev/articles/statisticus5.asp

वहां आप डीबी में डेटा को कम करने के बारे में कुछ जानकारी प्राप्त कर सकते हैं और शायद यह अनुसंधान में एक अच्छी शुरुआत है।

3

BigTable

गूगल प्रकाशन: चांग, ​​फे, एट अल। "Bigtable: A distributed storage system for structured data." कंप्यूटर सिस्टम्स पर एसीएम लेन-देन (TOCS) 26.2 (2008):

बिगटेबल से अधिक साठ Google उत्पादों और परियोजनाओं द्वारा प्रयोग किया जाता है, गूगल एनालिटिक्स, Google वित्त, ऑर्कुट सहित , निजीकृत खोजें, राइटली, और Google धरती।