मुझे 1 टीबी + वेब एक्सेस लॉग का विश्लेषण करने की आवश्यकता है, और विशेष रूप से मुझे अनुरोध किए गए यूआरएल और यूआरएल (बाल शाखाओं) के सबसेट से संबंधित आंकड़ों का विश्लेषण करने की आवश्यकता है। यदि संभव हो, तो मैं डेटा के छोटे सबसेट (जैसे 10 मिलियन अनुरोध) पर प्रश्नों को तेज़ करना चाहता हूं।पेड़ों को स्टोर और पूछने का सबसे प्रभावी तरीका क्या है?
उदाहरण के लिए, निम्न URL के साथ एक पहुँच लॉग दी अनुरोध किया जा रहा:
/ocp/about_us.html
/ocp/security/ed-209/patches/urgent.html
/ocp/security/rc/
/ocp/food/
/weyland-yutani/products/
मैं जैसे प्रश्नों क्या करना चाहते हैं:
- गणना 'नीचे' सब कुछ के लिए अनुरोध की संख्या/ओसीपी।
- उपर्युक्त जैसा ही है, लेकिन केवल/ocp/security
- के अंतर्गत बाल नोड्स के लिए अनुरोधों की गणना करें शीर्ष 5 सबसे अधिक बार अनुरोध किए गए URL लौटें।
- के रूप में ऊपर ही, एक मनमाना गहराई से समूह के अलावा,
उदा ऊपर पिछले क्वेरी के लिए, डेटा के लिए गहराई 2 वापसी होगी:
2: /ocp/security/
1: /ocp/
1: /ocp/food/
1: /weyland-yutani/products/
मुझे लगता है कि आदर्श दृष्टिकोण शायद एक स्तंभ डीबी का उपयोग करें और यूआरएल के प्रत्येक तत्व के लिए एक स्तंभ है ऐसी है कि वहाँ यूआरएल tokenize होगा । हालांकि, यदि संभव हो तो मैं ओपन सोर्स ऐप्स के साथ ऐसा करने का एक तरीका खोजना चाहूंगा। एचबीएएस एक संभावना है, लेकिन वास्तविक प्रदर्शन प्रश्नों के लिए क्वेरी प्रदर्शन बहुत धीमा प्रतीत होता है (साथ ही, मैं वास्तव में एसक्यूएल को पुन: कार्यान्वित करने के व्यवसाय में नहीं होना चाहता)
मुझे पता है कि वाणिज्यिक हैं इस प्रकार के एनालिटिक्स करने के लिए ऐप्स, लेकिन विभिन्न कारणों से मैं इसे स्वयं लागू करना चाहता हूं।
अच्छी प्रस्तुति, धन्यवाद! – Rob