2013-01-25 13 views
13

पर बैठे डेटा का विश्लेषण और खनन हमारे पास कैसंड्रा में संग्रहीत विभिन्न वेबसाइटों जैसे कुकीज़, पेज-विज़िट, विज्ञापन-देखे गए, विज्ञापन-क्लिक आदि आदि से बहुत से उपयोगकर्ता इंटरैक्शन डेटा हैं। हम करना चाहते हैं पर रिपोर्टिंग हमारा वर्तमान कैसंद्रा स्कीमा बुनियादी रिपोर्टिंग और पूछताछ का समर्थन करता है। हालांकि हम बड़े प्रश्नों को भी बनाना चाहते हैं जो आम तौर पर बड़े कॉलम परिवारों (लाखों पंक्तियों वाले) पर शामिल हों।कैसंड्रा

इस के लिए सबसे अच्छा तरीका क्या है? एक संभावना है कि डेटा को मेरे एसक्यूएलएल जैसे रिलेशनल डेटाबेस में निकालें और डेटा खनन करें। वैकल्पिक उद्देश्य इस उद्देश्य के लिए नक्शा कम करने के लिए हाइव या सुअर के साथ हैडूप का उपयोग करने का प्रयास किया जा सकता है? मुझे स्वीकार करना होगा कि बाद वाले के साथ मेरा शून्य अनुभव है।

किसी को भी एक बनाम दूसरे में प्रदर्शन अंतर का अनुभव है? क्या आप लिखने के प्रदर्शन को प्रभावित करने से क्वेरी लोड को रोकने के लिए लाइव कैसंड्रा उत्पादन उदाहरण या बैकअप प्रतिलिपि पर प्रश्नों को कम करते हैं?

उत्तर

8

प्रकटीकरण: मैं डेटास्टैक्स पर एक इंजीनियर हूं।

चार्ल्स के सुझावों के अतिरिक्त, आप DataStax Enterprise (डीएसई) में देखना चाहते हैं, जो हैडोप, हाइव, पिग और महाउट के साथ कैसंद्रा का एक अच्छा एकीकरण प्रदान करता है।

जैसा कि चार्ल्स ने उल्लेख किया है, आप अपने एनालिटिक्स को सीधे कैसंड्रा नोड्स के खिलाफ नहीं चलाना चाहते हैं जो आपके वास्तविक समय की एप्लिकेशन जरूरतों को पूरा कर रहे हैं क्योंकि उनके प्रदर्शन पर काफी प्रभाव पड़ सकता है। इससे बचने के लिए, डीएसई आपको कई वर्चुअल "डेटासेंटर" (शब्द की NetworkToplogyStrategy भावना में) का उपयोग कर अपने क्लस्टर के हिस्से को सख्ती से विश्लेषण करने की अनुमति देता है। हडोप नौकरी के हिस्से के रूप में किए गए प्रश्नों से केवल उन नोड्स को प्रभावित किया जाएगा, जो अनिवार्य रूप से आपके सामान्य कैसंड्रा नोड्स को अप्रभावित छोड़ देते हैं। इसके अतिरिक्त, आप अपनी प्रदर्शन आवश्यकताओं के आधार पर अलग-अलग क्लस्टर के प्रत्येक भाग को ऊपर या नीचे स्केल कर सकते हैं।

डीएसई दृष्टिकोण में कुछ अपवाद हैं। पहला यह है कि आपको अपने डेटा को संसाधित करने से पहले किसी भी ईटीएल को करने की आवश्यकता नहीं है; कैसंद्रा की सामान्य प्रतिकृति तंत्र अद्यतित एनालिटिक्स को समर्पित नोड्स को रखती है। दूसरा, आपको बाहरी हडोप क्लस्टर की आवश्यकता नहीं है। डीएसई में सीएफएस (कैसंड्राफेस) नामक एचडीएफएस के लिए एक ड्रॉप-इन प्रतिस्थापन शामिल है, इसलिए सभी स्रोत डेटा, मध्यवर्ती परिणाम, और एक हडोप नौकरी से अंतिम परिणाम कैसंद्रा क्लस्टर में संग्रहीत किए जा सकते हैं।

+0

हाय टायलर, बहुत बहुत धन्यवाद! आपने एक बेहद दिलचस्प परिप्रेक्ष्य लाया है! क्या आप मुझे कुछ दस्तावेजों पर इंगित कर सकते हैं जो डीएसई की कैसंड्रा क्लस्टर के एक हिस्से को विश्लेषिकी में समर्पित करने की क्षमता बताते हैं? –

+0

मुझे एक पृष्ठ खोजने में परेशानी हो रही है जो इसे सारांशित करती है, लेकिन [नेटवर्क टोपोलॉजीस्ट्रेटी] [http://www.datastax.com/docs/1.1/cluster_architecture/replication#networktopologystrategy) के बारे में पढ़ें (यदि आप इससे परिचित नहीं हैं)। सीएफएस डेटा में केवल "डीसी" एनालिटिक्स में प्रतिकृतियां हैं, और कैसंड्रा डेटा में दोनों में प्रतिकृतियां हैं। सामान्य कैसंद्रा नोड LOCAL_QUORUM पर लिख सकते हैं, और विश्लेषिकी नोड LOCAL_QUORUM पर पढ़ सकते हैं, इसलिए न तो डीसी दूसरे के प्रदर्शन को बहुत प्रभावित करेगा। यह भी उपयोगी हो सकता है: http://www.datastax.com/docs/1.1/cluster_architecture/about_client_requests –

+0

धन्यवाद टायलर, मैं इस विषय पर पढ़ने में सक्षम था और इससे हमारी कई समस्याएं हल हो जाती हैं। हम निश्चित रूप से इस दृष्टिकोण के साथ प्रयास करेंगे और आगे बढ़ेंगे। –

13

मेरे अनुभव में कैसंद्रा उन प्रक्रियाओं के लिए बेहतर अनुकूल है जहां आपको अपने डेटा में रीयल-टाइम पहुंच की आवश्यकता होती है, तेज़ यादृच्छिक पढ़ता है और आमतौर पर बड़े ट्रैफिक लोड को संभालता है। हालांकि, यदि आप जटिल विश्लेषण करना शुरू करते हैं, तो आपके कैसंद्रा क्लस्टर की उपलब्धता शायद ध्यान से पीड़ित होगी। आम तौर पर मैंने देखा है कि यह अकेले कैसंद्रा क्लस्टर को छोड़ने के लिए आपकी सबसे अच्छी रुचि है, अन्यथा उपलब्धता पीड़ित होती है।

लगता है जैसे आपको एक एनालिटिक्स प्लेटफ़ॉर्म की आवश्यकता है, और मैं निश्चित रूप से ऑफ़लाइन डेटा-वेयरहाउस सिस्टम में उपयोग करने के लिए कैसंड्रा से अपने रिपोर्टिंग डेटा को निर्यात करने की सलाह दूंगा।

यदि आप इसे बर्दाश्त कर सकते हैं, तो असली डेटा-वेयरहाउस होने से आप गुणक तालिकाओं पर जटिल जुड़ने के साथ जटिल प्रश्न पूछ सकते हैं।

  • Netezza
  • एस्टर/Teradata
  • वर्टिका

हाल ही में एक: इन आंकड़ों-गोदाम सिस्टम व्यापक रूप से रिपोर्ट करने के लिए उपयोग किया जाता है, यहाँ प्रमुख खिलाड़ियों मेरी राय में क्या कर रहे हैं की एक सूची है जो बहुत अधिक गति प्राप्त कर रहा है वह Amazon Redshift है, लेकिन यह वर्तमान में बीटा में है, लेकिन यदि आप इसे अपने हाथों में प्राप्त कर सकते हैं तो आप इसे एक कोशिश कर सकते हैं क्योंकि यह एक ठोस एनालिटिक्स प्लेटफॉर्म जैसा दिखता है जिसमें मूल्य निर्धारण ऊपर की तुलना में अधिक आकर्षक है समाधान की।

हडोप मैपरेडस/हाइव/पिग का उपयोग करने वाले विकल्प भी देखना दिलचस्प है, लेकिन शायद हडोप प्रौद्योगिकियों के प्रतिस्थापन नहीं है। यदि आपके पास SQL ​​पृष्ठभूमि है तो मैं हाइव की अनुशंसा करता हूं क्योंकि यह समझना बहुत आसान होगा कि आप क्या कर रहे हैं और आप आसानी से स्केल कर सकते हैं। हडोप के साथ वास्तव में पहले से ही पुस्तकालयों को एकीकृत किया गया है, जैसे Apache Mahout, जो आपको हडोप क्लस्टर पर डेटा-खनन करने की अनुमति देता है, आपको निश्चित रूप से यह प्रयास करना चाहिए और देखें कि यह आपकी आवश्यकताओं के अनुरूप है या नहीं।

आपको एक विचार देने के लिए, मैंने जिस दृष्टिकोण का उपयोग किया है, वह अब तक काम कर रहा है, परिणाम हाइव में परिणामों को पूर्व-समेकित कर रहा है और फिर खुद को जटिल जोड़ों की गणना करने के लिए नेटेजज़ा जैसे डाटा-गोदाम में उत्पन्न रिपोर्टें हैं ।

+1

आपकी अंतर्दृष्टिपूर्ण टिप्पणियों के लिए बहुत बहुत धन्यवाद। मैं वास्तव में एक और लेख में आया [यहां।] (Https://www.quantivo.com/blog/top-5-reasons-not-use-hadoop-analytics)। हाइव/हडूप के उपयोग के मामले में वहां आपके विचार गूंजते हैं। अब मैं पूर्व-समेकित डेटा के लिए हडूप/हाइव/सुअर का उपयोग करने पर विश्वास करता हूं और फिर विश्लेषण के लिए एक रिलेशनल डेटा वेयरहाउस में डंप करने का सही तरीका है। –

संबंधित मुद्दे