मेरे अनुभव में कैसंद्रा उन प्रक्रियाओं के लिए बेहतर अनुकूल है जहां आपको अपने डेटा में रीयल-टाइम पहुंच की आवश्यकता होती है, तेज़ यादृच्छिक पढ़ता है और आमतौर पर बड़े ट्रैफिक लोड को संभालता है। हालांकि, यदि आप जटिल विश्लेषण करना शुरू करते हैं, तो आपके कैसंद्रा क्लस्टर की उपलब्धता शायद ध्यान से पीड़ित होगी। आम तौर पर मैंने देखा है कि यह अकेले कैसंद्रा क्लस्टर को छोड़ने के लिए आपकी सबसे अच्छी रुचि है, अन्यथा उपलब्धता पीड़ित होती है।
लगता है जैसे आपको एक एनालिटिक्स प्लेटफ़ॉर्म की आवश्यकता है, और मैं निश्चित रूप से ऑफ़लाइन डेटा-वेयरहाउस सिस्टम में उपयोग करने के लिए कैसंड्रा से अपने रिपोर्टिंग डेटा को निर्यात करने की सलाह दूंगा।
यदि आप इसे बर्दाश्त कर सकते हैं, तो असली डेटा-वेयरहाउस होने से आप गुणक तालिकाओं पर जटिल जुड़ने के साथ जटिल प्रश्न पूछ सकते हैं।
- Netezza
- एस्टर/Teradata
- वर्टिका
हाल ही में एक: इन आंकड़ों-गोदाम सिस्टम व्यापक रूप से रिपोर्ट करने के लिए उपयोग किया जाता है, यहाँ प्रमुख खिलाड़ियों मेरी राय में क्या कर रहे हैं की एक सूची है जो बहुत अधिक गति प्राप्त कर रहा है वह Amazon Redshift है, लेकिन यह वर्तमान में बीटा में है, लेकिन यदि आप इसे अपने हाथों में प्राप्त कर सकते हैं तो आप इसे एक कोशिश कर सकते हैं क्योंकि यह एक ठोस एनालिटिक्स प्लेटफॉर्म जैसा दिखता है जिसमें मूल्य निर्धारण ऊपर की तुलना में अधिक आकर्षक है समाधान की।
हडोप मैपरेडस/हाइव/पिग का उपयोग करने वाले विकल्प भी देखना दिलचस्प है, लेकिन शायद हडोप प्रौद्योगिकियों के प्रतिस्थापन नहीं है। यदि आपके पास SQL पृष्ठभूमि है तो मैं हाइव की अनुशंसा करता हूं क्योंकि यह समझना बहुत आसान होगा कि आप क्या कर रहे हैं और आप आसानी से स्केल कर सकते हैं। हडोप के साथ वास्तव में पहले से ही पुस्तकालयों को एकीकृत किया गया है, जैसे Apache Mahout, जो आपको हडोप क्लस्टर पर डेटा-खनन करने की अनुमति देता है, आपको निश्चित रूप से यह प्रयास करना चाहिए और देखें कि यह आपकी आवश्यकताओं के अनुरूप है या नहीं।
आपको एक विचार देने के लिए, मैंने जिस दृष्टिकोण का उपयोग किया है, वह अब तक काम कर रहा है, परिणाम हाइव में परिणामों को पूर्व-समेकित कर रहा है और फिर खुद को जटिल जोड़ों की गणना करने के लिए नेटेजज़ा जैसे डाटा-गोदाम में उत्पन्न रिपोर्टें हैं ।
स्रोत
2013-01-26 01:07:28
हाय टायलर, बहुत बहुत धन्यवाद! आपने एक बेहद दिलचस्प परिप्रेक्ष्य लाया है! क्या आप मुझे कुछ दस्तावेजों पर इंगित कर सकते हैं जो डीएसई की कैसंड्रा क्लस्टर के एक हिस्से को विश्लेषिकी में समर्पित करने की क्षमता बताते हैं? –
मुझे एक पृष्ठ खोजने में परेशानी हो रही है जो इसे सारांशित करती है, लेकिन [नेटवर्क टोपोलॉजीस्ट्रेटी] [http://www.datastax.com/docs/1.1/cluster_architecture/replication#networktopologystrategy) के बारे में पढ़ें (यदि आप इससे परिचित नहीं हैं)। सीएफएस डेटा में केवल "डीसी" एनालिटिक्स में प्रतिकृतियां हैं, और कैसंड्रा डेटा में दोनों में प्रतिकृतियां हैं। सामान्य कैसंद्रा नोड LOCAL_QUORUM पर लिख सकते हैं, और विश्लेषिकी नोड LOCAL_QUORUM पर पढ़ सकते हैं, इसलिए न तो डीसी दूसरे के प्रदर्शन को बहुत प्रभावित करेगा। यह भी उपयोगी हो सकता है: http://www.datastax.com/docs/1.1/cluster_architecture/about_client_requests –
धन्यवाद टायलर, मैं इस विषय पर पढ़ने में सक्षम था और इससे हमारी कई समस्याएं हल हो जाती हैं। हम निश्चित रूप से इस दृष्टिकोण के साथ प्रयास करेंगे और आगे बढ़ेंगे। –