2012-09-24 27 views
16

इस सवाल से पहले पूछा जा सकता है लेकिन मुझे लगता है कि आज यह मानना ​​अच्छा है कि ये तकनीकें परिपक्व हो गई हैं। हम स्ट्रीमिंग फेसबुक और ट्विटर प्रोफाइल जानकारी को बाद में विश्लेषण करने के लिए hbase में स्ट्रीम करने के लिए फ़्लूम, काफ्का, स्क्रिप्बे, या दूसरों में से एक का उपयोग करना चाहते हैं। हम इस उद्देश्य के लिए झुंड पर विचार कर रहे हैं लेकिन मैंने एक सूचित निर्णय लेने के लिए अन्य तकनीकों के साथ काम नहीं किया है। कोई भी जो कुछ प्रकाश डाल सकता है वह बहुत अच्छा होगा! बहुत बहुत धन्यवाद।फ्लम बनाम काफ्का बनाम अन्य

+0

जब तुम, Flume के बारे में बात शायद आप Flume-एनजी की बात कर रहे? क्योंकि पुरानी झुंड flume-ng से बहुत अलग है। – Shengjie

उत्तर

18

मीडियाविकी (विकिपीडिया) इस माध्यम से चला गया और उन्होंने एक अच्छा लेख प्रकाशित किया कि वे अपनी पसंद (कफका) बनाम स्क्रिप्ट, फ्ल्यूम और अन्य में कैसे पहुंचे।

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

नई कड़ी:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation

भावी पीढ़ी के लिए सारांश:।

"हमारी सिफारिश अपाचे काफ्का, एक वितरित पब-उप संदेश प्रणाली throughput के लिए बनाया गया है हम के बारे में मूल्यांकन किया है एक दर्जन [1] वितरित लॉग संग्रह, सीईपी/स्ट्रीम प्रोसेसिंग, और रीयल-टाइम मैसेजिंग सिस्टम के डोमेन से खींची जाने वाली सर्वश्रेष्ठ प्रजनन प्रणाली। हालांकि ये सिस्टम आश्चर्यजनक पेशकश करते हैं वाई समान विशेषताएं, वे कार्यान्वयन में काफी भिन्न हैं, और प्रत्येक एक विशेष कार्य प्रोफ़ाइल के लिए विशिष्ट है (एक अधिक संपूर्ण तकनीकी चर्चा एक परिशिष्ट के रूप में उपलब्ध है)।

"काफ्का खड़ा है क्योंकि यह थ्रूपुट के लिए विशिष्ट है और इसकी वास्तुकला के सभी स्तरों में स्पष्ट रूप से वितरित किया गया है। दिलचस्प बात यह है कि संसाधन संरक्षण के साथ यह भी चिंतित है [2] समझदार ट्रेडऑफ प्रदान करने के लिए जो प्रदर्शन के बदले में गारंटी को कम करता है - कुछ जो फेसबुक या Google को उनके द्वारा डिज़ाइन किए गए सिस्टम में एक महत्वपूर्ण विशेषता के रूप में नहीं रोक सकता है। बाधाएं रचनात्मकता पैदा करती हैं।

"इसके अलावा, कफका में ऑपरेशंस पाठकों के लिए विशेष रुचि के कई लाभ हैं। जबकि यह स्कैला में लिखा गया है, यह मूल सी ++ निर्माता लाइब्रेरी के साथ जहाज करता है जिसे हमारे कैश सर्वर के लिए मॉड्यूल में एम्बेड किया जा सकता है, जो उन सर्वरों पर जेवीएम चलाने की आवश्यकता को रोकता है। दूसरा, उत्पादकों को नेटवर्क यातायात को अनुकूलित करने के लिए बैच अनुरोधों के लिए कॉन्फ़िगर किया जा सकता है, लेकिन एक सतत स्थानीय लॉग न बनाएं जिसके लिए अतिरिक्त रखरखाव की आवश्यकता होगी। काफ्का का I/O और स्मृति उपयोग JVM [3] की बजाय ओएस तक छोड़ा गया है।

"काफ्का लिंक्डइन द्वारा लिखा गया था और अब एक अपाचे प्रोजेक्ट है। लिंक्डइन में उत्पादन में लगभग 10,000 उत्पादक प्रति कैटाका सर्वर प्रति डेटासेंटर द्वारा संभाले जाते हैं। ये क्लस्टर अपनी धाराओं को एक एकल एनालिटिक्स डेटासेंटर में समेकित करते हैं, जिसे काफ्का का समर्थन करता है एक साधारण मिररिंग कॉन्फ़िगरेशन के माध्यम से बॉक्स।

"ये सुविधाएं हमारे इच्छित उपयोग मामलों के लिए उपयुक्त हैं; यहां तक ​​कि उन हम उपयोग करने का इरादा नहीं है - इस तरह के "विषय" श्रेणियों के द्वारा sharding और रूटिंग जैसी - दिलचस्प हैं और के रूप में हम अपने लक्ष्यों को विस्तार भविष्य में उपयोगी साबित हो सकता है।

"इस दस्तावेज़ का शेष अधिक विस्तार में इन विषयों में dives ..."

+0

लिंक अब टूटा हुआ प्रतीत होता है। – tehAon

संबंधित मुद्दे