2012-02-21 13 views
8

मैं लगभग Storm पढ़ रहा हूं और तूफान स्टार्टर के उदाहरणों के साथ खेल रहा हूं।तूफान का अच्छा उपयोग?

मुझे लगता है कि मुझे अवधारणा मिली है और यह कई मामलों में बहुत अच्छी तरह से लागू होती है। मेरे पास एक टेस्ट प्रोजेक्ट है जो मैं इसके बारे में अधिक जानने के लिए करना चाहता हूं, लेकिन मुझे आश्चर्य है कि तूफान इसके लिए वास्तव में उपयुक्त है या नहीं।

मेरे पास होने वाली वैचारिक समस्या 'स्ट्रीमिंग' परिभाषा के साथ है। ऐसा लगता है कि तूफान एक धारा के लिए सदस्यता लेने वाले आकर्षण के रूप में काम करेंगे और वास्तविक समय में इसे संसाधित करेंगे, लेकिन मेरे पास वास्तव में एक स्ट्रीम नहीं है, बल्कि डेटा का एक सीमित संग्रह है जिसे मैं संसाधित करना चाहता हूं।

मुझे पता है कि इसके लिए हैडूप है, लेकिन मुझे तूफान की वास्तविक समय क्षमताओं के साथ-साथ अन्य रोचक बिंदुओं में दिलचस्पी है, जो नाथन, जिन्होंने तूफान लिखा था, उनकी वार्ता में उल्लेख किया है।

तो मैं सोच रहा था, क्या लोग स्पॉट्स लिखते हैं जो गैर स्ट्रीमिंग एपीआई मतदान करते हैं और फिर परिणामों को एक धारा का अनुकरण करने के लिए अलग करते हैं?

दूसरा महत्वपूर्ण बिंदु यह है कि ऐसा लगता है कि तूफान टोपोलॉजी कभी भी बाधित होने तक प्रसंस्करण समाप्त नहीं करती है, जो मेरे मामले पर फिर से लागू नहीं होती है। मैं अपनी टोपोलॉजी को यह जानना चाहता हूं कि एक बार स्रोत डेटा की मेरी सीमित सूची समाप्त हो जाने के बाद, प्रसंस्करण समाप्त हो सकती है और अंतिम परिणाम उत्सर्जित किया जा सकता है।

तो, क्या यह सब तूफान शर्तों में समझ में आता है या क्या मैं गलत चीज़ को देख रहा हूं? यदि हां, तो इस तरह के वास्तविक समय समानांतर कंप्यूटिंग आवश्यकताओं के लिए आप किस विकल्प का प्रस्ताव देते हैं?

धन्यवाद!

उत्तर

6

storm google group में उत्तर मिला। ऐसा लगता है कि डीआरसीपी टोपोलॉजीज एक धारा के रूप में डीआरसीपी स्पॉट द्वारा प्राप्त पैरामीटर के साथ एक टुपल उत्सर्जित करेगा और फिर प्रसंस्करण समाप्त हो जाने पर वापस संकेत देगा (अनुरोध आईडी नामक अद्वितीय आईडी का उपयोग करना)।

उसी धागे में कहा गया है कि हैडूप शायद इन मामलों के लिए सबसे उपयुक्त है, जब तक कि डेटा पर्याप्त नहीं होता है और पूरी तरह से संसाधित किया जा सकता है।

0

डेटा के सीमित संग्रह को संसाधित करने के लिए तूफान का उपयोग करना निश्चित रूप से संभव है और सभी तत्वों को संसाधित करने के बाद रोकें। डीआरपीसी टोपोलॉजीज ऐसा करने का एक तरीका है, लेकिन अपना खुद का समाधान रोल करना कठिन नहीं है।

विचार यह है कि आपके परिमित डेटासेट में कौन से तत्व संसाधित किए गए हैं या नहीं, जो कि एके() और असफल() विधियों का उपयोग करके स्पॉट में आसानी से किया जाता है, का ट्रैक रखना है।

0

यदि आप एक तेज़, इंटरैक्टिव रूप से उपयोग करने योग्य और डेवलपर अनुकूल बैच प्रोसेसिंग समाधान की तलाश में हैं, तो आप तूफान के बजाय Apache Spark देख सकते हैं।

ट्रिडेंट/डीआरपीसी अधिक उपयोगी है जब आप अपने निरंतर गणना पर प्रश्नों को चलाने के लिए चाहते हैं।

संबंधित मुद्दे