पर लुकअप डेटा के साथ काफ्का स्ट्रीम मैं कफका स्ट्रीम (v0.10.0.1) के साथ एक एप्लीकेशन लिख रहा हूं और मैं उन रिकॉर्ड्स को समृद्ध करना चाहता हूं जिन्हें मैं लुकअप डेटा के साथ संसाधित कर रहा हूं। यह डेटा (टाइमस्टैम्प फ़ाइल) दैनिक आधार पर (या दिन में 2-3 बार) एचडीएफएस निर्देशिका में लिखा जाता है।एचडीएफएस
मैं इसे Kafka Streams
एप्लिकेशन में कैसे लोड कर सकता हूं और वास्तविक KStream
में शामिल हो सकता हूं?
जब कोई नई फ़ाइल आती है तो एचडीएफएस से डेटा को फिर से पढ़ने का सबसे अच्छा अभ्यास क्या होगा?
या यह Kafka Connect
पर बेहतर स्विचिंग होगा और आरडीबीएमएस टेबल सामग्री को एक कफका विषय में लिखना होगा जिसे सभी काफ्का स्ट्रीम एप्लिकेशन उदाहरणों से उपभोग किया जा सकता है?
अद्यतन:
के रूप में सुझाव दिया काफ्का कनेक्ट जाने का रास्ता होगा। चूंकि लुकअप डेटा को दैनिक आधार पर आरडीबीएमएस में अपडेट किया गया है, इसलिए मैं हमेशा कनेक्शन को खोलने के बजाय निर्धारित one-off job के रूप में काफ्का कनेक्ट चलाने के बारे में सोच रहा था। हां, अर्थशास्त्र और कनेक्शन को बनाए रखने के ऊपरी हिस्से के कारण हमेशा खुला रहता है और यह सुनिश्चित कर रहा है कि यह बाधित नहीं होगा .. आदि। मेरे लिए इस मामले में निर्धारित अनुसूचित जाति सुरक्षित दिखती है।
लुकअप डेटा बड़ा नहीं है और रिकॉर्ड हटाया/जोड़ा/संशोधित हो सकता है। मैं नहीं जानता कि कैसे मैं हमेशा एक कफका विषय में एक पूर्ण डंप कर सकता हूं और पिछले रिकॉर्ड को छोटा कर सकता हूं। लॉग कॉम्पैक्शन को सक्षम करना और हटाए गए कुंजियों के लिए शून्य मान भेजना शायद काम नहीं करेगा क्योंकि मुझे नहीं पता कि स्रोत सिस्टम में क्या हटा दिया गया है। इसके अतिरिक्त AFAIK जब कनेक्शन होता है तो मेरे पास नियंत्रण नहीं होता है।
मैं काफ्का कनेक्ट के विवरण से परिचित नहीं हूं, लेकिन डेटा को किसी विषय में रखने के लिए इसका उपयोग कफका स्ट्रीम के साथ संसाधित करने का अनुशंसित तरीका है। हालांकि, क्या आपके मामले के लिए यह बुरा होगा यदि रोज़ाना अपडेट लगातार चालू रहता है? एक विकल्प के रूप में, आप हमेशा प्रोसेसर एपीआई का उपयोग कर सकते हैं जो मनमाने ढंग से कोड निष्पादित करने की अनुमति देता है। हालांकि, यह उपयोग करने के लिए और अधिक प्रयास है। –