1) हम संरचित स्ट्रीमिंग का उपयोग करके कफका से उपभोग कर रहे हैं और संसाधित डेटा सेट को एस 3 पर लिख रहे हैं। हम भी संसाधित डेटा को कफका आगे बढ़ाना चाहते हैं, क्या यह एक ही स्ट्रीमिंग क्वेरी से करना संभव है? (स्पार्क संस्करण 2.1.1)स्पार्क संरचित स्ट्रीमिंग: एकाधिक सिंक
2) लॉग में, मुझे स्ट्रीमिंग क्वेरी प्रगति आउटपुट दिखाई देता है और मेरे पास लॉग से जेएसओएन नमूना अवधि है, क्या कोई कृपया एडबैच के बीच अंतर के बारे में अधिक स्पष्टता प्रदान कर सकता है और getBatch?
3) ट्रिगर एक्सेक्यूशन - क्या यह समय निकाला गया डेटा संसाधित करने और सिंक को लिखने का समय है?
"durationMs" : {
"addBatch" : 2263426,
"getBatch" : 12,
"getOffset" : 273,
"queryPlanning" : 13,
"triggerExecution" : 2264288,
"walCommit" : 552
},
संबंध aravias
धन्यवाद, आप कृपया स्पष्ट कर सकते हैं निम्नलिखित - जब एक डेटासेट एक स्रोत विषय से बनाए लिखने के लिए दोनों S3 और काफ्का की जांच की ओर इशारा करते हैं, उन डूब से प्रत्येक के लिए अलग से निर्दिष्ट किया जाना है तो यह उचित होगा उम्मीद है कि डेटा को स्रोत स्रोत से दो बार पढ़ा जाएगा, भले ही उस स्रोत से बनाए गए समान डेटासेट का उपयोग इन 2 diff सिंकों को लिखने के लिए किया जाए? – user2221654
यदि आपके पास दो सिंक हैं, तो इसका मतलब है कि आपके पास दो प्रश्न हैं। प्रत्येक प्रश्न का अपना काफ्का उपभोक्ता होता है और स्वतंत्र रूप से काफ्का से डेटा प्राप्त करता है। – zsxwing