में वॉटरमार्केड एकत्रीकरण क्वेरी के लिए खाली आउटपुट मैं स्पार्क 2.2.0-आरसी 1 का उपयोग करता हूं।परिशिष्ट मोड
मैं एक काफ्का topic
जो मैं एक चल वॉटरमार्क एकत्रीकरण की क्वेरी रहा हूँ, एक 1 minute
वॉटरमार्क के साथ, append
उत्पादन मोड के साथ console
के लिए बाहर दे रही है मिल गया है।
import org.apache.spark.sql.types._
val schema = StructType(StructField("time", TimestampType) :: Nil)
val q = spark.
readStream.
format("kafka").
option("kafka.bootstrap.servers", "localhost:9092").
option("startingOffsets", "earliest").
option("subscribe", "topic").
load.
select(from_json(col("value").cast("string"), schema).as("value"))
select("value.*").
withWatermark("time", "1 minute").
groupBy("time").
count.
writeStream.
outputMode("append").
format("console").
start
मैं काफ्का topic
में निम्न डेटा धक्का कर रहा हूँ:
{"time":"2017-06-07 10:01:00.000"}
{"time":"2017-06-07 10:02:00.000"}
{"time":"2017-06-07 10:03:00.000"}
{"time":"2017-06-07 10:04:00.000"}
{"time":"2017-06-07 10:05:00.000"}
और मैं निम्नलिखित उत्पादन हो रही है:
scala> -------------------------------------------
Batch: 0
-------------------------------------------
+----+-----+
|time|count|
+----+-----+
+----+-----+
-------------------------------------------
Batch: 1
-------------------------------------------
+----+-----+
|time|count|
+----+-----+
+----+-----+
-------------------------------------------
Batch: 2
-------------------------------------------
+----+-----+
|time|count|
+----+-----+
+----+-----+
-------------------------------------------
Batch: 3
-------------------------------------------
+----+-----+
|time|count|
+----+-----+
+----+-----+
-------------------------------------------
Batch: 4
-------------------------------------------
+----+-----+
|time|count|
+----+-----+
+----+-----+
इस अपेक्षित व्यवहार है?
स्पार्क 2.1 के साथ एक ही समस्या है। मैं डिस्क से एक स्ट्रीम पढ़ रहा हूं, और '.withWatermark' और groupBy (विंडो (...)) का उपयोग कर रहा हूं - कोई डेटा नहीं निकाला जा रहा है। वॉटरमार्किंग डेटा के बिना सामान्य रूप से संसाधित किया जा रहा है। –
ऐसा लगता है कि यह एक बग है ... https://issues.apache.org/jira/browse/SPARK-20065। – himanshuIIITian
@ रायनराल क्या आप वॉटरमार्किंग के बिना "पूर्ण" मोड का उपयोग कर रहे हैं और वॉटरमार्किंग के साथ "संलग्न" मोड कर रहे हैं? – zsxwing