चिंगारी संरचित स्ट्रीमिंग का प्रलेखन से: "यह चौकी स्थान एक HDFS संगत फाइल सिस्टम में एक रास्ता हो गया है, और जब एक शुरू करने DataStreamWriter
में एक विकल्प के रूप में स्थापित किया जा सकता है क्वेरी। "अपाचे स्पार्क (स्ट्रीमिंग संरचित): S3 चेकप्वाइंट समर्थन
और यकीन है कि पर्याप्त, एक S3 पथ के लिए चौकी स्थापित करने फेंकता है:
17/01/31 21:23:56 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints/metadata, expected: hdfs://xxxx:8020
java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints/metadata, expected: hdfs://xxxx:8020
at org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:652)
at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:194)
at org.apache.hadoop.hdfs.DistributedFileSystem.access$000(DistributedFileSystem.java:106)
at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1305)
at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1301)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1301)
at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1430)
at org.apache.spark.sql.execution.streaming.StreamMetadata$.read(StreamMetadata.scala:51)
at org.apache.spark.sql.execution.streaming.StreamExecution.<init>(StreamExecution.scala:100)
at org.apache.spark.sql.streaming.StreamingQueryManager.createQuery(StreamingQueryManager.scala:232)
at org.apache.spark.sql.streaming.StreamingQueryManager.startQuery(StreamingQueryManager.scala:269)
at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:262)
at com.roku.dea.spark.streaming.FactDeviceLogsProcessor$.main(FactDeviceLogsProcessor.scala:133)
at com.roku.dea.spark.streaming.FactDeviceLogsProcessor.main(FactDeviceLogsProcessor.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:637)
17/01/31 21:23:56 INFO SparkContext: Invoking stop() from shutdown hook
सवालों की एक जोड़ी यहाँ:
- (क्यों एक चौकी dir रूप में समर्थित नहीं S3 है नियमित रूप से चिंगारी स्ट्रीमिंग का समर्थन इस)? एक फाइल सिस्टम "एचडीएफएस अनुपालन" बनाता है?
- मैं एचडीएफएस का उपयोग करता हूं (चूंकि क्लस्टर हर समय ऊपर या नीचे आ सकते हैं) और एस 3 का उपयोग सभी डेटा को जारी रखने के लिए स्थान के रूप में करते हैं - इस तरह के सेटअप में संरचित स्ट्रीमिंग डेटा के लिए चेकपॉइंटिंग डेटा संग्रहीत करने के लिए सिफारिशें क्या होंगी?
शुद्ध अनुमान यहां है लेकिन आपने एस 3 एन या एस 3 ए (अधिमानतः एस 3 ए) प्रोटोकॉल की कोशिश की है? – ImDarrenG
निश्चित रूप से लायक और प्रयास, इसे आजमाएगा। – Apurva