2016-06-29 18 views
5

मैं pyspark 1.6.0 का उपयोग कर रहा हूँ।स्पार्क स्ट्रीमिंग - प्रसंस्करण बाइनरी डेटा फ़ाइल

मेरे पास AWS S3 बाल्टी से बाइनरी डेटा फ़ाइल पढ़ने के लिए मौजूदा पाइस्पर्क कोड है। अन्य स्पार्क/पायथन कोड int, स्ट्रिंग, बूलियन आदि में कनवर्ट करने के लिए डेटा में बिट्स को पार्स करेगा। प्रत्येक बाइनरी फ़ाइल में डेटा का एक रिकॉर्ड होता है। sc.binaryFiles ("s3n: // .......")

यह महान काम कर रहा है के रूप में इसके बारे में एक टपल (फ़ाइल नाम और देता है

PYSPARK में मैं का उपयोग कर बाइनरी फ़ाइल को पढ़ने डेटा) लेकिन मैं एक धारा के रूप में बाइनरी फ़ाइल पढ़ने के लिए समकक्ष PYSPARK स्ट्रीमिंग API खोजने की कोशिश कर रहा हूं (उम्मीद है कि फ़ाइल नाम भी हो सकता है)।

मैंने कोशिश की: binaryRecordsStream (निर्देशिका, recordLength)

लेकिन मैं इस काम के नहीं मिल सका ...

किसी को भी कुछ रोशनी साझा कर सकते हैं कैसे PYSPARK स्ट्रीमिंग बाइनरी डेटा फ़ाइल को पढ़ने?

उत्तर

0

स्पार्क स्ट्रीमिंग में, प्रासंगिक अवधारणा फ़ाइलस्ट्रीम एपीआई है, जो स्कैला और जावा में उपलब्ध है, लेकिन पायथन में नहीं - दस्तावेज़ीकरण में यहां नोट किया गया: http://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-sources। अगर आप जो फ़ाइल पढ़ रहे हैं उसे टेक्स्ट फ़ाइल के रूप में पढ़ा जा सकता है, तो आप textFileStream API

का उपयोग कर सकते हैं
संबंधित मुद्दे