मैं pyspark 1.6.0 का उपयोग कर रहा हूँ।स्पार्क स्ट्रीमिंग - प्रसंस्करण बाइनरी डेटा फ़ाइल
मेरे पास AWS S3 बाल्टी से बाइनरी डेटा फ़ाइल पढ़ने के लिए मौजूदा पाइस्पर्क कोड है। अन्य स्पार्क/पायथन कोड int, स्ट्रिंग, बूलियन आदि में कनवर्ट करने के लिए डेटा में बिट्स को पार्स करेगा। प्रत्येक बाइनरी फ़ाइल में डेटा का एक रिकॉर्ड होता है। sc.binaryFiles ("s3n: // .......")
यह महान काम कर रहा है के रूप में इसके बारे में एक टपल (फ़ाइल नाम और देता है
PYSPARK में मैं का उपयोग कर बाइनरी फ़ाइल को पढ़ने डेटा) लेकिन मैं एक धारा के रूप में बाइनरी फ़ाइल पढ़ने के लिए समकक्ष PYSPARK स्ट्रीमिंग API खोजने की कोशिश कर रहा हूं (उम्मीद है कि फ़ाइल नाम भी हो सकता है)।
मैंने कोशिश की: binaryRecordsStream (निर्देशिका, recordLength)
लेकिन मैं इस काम के नहीं मिल सका ...
किसी को भी कुछ रोशनी साझा कर सकते हैं कैसे PYSPARK स्ट्रीमिंग बाइनरी डेटा फ़ाइल को पढ़ने?