मेरे पास एक आरडीडी है जिसमें बाइनरी डेटा है। मैं 'RDD.pipe' को पाइप में उपयोग करना चाहता हूं कि बाइनरी डेटा बाहरी प्रोग्राम में है जो इसे स्ट्रिंग/टेक्स्ट डेटा में अनुवाद करेगा। दुर्भाग्यवश, ऐसा लगता है कि स्पार्क बाइनरी डेटा को बाहरी कार्यक्रम में पारित होने से पहले उलझ रहा है।अपाचे स्पार्क में 'पाइप' बाइनरी डेटा कैसे करें
यह कोड मैं जो करने का प्रयास कर रहा हूं उसका प्रतिनिधि है। मैं क्या गलत कर रहा हूं? मैं स्पार्क में बाइनरी डेटा कैसे पाइप कर सकता हूं?
bin = sc.textFile("binary-data.dat")
csv = bin.pipe ("/usr/bin/binary-to-csv.sh")
csv.saveAsTextFile("text-data.csv")
विशेष रूप से, मैं स्पार्क उपयोग करने के लिए पाठ/सीएसवी को PCAP (पैकेट पर कब्जा) डेटा को बदलने के लिए इतना है कि मैं इस पर एक विश्लेषण प्रदर्शन कर सकते हैं कोशिश कर रहा हूँ।
रुको, क्या आपके पास आरडीडी है जिसमें बाइनरी डेटा है, या क्या आपको इसे बनाने के लिए बाहरी प्रोग्राम चलाने की आवश्यकता है? कार्यक्रम चला रहा है ** एक बार ** आपके पास द्विआधारी डेटा है एक क्लासिक सवाल है। – huitseeker
मेरे पास बाइनरी डेटा है और टेक्स्ट डेटा बनाने की आवश्यकता है। –
हां, लेकिन क्या आपने इसे आरडीडी में लोड करने में कामयाब रहे हैं, क्योंकि आपके प्रश्न की शुरुआत से पता चलता है (लेकिन आपके उत्तर के सुझाव के विपरीत)? – huitseeker