में एवरो फ़ाइल को कैसे पढ़ा जाए, मैं अजगर का उपयोग कर स्पार्क नौकरी लिख रहा हूं। हालांकि, मुझे एवरो फाइलों के पूरे समूह में पढ़ने की जरूरत है।PySpark
This स्पार्क के उदाहरण फ़ोल्डर में मैंने पाया सबसे नज़दीकी समाधान है। हालांकि, आपको स्पार्क-सबमिट का उपयोग करके इस पायथन स्क्रिप्ट को सबमिट करने की आवश्यकता है। स्पार्क-सबमिट की कमांड लाइन में, आप ड्राइवर-श्रेणी निर्दिष्ट कर सकते हैं, उस स्थिति में, आपके सभी avrokey, avrovalue क्लास स्थित होगा।
avro_rdd = sc.newAPIHadoopFile(
path,
"org.apache.avro.mapreduce.AvroKeyInputFormat",
"org.apache.avro.mapred.AvroKey",
"org.apache.hadoop.io.NullWritable",
keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
conf=conf)
मेरे मामले में, मैं अजगर स्क्रिप्ट के भीतर सब कुछ चलाने के लिए की जरूरत है, मैं जार फ़ाइल शामिल करने के लिए एक वातावरण चर बनाने की कोशिश की है, उंगली पार अजगर रास्ते पर जार जोड़ देगा लेकिन स्पष्ट रूप से यह नहीं है , यह मुझे अप्रत्याशित वर्ग त्रुटि दे रहा है।
os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"
क्या कोई मेरी मदद कर सकता है कि एक पायथन लिपि में एवरो फ़ाइल कैसे पढ़ा जाए?