का उपयोग कर tuples की सूची से डेटाफ्रेम बनाएं, मैं सरल-बिक्री बल पैकेज का उपयोग करके एसएफडीसी से निकाले गए डेटा के साथ काम कर रहा हूं। मैं स्क्रिप्टिंग और स्पार्क 1.5.2 के लिए पायथन 3 का उपयोग कर रहा हूं।pyspark
मैं निम्न डेटा युक्त एक RDD बनाया: RDD में
[('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')]
[('Id', 'a0w1a0000003xAAI'), ('PackSize', 1.0), ('Name', 'B')]
[('Id', 'a0w1a00000xB3AAI'), ('PackSize', 30.0), ('Name', 'C')]
...
इस डेटा है कहा जाता v_rdd
मेरे स्कीमा इस तरह दिखता है:
StructType(List(StructField(Id,StringType,true),StructField(PackSize,StringType,true),StructField(Name,StringType,true)))
मैं DataFrame बनाने के लिए कोशिश कर रहा हूँ इस आरडीडी में से:
sqlDataFrame = sqlContext.createDataFrame(v_rdd, schema)
मैं अपने DataFrame प्रिंट:
sqlDataFrame.printSchema()
और निम्नलिखित मिलती है:
+--------------------+--------------------+--------------------+
| Id| PackSize| Name|
+--------------------+--------------------+--------------------+
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
मैं, वास्तविक डेटा देखने की उम्मीद कर रहा हूँ इस तरह:
+------------------+------------------+--------------------+
| Id|PackSize| Name|
+------------------+------------------+--------------------+
|a0w1a0000003xB1A | 1.0| A |
|a0w1a0000003xAAI | 1.0| B |
|a0w1a00000xB3AAI | 30.0| C |
आप कृपया मुझे पहचान मदद कर सकते हैं मैं यहाँ क्या गलत कर रहा हूँ।
मेरी पायथन लिपि लंबी है, मुझे यकीन नहीं है कि लोगों के माध्यम से इसे छोड़ना सुविधाजनक होगा, इसलिए मैंने केवल उन हिस्सों को पोस्ट किया जिनके साथ मुझे समस्या है।
अग्रिम में एक टन धन्यवाद!