मैं क्लासिक ईटीएल काम करने के लिए PySpark उपयोग कर रहा हूँ (लोड डाटासेट, प्रक्रिया, यह बचाने के लिए) द्वारा विभाजित DataFrame बचाने के लिए और फ़ाइलें/निर्देशिका एक "आभासी" कॉलम के आधार पर विभाजित के रूप में मेरे Dataframe सहेजना चाहते ; क्या मैं "आभासी" मतलब है कि मैं एक स्तंभ समय-चिह्न है जो एक आईएसओ 8601 इनकोडिंग तारीख युक्त एक स्ट्रिंग है, और मुझे वर्ष/माह/दिन से विभाजन करना चाहते हैं है; लेकिन मेरे पास वास्तव में डेटाफ्रेम में वर्ष, महीना या दिन कॉलम नहीं है; मैं इस समय-चिह्न है जहाँ से मैं इन स्तंभों हालांकि प्राप्त कर सकते हैं, लेकिन मैं अपने परिणाम आइटम इन स्तंभों में से एक धारावाहिक के लिए नहीं करना चाहती।स्पार्क: "आभासी" स्तंभ
फ़ाइल संरचना डिस्क पर DataFrame बचत की तरह दिखना चाहिए से उत्पन्न:
/
year=2016/
month=01/
day=01/
part-****.gz
वहाँ स्पार्क/Pyspark साथ जो मैं चाहता करने के लिए एक तरीका है?
मैं अजगर के लिए नया हूं। क्या पथ = वर्ष, और दिन = पथ के बिना ऐसा करने का कोई तरीका है? मैं इनमें से अधिकांश को समझता हूं – deanw