2015-10-05 4 views
17

मुझे एक पुस्तकालय खोजने में परेशानी हो रही है जो पाइथन का उपयोग करके लकड़ी की फ़ाइलों को लिखे जाने की अनुमति देता है। बोनस पॉइंट्स यदि मैं स्नैपी या इसी तरह के संपीड़न तंत्र का उपयोग कर इसके साथ संयोजन कर सकता हूं।पायथन का उपयोग कर लकड़ी की फाइलें लिखने के तरीके?

अब तक मुझे मिली एकमात्र विधि स्पार्क का उपयोग pyspark.sql.DataFrame लकड़ी के समर्थन के साथ कर रही है।

मेरे पास कुछ स्क्रिप्ट हैं जिन्हें स्पार्क नौकरियां नहीं हैं जो लकड़ी की फाइलें लिखने की आवश्यकता है। क्या पाइथन में लकड़ी की फाइलें लिखने का कोई दृष्टिकोण है जिसमें pyspark.sql शामिल नहीं है?

+0

ऐसा लगता है कि लकड़ी प्रारूप thirft परिभाषा फ़ाइलें आप इस का उपयोग नहीं कर इसे उपयोग करने में है के लिए डेटा लिखने के लिए है? – Srgrn

उत्तर

12

अद्यतन (मार्च 2017): वर्तमान में में सक्षम पुस्तकालयों लकड़ी फ़ाइलें लिख रहे हैं:

  1. fastparquet
  2. pyarrow

उन दोनों अभी भी किया जा रहा है ऐसा लगता है कि भारी विकास और वे कई अस्वीकरण के साथ आते हैं (कोई समर्थक नहीं टी नेस्टेड डेटा के लिए उदा।), इसलिए आपको यह जांचना होगा कि वे आपकी आवश्यक चीज़ों का समर्थन करते हैं या नहीं।

पुराने उत्तर:

2,2016 के रूप में वहाँ कोई अजगर-केवल के लेखन पुस्तकालय सक्षम लकड़ी फ़ाइलों हो रहा है।

यदि आपको केवल पढ़ने की आवश्यकता है पैराक्वेट फाइलें python-parquet है।

एक कामकाज के रूप में आपको कुछ अन्य प्रक्रियाओं पर भरोसा करना होगा जैसे उदा। pyspark.sql (जो पीई 4 जे का उपयोग करता है और जेवीएम पर चलता है और इस प्रकार सीधे आपके औसत सीपीथॉन प्रोग्राम से उपयोग नहीं किया जा सकता है)।

+1

यदि आपको बैच में एकाधिक डीएफएस लिखने जैसी मौजूदा फ़ाइलों में डेटा जोड़ने में सक्षम होना चाहिए, तो फास्टपरक्वेट चाल करता है। मुझे पायरो में संलग्न करने का एक भी उल्लेख नहीं मिला और ऐसा लगता है कि कोड इसके लिए तैयार नहीं है (मार्च 2017)। – Kieleth

4

fastparquet कर लिखने का समर्थन है, यहाँ एक टुकड़ा एक फ़ाइल

from fastparquet import write 
write('outfile.parq', df) 
संबंधित मुद्दे

 संबंधित मुद्दे