2015-10-27 7 views
5

मैं सोच रहा था कि क्या Google BigQuery वर्तमान में Parquet file format का समर्थन करता है या यदि इसका समर्थन करने की योजना है?क्या Google BigQuery Parquet फ़ाइल प्रारूप का समर्थन करता है?

मुझे पता है कि यह वर्तमान में सीएसवी और जेएसओएन प्रारूपों का समर्थन करता है।

+0

अनुरोध के लिए धन्यवाद। मैंने लकड़ी की छत जोड़ने के लिए एक फीचर अनुरोध खोला है। कृपया अपना उपयोग केस जोड़ें। यह हमें बाहरी हितों का मूल्यांकन करने में मदद करेगा। यहां यह है: https://code.google.com/p/google-bigquery/issues/detail?id=355&thanks=355&ts=1446053772 –

उत्तर

6

** 1 मार्च 2018 तक, loading Parquet files के लिए समर्थन उपलब्ध है।

BigQuery CLI के संस्करण 2.0.24 के साथ, वहाँ --source_format PARQUET विकल्प है जिसके bq --help के उत्पादन में वर्णन किया गया है।

यदि मैं इसे अपने प्रोजेक्ट में उपयोग करने का प्रयास करता हूं, हालांकि, मुझे एक त्रुटि मिलती है। लिंक किए गए BigQuery टिकट को पढ़ने के आधार पर, पैराक्वेट लोड करने के लिए समर्थन वर्तमान में केवल आमंत्रित है।

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json Upload complete. Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current status: DONE
BigQuery error in load operation: Error processing job 'msgqegcp:bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1': Loading of parquet file format is not enabled

मेरे USECASE कि लकड़ी फ़ाइल एवरो फ़ाइल के आधे आकार है। मैं कुछ नया करने की कोशिश करना चाहता था और डेटा को कुशलता से अपलोड करना चाहता था (इस क्रम में)।

+0

आपको मिली त्रुटि "सक्षम नहीं है"। इस समस्या में https://issuetracker.google.com/issues/35905411 मुझे इसका उपयोग करने के लिए सक्षम परियोजनाओं के उल्लेख दिखाई देते हैं। शायद यह सिर्फ 'बीटा' सुविधा की बात है और आपके साथ प्रयोग करने के लिए सक्षम होना आवश्यक है। –

1

इस समय BigQuery Parquet फ़ाइल प्रारूप का समर्थन नहीं करता है। हालांकि, हम आपके उपयोग के मामले के बारे में अधिक जानने में रुचि रखते हैं - क्या आप आयात, निर्यात या दोनों में दिलचस्पी रखते हैं? आप इसका उपयोग कैसे करना चाहते हैं? परिदृश्यों को बेहतर समझने से BigQuery टीम तदनुसार योजना बनाने में मदद करेगी।

+0

त्वरित प्रतिक्रिया के लिए धन्यवाद! इस समय मेरे पास कोई विशिष्ट उपयोग केस नहीं है। वर्तमान में हम BigQuery में CSV फ़ाइलों को आयात करते हैं और मैं सोच रहा था कि अगर हम प्रारूप को बदलते हैं तो यह अभी भी काम करेगा। लकड़ी या ओआरसी में फ़ाइलों को संग्रहीत करने से हमें सीएसवी फाइलों की तुलना में तेजी से हडोप में फ़ाइलों का विश्लेषण करने में लचीलापन भी मिल सकता है। – YABADABADOU

1

यदि आप BigQuery और Hadoop के बीच फ़ाइल प्रारूप साझा करना चाहते हैं, तो आप न्यूलाइन से अलग JSON रिकॉर्ड्स का उपयोग कर सकते हैं।

BigQuery आयात और निर्यात के लिए इनका समर्थन करता है।

हाडोप इसका भी समर्थन करता है। इंटर्ननेट को खोजना इसे बनाने के लिए व्यंजनों को दिखाते हुए कई हिट पाता है। यहां एक है: Processing JSON using java Mapreduce

0

जब आप सैकड़ों लाखों पंक्तियों से निपट रहे हैं और डेटा को ऑन-प्रिमाइज़ हडोप क्लस्टर में स्थानांतरित करने की आवश्यकता है, तो यह है, bigQuery से निर्यात करना, जेसन सिर्फ व्यवहार्य विकल्प नहीं है, एवरो बेहतर नहीं है, केवल एकमात्र कुशल विकल्प आज डेटा के इस तरह के आंदोलन के लिए gz है जो दुर्भाग्य से हडोप में पढ़ने के लिए संभव नहीं है, लैर्केट इस उपयोग के मामले का एकमात्र कारगर तरीका है, हमारे पास कोई अन्य कुशल विकल्प नहीं है

संबंधित मुद्दे