2015-03-26 6 views
12

मैं कॉलर स्टोरेज के रूप में अपनी परियोजनाओं में से एक में लकड़ी की छत का उपयोग करना चाहता हूं। लेकिन मैं hadoop/hdfs libs पर निर्भर नहीं करना चाहता। क्या एचडीएफएस के बाहर लकड़ी की छत का उपयोग करना संभव है? या न्यूनतम निर्भरता क्या है?बिना हडोप के लकड़ी की छत?

उत्तर

6

उसी प्रश्न की जांच करके मैंने पाया कि जाहिर है कि इस पल के लिए यह संभव नहीं है। मुझे यह git issue मिला, जो हैडूप एपीआई से डीकॉप्लिंग लकड़ी की छत का प्रस्ताव करता है। जाहिर है यह अभी तक नहीं किया गया है।

अपाचे जिरा में मुझे issue मिला, जो हैडूप के बाहर एक लकड़ी की छत फ़ाइल पढ़ने का तरीका मांगता है। यह लेखन के समय से अनसुलझा है।

2

पार्टी के लिए देर हो चुकी है, लेकिन मैं ऐसा कुछ कर रहा हूं जो इसे संभव बनाना चाहिए: https://github.com/jmd1011/parquet-readers

यह अभी भी विकास में है, लेकिन अंतिम कार्यान्वयन इसे लिखने के एक या दो महीने के अंदर होना चाहिए।

संपादित करें: महीने बाद, और अभी भी इस पर काम कर रहे हैं! यह सक्रिय विकास के तहत है, बस अपेक्षा से अधिक समय ले रहा है।

0

आपके पास लकड़ी के किनारे में किस प्रकार का डेटा है? आपको लकड़ी की फ़ाइलों को पढ़ने के लिए एचडीएफएस की आवश्यकता नहीं है। यह निश्चित रूप से एक पूर्व-आवश्यकता नहीं है। हम इंकोर्टा में हमारी स्टेजिंग टेबल के लिए लकड़ी की छत फ़ाइलों का उपयोग करते हैं। हम एचडीएफएस पर निर्भरता के साथ शिप नहीं करते हैं, हालांकि, यदि आप चाहें तो फ़ाइलों को एचडीएफएस पर स्टोर कर सकते हैं। जाहिर है, हम इंकोर्टा में सीधे लकड़ी की फाइलों से पढ़ सकते हैं, लेकिन आप कनेक्ट करने के लिए अपाचे ड्रिल का उपयोग भी कर सकते हैं, फ़ाइल का उपयोग करें: /// कनेक्शन के रूप में और hdfs नहीं: /// उदाहरण के लिए नीचे देखें।

पैराक्वेट डेटा पढ़ने या लिखने के लिए, आपको स्टोरेज प्लगइन प्रारूप परिभाषाओं में लकड़ी का प्रारूप शामिल करना होगा। डीएफएस प्लगइन परिभाषा में लकड़ी का प्रारूप शामिल है।

{ 
    "type" : "file", 
    "enabled" : true, 
    "connection" : "file:///", 
    "workspaces" : { 
    "json_files" : { 
    "location" : "/incorta/tenants/demo//drill/json/", 
    "writable" : false, 
    "defaultInputFormat" : json 
    } 
}, 
संबंधित मुद्दे