पृष्ठभूमि (खेद यह बहुत देर है):आर बनाम Pentaho चम्मच
मैं एक ETL कि, चारों ओर 20-30 एमबीएस एक दिन ऑनलाइन विज्ञापन डेटा की एक किस्म एकत्र करता है को बनाए रखने का काम सौंपा गया है, और इसे MySQL में टेबल में जोड़ता है। बाहरी ठेकेदारों ने ईटीएल को पेंटाहो चम्मच (रसोई, केतली?) के साथ बनाया। ईटीएल में लगभग 250 नौकरियां और परिवर्तन होते हैं (.ktr, .kjb), प्रत्येक के बारे में 5 से 25 चरणों के साथ। यह बहुत आम है कि इस बड़ी प्रक्रिया में कुछ गलत हो रहा है। मैंने पाया है कि परिवर्तन और लोड करने के लिए आर स्क्रिप्ट लिखना अधिक कुशल है। असल में, मुझे लगता है कि ईटीएल को कोड की 1000 लाइनों के तहत कम किया जा सकता है इसके अलावा आरएमवाईएसक्यूएल (यानी प्लीयर!) के साथ कॉल किया जा सकता है। संभवतः वेब से डेटा निकालने के लिए पायथन का उपयोग किया जाएगा।
आर के मेरे उपयोग से कुछ प्रतिरोध हुआ है। ईटीएल को डिजाइन करने वाले कंप्यूटर प्रोग्रामर आर को नहीं जानते हैं, इसलिए अगर मैं छोड़ूं तो उन्हें नहीं बुलाया जा सकता था, और इसके अलावा चम्मच ईटीएल में बहुत समय लगाया गया था। इसके अलावा, एक स्मारक आर स्क्रिप्ट्स की तुलना में चम्मच में दृष्टि से चरणों का अधिक आसानी से पालन कर सकता है। मेरे हिस्से के लिए, मुझे लगता है कि हम ईटीएल द्वारा गिरफ्तार हो रहे हैं। हालांकि, इस मामले में मेरे पास कोई बड़ा कहना नहीं है क्योंकि मेरे पास कंप्यूटर विज्ञान में पृष्ठभूमि नहीं है।
अगर आप निम्नलिखित पर कोई अंतर्दृष्टि रखते हैं तो कृपया टिप्पणी करें। पता करें मैं महीनों के लिए इस शोध किया गया है और कई राय पढ़ा है, लेकिन संक्षिप्त या विश्वसनीय के रूप में कुछ भी नहीं है अतः आम तौर पर प्रदान करता है के रूप में:
आर के रूप में कंपनी में कुछ लोगों द्वारा स्केलेबल नहीं बुलाया गया है। मुझे लगता है कि लॉगिंग क्षमताओं के कारण ज्यादातर विपरीत है। चम्मच शुद्ध लॉगिंग आउटपुट सीमित है, जबकि सभी आर स्क्रिप्ट को दैनिक लॉग में डुबोया जा सकता है। .ktrs में गलतियों को ठीक करना और टालना बहुत कठिन है, लेकिन आर लॉग के माध्यम से झंडे और/या खोज के साथ आसान है। इस पर कोई विचार?
इससे एक बड़ा चित्र प्रश्न होता है। पेंटाहो जैसे ईटीएल का मुद्दा क्या है? यह पोस्ट Do I need a ETL?, मुझे विश्वास दिलाता है कि यदि आप आर या अन्य तथाकथित ओओएल का उपयोग करते हैं, तो पेंटाहो जैसे टूल का कोई कारण नहीं है। क्या कोई ऐसा कर सकता है अगर ऐसा है तो? मुझे वास्तव में यहां दूसरी राय चाहिए। यदि ऐसा है तो पेंटाहो जैसे टूल का उपयोग कौन करता है? क्या यह प्रोग्रामिंग पृष्ठभूमि के बिना बस है, या कोई और? मुझे SO पर पेंटाहो प्रश्नों की उचित मात्रा दिखाई देती है।
यह सच है कि बहुत से लोग आर और पेंटाहो से अधिक उपयोग करते हैं, है ना? यह http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html ऐसा लगता है। ईमानदार होने के लिए मुझे आश्चर्य हुआ कि पेंटाहो 5 वां था, जो मुझे दोगुना आश्चर्य देता है कि पेंटाहो का उपयोग कौन करता है और यदि मेरे काम की सेटिंग में इसके उपयोग के बारे में मेरे संदेह गलत हैं।
किसी भी प्रतिक्रिया के लिए धन्यवाद। मेरा मतलब चम्मच या चम्मच उपयोगकर्ताओं के प्रति कोई संवेदना नहीं है; मैं वास्तव में उलझन में हूं और बाहरी विचारों की आवश्यकता है।
तो Quora पर आगे इस सवाल पूछने के लिए सुझाव दें। मुझे लगता है कि यह एक महान विषय है और कहीं बहस करने लायक है। – Codek
दिलचस्प मैं इस बारे में सोचने वाला अकेला नहीं हूं: बारूग इस पर एक बैठक को केंद्रित करना चाहता है। http://www.meetup.com/R-Users/events/47885552/?a=md1_evn&rv=md1&_af_eid=47885552&_af=event। एफडब्ल्यूआईडब्ल्यू, मैंने सिर्फ 1 साल बाद इस नौकरी को छोड़ दिया क्योंकि अक्षमता मुझे पागल कर रही थी। खुशी से और मैं अब स्टार्टअप पर्यावरण में आर का प्रभावी ढंग से उपयोग कर रहा हूं। – StatSandwich
मैं पहले से ही आर में ईटीएल प्रक्रियाओं के लिए डेटाटेबल का उपयोग करता हूं, यह वाक्यविन्यास अनुकूल है और प्रत्येक ब्रैकेट डीटी [,] की तुलना ईटीएल के संदर्भ में रूपांतरण ब्लॉक से की जा सकती है। प्रश्न के संबंध में 1. आप जो भी चाहें लॉग इन करने के लिए लॉगिंग प्रक्रिया कर सकते हैं: रूपांतरण समय, संसाधित नाड़ी, त्रुटि संदेश प्राप्त हुआ। बस log_dt (data.table/data.frame ऑब्जेक्ट) को dbWriteTable पर छोड़ दें। – jangorecki