2013-02-21 14 views
6

पृष्ठभूमि (खेद यह बहुत देर है):आर बनाम Pentaho चम्मच

मैं एक ETL कि, चारों ओर 20-30 एमबीएस एक दिन ऑनलाइन विज्ञापन डेटा की एक किस्म एकत्र करता है को बनाए रखने का काम सौंपा गया है, और इसे MySQL में टेबल में जोड़ता है। बाहरी ठेकेदारों ने ईटीएल को पेंटाहो चम्मच (रसोई, केतली?) के साथ बनाया। ईटीएल में लगभग 250 नौकरियां और परिवर्तन होते हैं (.ktr, .kjb), प्रत्येक के बारे में 5 से 25 चरणों के साथ। यह बहुत आम है कि इस बड़ी प्रक्रिया में कुछ गलत हो रहा है। मैंने पाया है कि परिवर्तन और लोड करने के लिए आर स्क्रिप्ट लिखना अधिक कुशल है। असल में, मुझे लगता है कि ईटीएल को कोड की 1000 लाइनों के तहत कम किया जा सकता है इसके अलावा आरएमवाईएसक्यूएल (यानी प्लीयर!) के साथ कॉल किया जा सकता है। संभवतः वेब से डेटा निकालने के लिए पायथन का उपयोग किया जाएगा।

आर के मेरे उपयोग से कुछ प्रतिरोध हुआ है। ईटीएल को डिजाइन करने वाले कंप्यूटर प्रोग्रामर आर को नहीं जानते हैं, इसलिए अगर मैं छोड़ूं तो उन्हें नहीं बुलाया जा सकता था, और इसके अलावा चम्मच ईटीएल में बहुत समय लगाया गया था। इसके अलावा, एक स्मारक आर स्क्रिप्ट्स की तुलना में चम्मच में दृष्टि से चरणों का अधिक आसानी से पालन कर सकता है। मेरे हिस्से के लिए, मुझे लगता है कि हम ईटीएल द्वारा गिरफ्तार हो रहे हैं। हालांकि, इस मामले में मेरे पास कोई बड़ा कहना नहीं है क्योंकि मेरे पास कंप्यूटर विज्ञान में पृष्ठभूमि नहीं है।

अगर आप निम्नलिखित पर कोई अंतर्दृष्टि रखते हैं तो कृपया टिप्पणी करें। पता करें मैं महीनों के लिए इस शोध किया गया है और कई राय पढ़ा है, लेकिन संक्षिप्त या विश्वसनीय के रूप में कुछ भी नहीं है अतः आम तौर पर प्रदान करता है के रूप में:

  1. आर के रूप में कंपनी में कुछ लोगों द्वारा स्केलेबल नहीं बुलाया गया है। मुझे लगता है कि लॉगिंग क्षमताओं के कारण ज्यादातर विपरीत है। चम्मच शुद्ध लॉगिंग आउटपुट सीमित है, जबकि सभी आर स्क्रिप्ट को दैनिक लॉग में डुबोया जा सकता है। .ktrs में गलतियों को ठीक करना और टालना बहुत कठिन है, लेकिन आर लॉग के माध्यम से झंडे और/या खोज के साथ आसान है। इस पर कोई विचार?

  2. इससे एक बड़ा चित्र प्रश्न होता है। पेंटाहो जैसे ईटीएल का मुद्दा क्या है? यह पोस्ट Do I need a ETL?, मुझे विश्वास दिलाता है कि यदि आप आर या अन्य तथाकथित ओओएल का उपयोग करते हैं, तो पेंटाहो जैसे टूल का कोई कारण नहीं है। क्या कोई ऐसा कर सकता है अगर ऐसा है तो? मुझे वास्तव में यहां दूसरी राय चाहिए। यदि ऐसा है तो पेंटाहो जैसे टूल का उपयोग कौन करता है? क्या यह प्रोग्रामिंग पृष्ठभूमि के बिना बस है, या कोई और? मुझे SO पर पेंटाहो प्रश्नों की उचित मात्रा दिखाई देती है।

  3. यह सच है कि बहुत से लोग आर और पेंटाहो से अधिक उपयोग करते हैं, है ना? यह http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html ऐसा लगता है। ईमानदार होने के लिए मुझे आश्चर्य हुआ कि पेंटाहो 5 वां था, जो मुझे दोगुना आश्चर्य देता है कि पेंटाहो का उपयोग कौन करता है और यदि मेरे काम की सेटिंग में इसके उपयोग के बारे में मेरे संदेह गलत हैं।

किसी भी प्रतिक्रिया के लिए धन्यवाद। मेरा मतलब चम्मच या चम्मच उपयोगकर्ताओं के प्रति कोई संवेदना नहीं है; मैं वास्तव में उलझन में हूं और बाहरी विचारों की आवश्यकता है।

+1

तो Quora पर आगे इस सवाल पूछने के लिए सुझाव दें। मुझे लगता है कि यह एक महान विषय है और कहीं बहस करने लायक है। – Codek

+0

दिलचस्प मैं इस बारे में सोचने वाला अकेला नहीं हूं: बारूग इस पर एक बैठक को केंद्रित करना चाहता है। http://www.meetup.com/R-Users/events/47885552/?a=md1_evn&rv=md1&_af_eid=47885552&_af=event। एफडब्ल्यूआईडब्ल्यू, मैंने सिर्फ 1 साल बाद इस नौकरी को छोड़ दिया क्योंकि अक्षमता मुझे पागल कर रही थी। खुशी से और मैं अब स्टार्टअप पर्यावरण में आर का प्रभावी ढंग से उपयोग कर रहा हूं। – StatSandwich

+0

मैं पहले से ही आर में ईटीएल प्रक्रियाओं के लिए डेटाटेबल का उपयोग करता हूं, यह वाक्यविन्यास अनुकूल है और प्रत्येक ब्रैकेट डीटी [,] की तुलना ईटीएल के संदर्भ में रूपांतरण ब्लॉक से की जा सकती है। प्रश्न के संबंध में 1. आप जो भी चाहें लॉग इन करने के लिए लॉगिंग प्रक्रिया कर सकते हैं: रूपांतरण समय, संसाधित नाड़ी, त्रुटि संदेश प्राप्त हुआ। बस log_dt (data.table/data.frame ऑब्जेक्ट) को dbWriteTable पर छोड़ दें। – jangorecki

उत्तर

4

आर ईटीएल उपकरण के रूप में? एक नया है, लेकिन जो भी आपकी नाव तैरता है।

मैं यह कहूंगा, अगर आप 250 नौकरियों और परिवर्तनों को आर के 1000 लाइनों के नीचे प्राप्त कर सकते हैं तो मैं कहूंगा कि आपका ईटीएल खराब लिखा गया है।

इसके साथ आपको समर्थन और स्केलेबिलिटी के बारे में सोचना होगा। जिनमें से दोनों मैं कल्पना करूंगा, आर कोड के बजाए चम्मच जैसे ग्राफिकल टूल के साथ कहीं अधिक आसान होगा।

व्यक्तिगत रूप से मुझे लगता है कि आप गुमराह हैं और आप जो सवाल पूछते हैं वह खराब लिखा गया है लेकिन यह एक अलग तर्क है।

अपने अंक के संबंध में, पीडीआई लॉगिंग बहुत अच्छी है और यदि आप एक समेकित लॉग पसंद करते हैं तो आप बहुत बड़ी डेटाबेस तालिका में लॉग इन कर सकते हैं।

ईटीएल दूर नहीं जा रहा है, यहां तक ​​कि एचडीएफएस जैसे असंगठित डेटा स्टोरेज पूल के प्यार के आगमन के साथ भी, आर के बाहर किए गए डेटा विश्लेषण के बारे में भी सोचें, अगर आप अपने डेटा के शीर्ष पर रिपोर्टिंग या ओलाप चाहते हैं, तो यह अभी भी परवाह किए बिना बदलने की जरूरत है।

क्या यह सच है, अधिक लोग आर बनाम पेंटाहो का उपयोग करते हैं? वह किस तरह का सवाल है? पेंटाहो द्वारा मुझे लगता है कि आप पीडीआई मतलब है? इसकी तुलना कभी भी कैसे की जा सकती है? एक डेटा विश्लेषण उपकरण बनाम ईटीएल उपकरण और आप उपयोगकर्ताओं को गिनना चाहते हैं? एह? यदि दूसरी ओर आप आर बनाम पेंटाहो को पूरी तरह से समझते हैं, तो मुझे लगता है कि नहीं। आप आर बनाम वेका पर एक रिपोर्ट देख रहे हैं और इसे अपने ईटीएल तर्क में फिट कर रहे हैं। यह रविवार के एक महीने में नहीं धोता है।

== EDIT == ठीक है तो आपके पास आर & वर्तमान में पाइथन कोड की लगभग 1000 पंक्तियां हैं। चूंकि आपके मालिकों की आवश्यकताओं का विस्तार धीरे-धीरे बढ़ता जा रहा है, और क्योंकि आप समय सीमा को हिट करने की कोशिश कर रहे हैं, इसलिए नया कोड स्पष्ट रूप से लिखा गया है या आपके द्वारा वर्तमान में मौजूद कोड के रूप में भी दस्तावेज किया गया है। तो समय के साथ यह 5000 लाइनों के साथ बढ़ता है और कुछ पाइथन स्क्रिप्ट्स कहते हैं। फिर एक दिन आप बस से हिट करते हैं, और कुछ नए व्यक्ति को आपके कोड में आना और प्रबंधित करना होता है ... वे कहां से शुरू करते हैं, वे परिवर्तन कैसे करते हैं?

वस्तुतः डेटा अनुभव के एक मॉड्यूल के साथ किसी भी व्यक्ति को पीडीआई ईटीएल में बदलाव करना पड़ सकता है। जहां आपने कुछ किया है, वह गहराई से ज्ञान के साथ कुछ ले जाएगा जो आपके द्वारा किए गए कार्यों में बदलाव करने के लिए है।

ईटीएल उपकरण को त्वरित और उपयोग करने में आसान बनाने के लिए डिज़ाइन किया गया है, वे अलग-अलग सिस्टम (गैर डीबी या फ़ाइल आधारित, उदाहरण के लिए) डेटा कनेक्टिविटी के संदर्भ में आर से कहीं अधिक प्रदान कर सकते हैं, हालांकि मुझे लगता है कि यही कारण है लोग पाइथन इत्यादि का सहारा लेते हैं ने कहा कि दोनों के लिए जगह है, पीडीआई के लिए एक आर प्लगइन है जो मैंने देखा है कि समुदाय में चारों ओर लात मार रहा है।

उस पर सबसे ऊपर मैंने अनुभव से जानने के लिए वर्षों में ईटीएल माइग्रेशन के लिए पर्याप्त टीएसक्यूएल देखा है, भले ही कोड में आपका ईटीएल बनाए रखना मामूली अवधि में व्यावहारिक प्रतीत हो सकता है, लंबे समय तक यह अधिक दर्द लाता है ।

दूसरी तरफ यदि आप 250 पीडीआई ट्रांसफॉर्मेशन को आर की 1000 लाइनों तक कोड कर सकते हैं, तो आपके ईटीएल को आपके पूर्ववर्ती द्वारा खराब डिजाइन के माध्यम से फूला हुआ हो सकता है।

यदि आप मुझे अपने मौजूदा पीडीआई ईटीएल संरचना पर राय देना चाहते हैं, तो इसे भी व्यवस्थित किया जा सकता है। कि व्यक्तिपरक चर्चा/बहस के लिए एक बेहतर जगह हो रहा है -

टॉम

+0

उत्तर के लिए धन्यवाद, टॉम। मुझे पता था कि मेरा सवाल अच्छी तरह से लिखा नहीं गया था, यहां तक ​​कि मेरे सिर में इसे क्राफ्ट करने के हफ्तों के साथ भी।आप बिल्कुल सही हैं कि मैं गुमराह हूं - मुझे कोई संकेत नहीं है कि मैं क्या कर रहा हूं! यहां मुद्दा यह है कि यह मेरा पहला काम है। मुझे पता है कि आर का उपयोग कैसे करें। मैंने कभी भी ईटीएल उपकरण का उपयोग नहीं किया है। ऐसा प्रतीत होता है कि आर ईटीएल उपकरण क्या कर रहा है, साथ ही पाठ्यक्रम का डेटा विश्लेषण भी करता है। कृपया वर्णन करें कि क्यों 'आर एक ईटीएल उपकरण' वाक्यांश पागल है। यहां तक ​​कि मेरे सभी शोधों के साथ, मुझे नहीं पता कि एक ईटीएल उपकरण क्या है जो आर और पायथन का मिश्रण बनाम है। अगर अधिक जानकारी की आवश्यकता है तो कृपया सलाह दें। – StatSandwich

+0

मैं अपना जवाब संपादित करूंगा .... –

+0

मैं मानता हूं कि ईटीएल उपकरणों में प्रलेखन की कमी आर में डॉक्टर की कमी के रूप में इतनी दर्दनाक नहीं है, लेकिन फिर भी इसे आर में करने के लिए आपके पास बेहतर दस्तावेज़ लिखने के लिए और अधिक समय होगा, बेहतर डिबगिंग क्षमताओं, आसान परिवर्तन अनुरोध विकास। आप अपने कोड को अच्छी तरह से प्रलेखित संकुल में व्यवस्थित कर सकते हैं, एक अच्छा संस्करण है, आसानी से DEV/QA/PROD के बीच भंडार स्विच भी कर सकते हैं। – jangorecki

संबंधित मुद्दे