2010-12-03 16 views
5

डेटा परिवर्तन करने के लिए एक गैर-क्लाउड आधारित ओपन सोर्स ऐप की तलाश में; हालांकि एक हत्यारा (और मेरा मतलब है हत्यारा) ऐप सिर्फ डेटा परिवर्तनों के लिए बनाया गया है, मैं $ 1000 तक खर्च करने के इच्छुक हो सकता हूं।डेटा पहचान, विश्लेषण, फ़िल्टरिंग, और परिवर्तन - जीयूआई?

मैंने Perl, Kapow Katalyst, Pentaho Kettle और बहुत कुछ देखा है।

पर्ल, पायथन, रूबी जो स्पष्ट रूप से भाषाएं हैं, लेकिन किसी भी चौखटे खोजने में असमर्थ/सिर्फ डेटा के प्रसंस्करण के लिए DSLs; जिसका अर्थ है कि वे वास्तव में एक महान विकास वातावरण नहीं हैं, जिसका अर्थ है कि RegEx, इनपुट/आउटपुट (सीएसवी, एक्सएमएल, जेडीबीसी, आरईएसटी, इत्यादि) के निर्माण के लिए कोई निर्मित जीयूआई नहीं है, डेटा की पंक्तियों और पंक्तियों के परीक्षण के लिए कोई डीबगर नहीं है - वे हैं बुरा नहीं, बस जो मैं खोज रहा हूं, वह जटिल डेटा परिवर्तनों के लिए निर्मित जीयूआई नहीं है; उस ने कहा, मुझे अच्छा लगेगा कि जीयूआई/एप फ़ाइल एक स्क्रिप्टिंग भाषा में थी, और न केवल कुछ मानव पठनीय एक्सएमएल/एएससीआईआईआई फाइल में संग्रहित है।

Kapow Katalyst HTTP के माध्यम से डेटा तक पहुँचने (एचटीएमएल, सीएसएस, आरएसएस, जावास्क्रिप्ट, आदि) यह असंरचित पाठ बदलने के लिए एक अच्छी जीयूआई गया है के लिए किया जाता है, लेकिन वह अपने मूल मूल्य की पेशकश नहीं है, और जिस तरह से, जिस तरह से है बहुत महंगा। यह दस्तावेज़ नामस्थान पथों को घुमाने का ठीक काम करता है; यह अनुमान लगाता है कि यह बैक एंड पर सिर्फ XPath है, क्योंकि सिंटैक्स समान प्रतीत होता है।

पेंटाहो केटल में सबसे आम डेटा स्टोर्स के INPUT/OUTPUT के लिए एक अच्छा जीयूआई है, और डेटा प्रोसेसिंग को संभालने पर इसका अपना लेना है; जो ठीक है, और सिर्फ एक छोटा सीखने वक्र है। केटल का डीबगर ठीक है, उसमें डेटा देखना आसान है, लेकिन त्रुटियों और अपवादों को आउटपुट के साथ थ्रेड नहीं किया जाता है, और वास्तव में किसी समस्या को डीबग करने का कोई तरीका नहीं है; जिसका अर्थ है कि आप आउटपुट/त्रुटि/अपवाद को पुनः लोड नहीं कर सकते हैं, लेकिन सिस्टम फीडबैक देखने में सक्षम हैं। जो कुछ भी कहा गया है, केटल डेटा परिवर्तन _______ है, चलिए बस यह कहें कि मुझे कुछ याद आ रहा है, क्योंकि मैं पूरी तरह से परेशान था "अगर यह संभव नहीं है, तो बस जावास्क्रिप्ट में परिवर्तन लिखें"; क्या?

तो, कोई सुझाव? मुझे एहसास है कि मैंने वास्तव में किसी भी transformations को spec'd नहीं किया है, लेकिन अगर आप वास्तव में डेटा मंगिंग के लिए एक उत्पाद का उपयोग करते हैं, तो मुझे लगता है कि मैं इसके बारे में जानना चाहता हूं; मुझे लगता है कि एक्सेल, मुझे लगता है।

सामान्य रूप से, वर्तमान में, मैं वर्तमान में ऐसे उत्पाद की तलाश में हूं जो 10-100 कॉलम के साथ 1000-100,000 पंक्तियों को संभालने में सक्षम है। यह बहुत अच्छा होगा अगर यह डेटा सेट प्रोफाइल कर सकता है, जो एक विशेषता केटल प्रकार है, लेकिन सुपर अच्छी तरह से नहीं है। मुझे इकाई परीक्षण में भी बनाया जाना चाहिए, जिसका अर्थ है कि मैं डेटा के नियंत्रण सेट बनाने में सक्षम हूं, और नियंत्रण सेट के खिलाफ किए गए परिवर्तन चलाता हूं। फिर मैं पंक्तियों और स्तंभों को चुनिंदा रूप से फ़िल्टर करने में सक्षम होना चाहता हूं क्योंकि मैं निर्माण को बदलने के बिना परिवर्तन का निर्माण करता हूं; उदाहरण के लिए, मैं रूपांतरण के माध्यम से एक डेटा सेट चलाता हूं, परिणामों को फ़िल्टर करता हूं, और अगली रन उन सेटों को स्वचालित रूप से पहली "तार्किक" घटना पर अवरुद्ध कर दिया जाता है; जो बदले में "बढ़ने" के लिए कम डेटा और प्रत्येक उन्नत पुनरावृत्ति प्रति कम रनटाइम का मतलब होगा; पागल अच्छा क्या होगा अगर मैं पंक्तियों/स्तंभों को फ़िल्टर करना चाहता हूं तो ऐप उनको ट्रैक कर रहा है, (और आउटपुट फ़िल्टर किया गया था)। और इकाई ने किसी भी बदलाव का परीक्षण/हाइलाइट किया। यदि मैंने कोई परिवर्तन किया है जो एप्लिकेशन लॉग को प्रभावित करेगा और "शाखा को तोड़ने" के आधार पर यूनिट परीक्षणों को ट्रैक करने की क्षमता है - यह मुझे चेतावनी देगा, मुझे डेटा संग्रहीत शाखा को डंप करने दें ... और/या ट्रैक आउटपुट की अगली पीढ़ी में अंतर के लिए प्राथमिक कुंजी, या यहां तक ​​कि अस्पष्ट तर्क का उपयोग करके मिलान करने का प्रयास करें। और हाँ, मुझे पता है कि यह एक पाइप सपना है, लेकिन हे, मुझे लगा कि मैं पूछूंगा, बस अगर वहां कुछ है तो मैंने कभी नहीं देखा है।

टिप्पणी करने के लिए स्वतंत्र महसूस करें, मुझे किसी भी प्रश्न का उत्तर देने में खुशी होगी, या अतिरिक्त जानकारी प्रदान की जाएगी।

+1

$ 1000 तक? आप उस नंबर पर कैसे पहुंचे? आपने किन उत्पादों को देखा है? –

+0

@ एसएलॉट: "$ 1000 तक? आप उस नंबर पर कैसे पहुंचे?" कंपनियां बजट, वास्तव में पैसे खर्च करने में दिलचस्पी नहीं है। मैंने क्लोवरेलटी को देखा है; सीई में बहुत कम परिवर्तन समर्थन है। वास्तव में, ऐसा लगता है कि अधिकांश ईटीएल जटिल परिवर्तन भी नहीं करते हैं। Talend को नहीं मिला है, हालांकि जावा संस्करण में पर्ल संस्करण की तुलना में 60-70% अधिक परिवर्तन होते हैं। मुझे लगता है कि ई और एल पर सबसे अधिक ईटीएल फोकस है, टी नहीं; हालांकि मैं इस पर नया हूं और मुख्य रूप से वेब से डेटा निकालने के लिए अतीत में कपो/रोबोसाइट का उपयोग करता हूं; अब मैं डेटा ट्रांसफॉर्मेशन पर ध्यान केंद्रित कर रहा हूं – blunders

+0

@ एसएलओटी: क्लॉवरेट की सीई सुविधाओं का एक तोड़फोड़ है, जिसे उन्होंने अभी पोस्ट किया है: http://www.cloveretl.com/products/community-edition/features – blunders

उत्तर

3
+0

बहुत अच्छा, धन्यवाद - क्या आपने इसका इस्तेमाल किया है? ऐसा लगता है कि यह सिर्फ विशिष्ट कार्यों के लिए है, लेकिन opensource और यह क्या करता है पर बहुत अच्छा है; मेरे लिए कौन ठीक है। – blunders

+2

हां, मैंने इसका इस्तेमाल किया है। यह स्प्रैडशीट्स को साफ करने पर बहुत केंद्रित है। मैं इसे रिक्त ग्रिड की बजाय टैब्यूलर डेटा की ज़रूरतों से शुरू होने वाले एक्सेल की पुनर्मूल्यांकन के रूप में सोचता हूं। –

1

मैं सुनिश्चित नहीं हूं डेटा या वास्तव में परिवर्तनों तुम क्या करने की कोशिश कर रहे है कि किस तरह की वास्तव में किस तरह का है, लेकिन अगर यह मुख्य रूप से गणितीय परिवर्तन है तो शायद आप FreeMat, Octave, या SciLab कोशिश कर सकते हैं। यदि यह अधिक डेटा-वेयरहाउस-स्टाइल मुंगिंग है, तो Clover, Talend, JasperETL सामुदायिक संस्करण, या Jitterbit जैसे ओपन सोर्स ईटीएल टूल्स का प्रयास करें।

+0

सुझावों के लिए धन्यवाद, Talend-CE डाउनलोड किया, लेकिन इसे पाने के लिए "कोशिश" के 5-मिनट के बाद, मैंने छोड़ दिया। मैं क्लॉवर, जैस्परेट-सीई, और जिटरबिट पर अभी एक नज़र डालेगा। गणितीय परिवर्तन के लिए, वर्तमान में इसकी आवश्यकता नहीं है, लेकिन मैं अभी भी ऐप्स को देखूंगा, इसलिए मुझे उनके लिए कोई मोटा अनुभव है। फिर से धन्यवाद! – blunders

2

प्रतिभा को आपके समय के 5 मिनट से अधिक समय की आवश्यकता होगी, शायद मूलभूत परिवर्तनों को तारित करने के लिए लगभग 1 घंटे के करीब और संस्करण नियंत्रण नियंत्रण को रखने के लिए आपकी आवश्यकता को पूरा करने में सक्षम होना चाहिए। आपने एक पाइपलाइन प्रक्रिया का वर्णन किया है जिसे Talend में आसानी से किया जा सकता है जब आप जानते हैं कि, जहां आपके पास एक परियोजना में एकाधिक इनपुट और आउटपुट हैं, वही कच्चा डेटा विभिन्न परिवर्तनों और फ़िल्टरिंग के माध्यम से जाता है, जब तक कि आप वांछित आउटपुट के रूप में नहीं आते। फिर आप समान डेटा पर प्रक्रिया को दोहराने के लिए अपनी नौकरियों को शेड्यूल कर सकते हैं। वापस जाएं और Talend के साथ अधिक समय बिताएं, और आपको जो चाहिए वह सफल हो जाएगा, मुझे यकीन है।

मैं भी Google परिष्कृत के कमेटरों में से एक बनता हूं और अपने दैनिक काम में Talend का भी उपयोग करता हूं। मैं वास्तव में कभी-कभी Google परिष्कृत में Talend के लिए अपने परिवर्तनों का मॉडल करता हूं। (कभी-कभी बोर्कड ईटीएल पर क्लीनअप करने के लिए परिष्कृत करने का उपयोग भी स्वयं को बदल देता है! एलओएल) मैं आपको बता सकता हूं कि Talend के साथ मेरा अनुभव Google Refine की कुछ विशेषताओं में एक छोटा सा हिस्सा निभाता है। उदाहरण के लिए, Talend और Google Refine दोनों में आपके परिवर्तनों के लिए एक अभिव्यक्ति संपादक की अवधारणा है (यदि आवश्यक हो तो Talend जावा भाषा में नीचे जाता है)।

Google परिष्कृत कभी भी ईटीएल उपकरण नहीं होगा, इस अर्थ में कि हमने इसे उस स्थान में प्रतिस्पर्धा करने के लिए डिज़ाइन नहीं किया है, ईटीएल आमतौर पर बड़े डेटा वेयरहाउस बैकएंड प्रोसेसिंग & रूपांतरणों के लिए उपयोग किया जाता है। हालांकि, हमने आपके प्रतिस्थापन और सफाई के बारे में सूचित निर्णय लेने के लिए आसान लाइव पूर्वावलोकन करने की अनुमति देकर Talend जैसे मौजूदा ईटीएल उपकरणों की सराहना करने के लिए Google Refine को डिज़ाइन किया है, और यदि आपका डेटा अविश्वसनीय रूप से विशाल नहीं है, तो आप स्वयं को परिशोधित करने के लिए जो कुछ भी चाहते हैं उसे करने का विकल्प चुन सकते हैं ।

+0

+1 @ थैद ग्रिड्री: धन्यवाद, मैंने वास्तव में उन दोनों की कोशिश की है। Talend के बारे में बहुत कुछ याद नहीं है इसके अलावा दो संस्करणों (जावा/पर्ल) को दोबारा शुरू किया गया है और प्रत्येक अलग-अलग कार्यों का समर्थन करता है। Google Refine अच्छा है, और सहमत है कि यह कभी भी ईटीएल नहीं होगा, लेकिन एक्सेल में मौजूद कार्यात्मक अंतराल में स्वयं को भर देता है; उदाहरण के लिए देशी RegEx समर्थन। उस ने कहा, जबकि यह संभव है, मैंने इसे याद किया, या सुविधा को तब से पेश किया गया है, मुझे Google एपीआई या सीएलआई की कमी के बारे में याद है। पोस्ट करने के लिए धन्यवाद, और वास्तव में विश्वास करते हैं कि Google Refine एक शानदार टूल है। – blunders

+0

@ ब्लंडर्स 3 ज्ञात एपीआई उपलब्ध हैं जो उपलब्ध हैं: https://github.com/PaulMakepeace/refine-client-py/ https://github.com/maxogden/refine-python https://github.com/maxogden/परिशोधित-माणिक –

संबंधित मुद्दे