डेटा परिवर्तन करने के लिए एक गैर-क्लाउड आधारित ओपन सोर्स ऐप की तलाश में; हालांकि एक हत्यारा (और मेरा मतलब है हत्यारा) ऐप सिर्फ डेटा परिवर्तनों के लिए बनाया गया है, मैं $ 1000 तक खर्च करने के इच्छुक हो सकता हूं।डेटा पहचान, विश्लेषण, फ़िल्टरिंग, और परिवर्तन - जीयूआई?
मैंने Perl, Kapow Katalyst, Pentaho Kettle और बहुत कुछ देखा है।
पर्ल, पायथन, रूबी जो स्पष्ट रूप से भाषाएं हैं, लेकिन किसी भी चौखटे खोजने में असमर्थ/सिर्फ डेटा के प्रसंस्करण के लिए DSLs; जिसका अर्थ है कि वे वास्तव में एक महान विकास वातावरण नहीं हैं, जिसका अर्थ है कि RegEx, इनपुट/आउटपुट (सीएसवी, एक्सएमएल, जेडीबीसी, आरईएसटी, इत्यादि) के निर्माण के लिए कोई निर्मित जीयूआई नहीं है, डेटा की पंक्तियों और पंक्तियों के परीक्षण के लिए कोई डीबगर नहीं है - वे हैं बुरा नहीं, बस जो मैं खोज रहा हूं, वह जटिल डेटा परिवर्तनों के लिए निर्मित जीयूआई नहीं है; उस ने कहा, मुझे अच्छा लगेगा कि जीयूआई/एप फ़ाइल एक स्क्रिप्टिंग भाषा में थी, और न केवल कुछ मानव पठनीय एक्सएमएल/एएससीआईआईआई फाइल में संग्रहित है।
Kapow Katalyst HTTP के माध्यम से डेटा तक पहुँचने (एचटीएमएल, सीएसएस, आरएसएस, जावास्क्रिप्ट, आदि) यह असंरचित पाठ बदलने के लिए एक अच्छी जीयूआई गया है के लिए किया जाता है, लेकिन वह अपने मूल मूल्य की पेशकश नहीं है, और जिस तरह से, जिस तरह से है बहुत महंगा। यह दस्तावेज़ नामस्थान पथों को घुमाने का ठीक काम करता है; यह अनुमान लगाता है कि यह बैक एंड पर सिर्फ XPath है, क्योंकि सिंटैक्स समान प्रतीत होता है।
पेंटाहो केटल में सबसे आम डेटा स्टोर्स के INPUT/OUTPUT के लिए एक अच्छा जीयूआई है, और डेटा प्रोसेसिंग को संभालने पर इसका अपना लेना है; जो ठीक है, और सिर्फ एक छोटा सीखने वक्र है। केटल का डीबगर ठीक है, उसमें डेटा देखना आसान है, लेकिन त्रुटियों और अपवादों को आउटपुट के साथ थ्रेड नहीं किया जाता है, और वास्तव में किसी समस्या को डीबग करने का कोई तरीका नहीं है; जिसका अर्थ है कि आप आउटपुट/त्रुटि/अपवाद को पुनः लोड नहीं कर सकते हैं, लेकिन सिस्टम फीडबैक देखने में सक्षम हैं। जो कुछ भी कहा गया है, केटल डेटा परिवर्तन _______ है, चलिए बस यह कहें कि मुझे कुछ याद आ रहा है, क्योंकि मैं पूरी तरह से परेशान था "अगर यह संभव नहीं है, तो बस जावास्क्रिप्ट में परिवर्तन लिखें"; क्या?
तो, कोई सुझाव? मुझे एहसास है कि मैंने वास्तव में किसी भी transformations को spec'd नहीं किया है, लेकिन अगर आप वास्तव में डेटा मंगिंग के लिए एक उत्पाद का उपयोग करते हैं, तो मुझे लगता है कि मैं इसके बारे में जानना चाहता हूं; मुझे लगता है कि एक्सेल, मुझे लगता है।
सामान्य रूप से, वर्तमान में, मैं वर्तमान में ऐसे उत्पाद की तलाश में हूं जो 10-100 कॉलम के साथ 1000-100,000 पंक्तियों को संभालने में सक्षम है। यह बहुत अच्छा होगा अगर यह डेटा सेट प्रोफाइल कर सकता है, जो एक विशेषता केटल प्रकार है, लेकिन सुपर अच्छी तरह से नहीं है। मुझे इकाई परीक्षण में भी बनाया जाना चाहिए, जिसका अर्थ है कि मैं डेटा के नियंत्रण सेट बनाने में सक्षम हूं, और नियंत्रण सेट के खिलाफ किए गए परिवर्तन चलाता हूं। फिर मैं पंक्तियों और स्तंभों को चुनिंदा रूप से फ़िल्टर करने में सक्षम होना चाहता हूं क्योंकि मैं निर्माण को बदलने के बिना परिवर्तन का निर्माण करता हूं; उदाहरण के लिए, मैं रूपांतरण के माध्यम से एक डेटा सेट चलाता हूं, परिणामों को फ़िल्टर करता हूं, और अगली रन उन सेटों को स्वचालित रूप से पहली "तार्किक" घटना पर अवरुद्ध कर दिया जाता है; जो बदले में "बढ़ने" के लिए कम डेटा और प्रत्येक उन्नत पुनरावृत्ति प्रति कम रनटाइम का मतलब होगा; पागल अच्छा क्या होगा अगर मैं पंक्तियों/स्तंभों को फ़िल्टर करना चाहता हूं तो ऐप उनको ट्रैक कर रहा है, (और आउटपुट फ़िल्टर किया गया था)। और इकाई ने किसी भी बदलाव का परीक्षण/हाइलाइट किया। यदि मैंने कोई परिवर्तन किया है जो एप्लिकेशन लॉग को प्रभावित करेगा और "शाखा को तोड़ने" के आधार पर यूनिट परीक्षणों को ट्रैक करने की क्षमता है - यह मुझे चेतावनी देगा, मुझे डेटा संग्रहीत शाखा को डंप करने दें ... और/या ट्रैक आउटपुट की अगली पीढ़ी में अंतर के लिए प्राथमिक कुंजी, या यहां तक कि अस्पष्ट तर्क का उपयोग करके मिलान करने का प्रयास करें। और हाँ, मुझे पता है कि यह एक पाइप सपना है, लेकिन हे, मुझे लगा कि मैं पूछूंगा, बस अगर वहां कुछ है तो मैंने कभी नहीं देखा है।
टिप्पणी करने के लिए स्वतंत्र महसूस करें, मुझे किसी भी प्रश्न का उत्तर देने में खुशी होगी, या अतिरिक्त जानकारी प्रदान की जाएगी।
$ 1000 तक? आप उस नंबर पर कैसे पहुंचे? आपने किन उत्पादों को देखा है? –
@ एसएलॉट: "$ 1000 तक? आप उस नंबर पर कैसे पहुंचे?" कंपनियां बजट, वास्तव में पैसे खर्च करने में दिलचस्पी नहीं है। मैंने क्लोवरेलटी को देखा है; सीई में बहुत कम परिवर्तन समर्थन है। वास्तव में, ऐसा लगता है कि अधिकांश ईटीएल जटिल परिवर्तन भी नहीं करते हैं। Talend को नहीं मिला है, हालांकि जावा संस्करण में पर्ल संस्करण की तुलना में 60-70% अधिक परिवर्तन होते हैं। मुझे लगता है कि ई और एल पर सबसे अधिक ईटीएल फोकस है, टी नहीं; हालांकि मैं इस पर नया हूं और मुख्य रूप से वेब से डेटा निकालने के लिए अतीत में कपो/रोबोसाइट का उपयोग करता हूं; अब मैं डेटा ट्रांसफॉर्मेशन पर ध्यान केंद्रित कर रहा हूं – blunders
@ एसएलओटी: क्लॉवरेट की सीई सुविधाओं का एक तोड़फोड़ है, जिसे उन्होंने अभी पोस्ट किया है: http://www.cloveretl.com/products/community-edition/features – blunders