2013-10-03 6 views
7

क्या किसी को स्टाटा और हैडोप का उपयोग करके कोई अनुभव है? स्टेट 13 में अब Java Plugin API है, इसलिए मुझे लगता है कि उन्हें अच्छा खेलने के लिए सरल होना चाहिए।हैडोप और स्टाटा

मैं विशेष रूप से सांख्यिकीय विश्लेषण के लिए उपयुक्त फ़ॉर्म में लाने के लिए वेबलॉग डेटा का विश्लेषण करने में सक्षम होने में रूचि रखता हूं।

यह प्रश्न हाल ही में on Statalist आया, लेकिन कोई प्रतिक्रिया नहीं थी, इसलिए मैंने सोचा कि मैं यहां कोशिश करूँगा जहां दर्शकों को इस तकनीक के साथ अनुभव होने की अधिक संभावना है।

+0

एक लंबे समय Statalist दिग्गज, मैं तुलना लगता है के रूप में, हालांकि अच्छी तरह से मतलब है, एक छोटे से द्वेषजनक। मेरा अनुमान है कि आपको कोई जवाब नहीं मिल रहा है क्योंकि उत्तर "नहीं" है। –

+0

@ निक कॉक्स मेरा मतलब अपमान नहीं था। मेरे पास स्टातालिस्ट और उसके सदस्यों के लिए बहुत सम्मान है। मैं अपना अजीब वाक्यांश बदल दूंगा। –

+0

ठीक और धन्यवाद। –

उत्तर

1

दिमित्रि,

मुझे लगता है कि इस ELK ढेर (http://www.elastic.co) का उपयोग कर की तरह कुछ करने के लिए आसान होगा। लॉगस्टैश (मध्यम परत) में लॉग डेटा की सफाई और स्वरूपण के लिए अपाचे ल्यूसीन इंजन पर बनाए गए कई पार्सर्स/टोकनेज़र/विश्लेषण होते हैं और परिणामी डेटा को लोचदार खोज में धक्का दे सकते हैं, जो एक HTTP एपीआई का खुलासा करता है जिसे आप परिणाम प्राप्त करने के लिए काफी आसानी से कर्ल कर सकते हैं (उदाहरण के लिए , insheetjson का उपयोग करें और HTTP GET अनुरोध को यूआरएल के रूप में पास करें और इसे बिना किसी समस्या के स्टेटटा में आयात किया जाना चाहिए)।

मैं जैक्सन जेएसओएन लाइब्रेरी का उपयोग करने के लिए एक कार्यक्रम को एक साथ जोड़ने की कोशिश कर रहा हूं ताकि स्टाटा के भीतर से अधिक मजबूत JSON I/O क्षमताओं का निर्माण किया जा सके और यह सुनिश्चित करने के लिए दूसरों के साथ काम करने की कोशिश करने में कोई फर्क नहीं पड़ता।

आशा इस मदद करता है, बिली

0

मैं इस पर एक (un?) शिक्षित स्टैब ले जाऊंगा। जावा एपीआई के दिखने से, कॉलर स्टेटा को अनिवार्य रूप से एक डेटास्टोर के रूप में पेश करता प्रतीत होता है। यदि ऐसा है, तो मुझे लगता है कि स्टाटा डेटाबेस के रूप में हैडऑप दुनिया में फिट होगा और इसके अपने इनपुटफॉर्मेट और आउटपुटफॉर्मैट द्वारा एक्सेस किया जाएगा। आपके विशिष्ट मामले में मुझे लगता है कि आप एक StataOutputFormat लिखेंगे जो आपका reducer पार्स किए गए डेटा को लिखने के लिए उपयोग करेगा। केवल दोष यह है कि Stata क्षुधा मैं हे बाध्य होने के लिए/तो मैं नहीं जानता कि का उपयोग Hadoop वास्तव में के बाद से

  • मदद करने के लिए आपको लगता है कि सभी डेटा लिखने के लिए होगा जा रहा है करते हैं अपने संदर्भित टिप्पणी प्रतीत हो रहा है वैसे भी, और
  • लिखने वाला I/O बाध्य होगा, चाहे आप हैडऑप का उपयोग करें या नहीं।
संबंधित मुद्दे