2008-12-01 12 views
13

मैं कुछ सामान्य जानकारी ढूंढ रहा हूं कि अन्य लोग Hadoop या अन्य MapReduce जैसी तकनीकों का उपयोग कैसे कर रहे हैं। आम तौर पर, मैं उत्सुक हूं कि क्या आप मौजूदा डेटा सेट (जैसे वेब सर्वर लॉग फाइल) को संसाधित करने के लिए एमआर अनुप्रयोग लिख रहे हैं, या आप ऐसे अनुप्रयोग लिख रहे हैं जो नए डेटा सेट उत्पन्न और संसाधित करते हैं?आप MapReduce/Hadoop का उपयोग कैसे करते हैं?

संपादित करें: फ़ॉलो-अप प्रश्न

(1) क्या तुमने कभी अन्य एमआर कार्यक्रमों द्वारा उत्पन्न डेटा के खिलाफ एक एमआर कार्यक्रम क्रियान्वित करते हैं?

(2) क्या आपको कभी भी एमआर का उपयोग कर मौजूदा डेटा सेट को संशोधित करने की आवश्यकता है?

(3) क्या आपने कभी अपने डेवलपर्स के साथ अपने डेटा सेट साझा किए हैं?

+0

यह एक पुरानी पोस्टिंग है। मैंने पहले ही मैपरेडस पर अपना शोध पत्र प्रकाशित कर लिया है। अधिक जानकारी (और हमारा बेंचमार्क स्रोत कोड) यहां पाया जा सकता है: [http://database.cs.brown.edu/projects/mapreduce-vs-dbms/](http://database.cs.brown। edu/परियोजनाओं/mapreduce-बनाम-डीबीएमएस /) – apavlo

उत्तर

2

मैं प्रोग्रामर गतिविधि के अपने मामले के निशान में मौजूदा डेटा सेट का विश्लेषण कर रहा हूं।

8

फेसबुक से फॉक्स न्यूज़ के सब कुछ के उदाहरणों के लिए PowerdBy Hadoop विकी चेकआउट करें और वे इसका उपयोग कैसे कर रहे हैं।

1

मैं nutch के हिस्से के रूप Hadoop का इस्तेमाल किया है, और निर्माण के लिए/वेब रेखांकन और पाठ का विश्लेषण करने

(1) कई कार्य, एक ही बार में नहीं किया जा सकता तो एमआर उत्पन्न डेटा पर एमआर चलाने की जरूरत आवश्यक है।

(2) नच के साथ क्रॉल करते समय, ऐसी स्थितियां होती हैं जब आपको क्रॉलबल्ड या अन्य डेटा को फ़िल्टर या सामान्यीकृत करने की आवश्यकता होती है। (तो, हाँ)

(3) अब तक मुख्य रूप से डंप या परिणाम किसी प्रकार में। अभी तक "मूल" एमआर डेटा के रूप में नहीं।

0

मेरे दो उपयोग अब तक बड़े व्यवहार डेटा सेट (वेब, मोबाइल हैंडसेट, & सी से एकत्रित) का विश्लेषण किया गया है और बड़ी समस्याओं के समानांतर दृष्टिकोण (उदाहरण के लिए, एनपी-पूर्ण में स्थानीय ऑप्टिमा खोजने के लिए जेनेटिक एल्गोरिदम का उपयोग करना समस्या स्थान)।

सामान्य मामले में, एमआर प्रवाह बहु-चरण होते हैं, इसलिए मैं अक्सर पहले एमआर चरण द्वारा उत्पन्न डेटा के खिलाफ चल रहा हूं।

1

सामान्य तौर पर, मैं करने के लिए उत्सुक हूँ आप (वेब ​​सर्वर लॉग फाइल की तरह) प्रक्रिया वर्तमान डेटा सेट करने के लिए एमआर अनुप्रयोगों लिख रहे हैं, या आप लेखन अनुप्रयोग जो पैदा करते हैं और नए डेटा सेट पर कार्रवाई कर रहे हैं?

काम है कि मैं एमआर अनुप्रयोगों के साथ कर रहा हूँ वर्तमान डेटा सेट है कि नए डेटा सेट है, जो उत्पन्न करने के लिए इस्तेमाल किया जा सकता प्रसंस्करण शामिल है ...

(1) क्या तुमने कभी एक एमआर कार्यक्रम क्रियान्वित करें अन्य एमआर कार्यक्रमों द्वारा उत्पन्न डेटा के खिलाफ?

... हाँ मैं करता हूं। इसे चेनिंग मानचित्र/कम करने के संचालन के रूप में जाना जाता है, जहां आप एकाधिक मानचित्र को लिंक करते हैं और अनुक्रम में नौकरियों को कम करते हैं।

(2) क्या आपको कभी एमआर का उपयोग कर मौजूदा डेटा सेट को संशोधित करने की आवश्यकता है?

एमआर का विचार आपके मौजूदा डेटा सेट में फेंकना है और इसके बारे में जानकारी को संसाधित करने और विश्लेषण करने के लिए वास्तव में इसे संशोधित नहीं करना है। एकमात्र मामला जहां मुझे ऐसा करना पड़ा है, डेटा सेट को पार्सल में विभाजित करना है।

(3) क्या आपने कभी अपने डेवलपर्स के साथ अपने डेटा सेट साझा किए हैं?

सक्रिय एमआर अनुप्रयोगों में शामिल बहुत से कोड को मालिकाना माना जाता है, इसलिए यह अन्य डेवलपर्स के साथ साझा करना कुछ हद तक एक मुद्दा है; यदि आप उन पुस्तकों के साथ काम करने के लिए नमूना डेटा सेट चाहते हैं जो मैं अनुशंसा करता हूं कि प्रो हैडोप (वेनेर), हैडोप इन एक्शन (लैम), और हडोप द डिफिनिटिव गाइड (व्हाइट) हैं।

संबंधित मुद्दे