2012-01-12 7 views
8

ठीक है, मैं हडोप और मैप्रिडस सीखने का प्रयास कर रहा हूं। मैं वास्तव में मैप्रिडस से शुरू करना चाहता हूं और मुझे जो मिल रहा है, मैपर्स और रेड्यूसर आदि के कई सरल उदाहरण हैं। हालांकि, मुझे कुछ याद आ रहा था। जबकि एक उदाहरण दिखाता है कि दस्तावेज़ में किसी शब्द की कितनी घटनाएं हैं, यह समझना आसान है कि यह वास्तव में मुझे "असली दुनिया" समस्याओं को हल करने में मदद नहीं करता है। क्या किसी को एक psuedo-यथार्थवादी स्थिति में मैप्रिडस लागू करने के एक अच्छे ट्यूटोरियल के बारे में पता है। उदाहरण के लिए, मैं एडवेंचरवर्क के समान डेटा स्टोर के शीर्ष पर हैडूप और मैप्रिडस का उपयोग करना चाहता हूं। अब मैं मई के महीने में दिए गए उत्पाद के लिए ऑर्डर प्राप्त करना चाहता हूं। यह एक हडूप/मैप्रिडस परिप्रेक्ष्य से कैसे दिखता है? (मुझे एहसास है कि यह समस्या का प्रकार नहीं हो सकता है मैप्रिडस को हल करने का इरादा है, लेकिन यह जल्दी से दिमाग में आया।)डमीज के लिए मैप्रिडस

कोई भी दिशा मददगार होगी।

उत्तर

13

पुस्तक Hadoop: The Definitive Guide पुस्तक शुरू करने के लिए एक अच्छी जगह है। प्रारंभिक अध्याय आपके लिए यह पता लगाने के लिए वास्तव में उपयोगी होना चाहिए कि MapReduce कहां उपयोगी है और जब आपको इसका उपयोग करना चाहिए। अधिक उन्नत अध्यायों में शब्द गणना की तुलना में बहुत अधिक यथार्थवादी उदाहरण हैं।

यदि आप गहरे गोताखोर करना चाहते हैं, तो आप Data-Intensive Text Processing with MapReduce देख सकते हैं। इसमें निश्चित रूप से "असली दुनिया" उपयोग के मामले हैं, लेकिन ऐसा लगता है कि आप टेक्स्ट प्रोसेसिंग करने में रुचि रखते हैं।


अपने विशेष उदाहरण के लिए, मुख्य बातों का एहसास करने हैं:

  • नक्शा चरण, पार्स के लिए ज्यादातर है डेटा बदलने, और डेटा को छान। रिकार्ड-बाय-रिकॉर्ड, रिकॉर्डिंग रिकॉर्ड करने के लिए साझा-कुछ भी दृष्टिकोण नहीं सोचें। शब्द गणना में, यह रेखा को पार्स कर रहा है और शब्दों को विभाजित कर रहा है।
  • कम चरण एकत्रीकरण के बारे में है: गिनती, औसत, न्यूनतम/अधिकतम, आदि शब्द गणना में, यह शब्द के उदाहरणों की गणना कर रहा है।

तो, यदि आप मई के महीने में किसी दिए गए उत्पाद के लिए सभी रिकॉर्ड चाहते हैं, तो आप सभी डेटा के माध्यम से फ़िल्टर करने के लिए केवल एक मानचित्र का उपयोग कर सकते हैं और केवल वही रिकॉर्ड रखना चाहते हैं जो आप चाहते हैं। हालांकि, आपको वास्तव में हडोप के लिए उपयोगी क्या है इसके बारे में पढ़ना चाहिए। सवाल यह है कि हडोप बेहतर फिट होगा: मुझे इस बात की गिनती दें कि हर महीने हर आइटम कितनी बार खरीदा गया था (शायद मैट्रिक्स बनाने के लिए)। आप शायद ही कभी विशिष्ट रिकॉर्ड की तलाश कर रहे हैं जैसे आप सुझाव देते हैं।

यदि आप अधिक वास्तविक समय पहुंच प्लेटफॉर्म की तलाश में हैं, तो आपको हडोप के बारे में सीखने के बाद HBase देखें।

+0

बकाया! आपको बहुत - बहुत धन्यवाद! – RockyMountainHigh

+4

"मैं शब्द गणना के अलावा अन्य उदाहरण देखना चाहता हूं" नए लोगों के साथ एक आम समस्या है, और दुर्भाग्यवश, सर्वोत्तम स्पष्टीकरण प्रिंट में हैं। –

4

हडोप विभिन्न प्रकार की समस्याओं के लिए उपयोग किया जा सकता है। इस ब्लॉग एंट्री को atbrox से देखें। इसके अलावा, इंटरनेट पर हैडोप और मैपरेडस के बारे में बहुत सारी जानकारी है और खो जाना आसान है। तो, here हैडोप पर संसाधनों की समेकित सूची है।

बीटीडब्ल्यू, हैडोप - The Definitive Guide 3rd edition मई में है। ऐसा लगता है कि इसमें MRv2 (नेक्स्टजेन मैपराइडस) भी शामिल है और इसमें अधिक केस स्टडीज भी शामिल हैं। दूसरा संस्करण ऑरेंजोक्टोपस द्वारा वर्णित है।

+0

टूटा लिंक .... – UpTheCreek

+0

अपडेट किया गया धन्यवाद –

0

MapReduce एक जटिल विषय हो सकता है इसलिए मुझे इसे एक साधारण समस्या के दृष्टिकोण को लागू करके इसे समझना आसान हो गया। फिर मैं यह वर्णन करने के लिए जाता हूं कि मैपराइडस क्लस्टर में एक ही समस्या को हल करने के लिए इसे सरल बनाता है। आप यहां मेरे आलेख में एक नज़र डाल सकते हैं: Intro to Parallel Processing with MapReduce

मुझे बताएं कि क्या आपको लगता है कि यह आलेख MapReduce और Hadoop को समझना आसान बनाता है।

संबंधित मुद्दे