2012-01-01 18 views
22

क्या मैपरेडस (Google, हैडोप) के लिए कोई वैकल्पिक प्रतिमान है? & को विभाजित करने के लिए कोई अन्य उचित तरीका क्या है बड़ी समस्याएं?MapReduce विकल्प

+0

MapReduce एल्गोरिदम या प्रतिमान नहीं है, यह तकनीक है। –

+4

@ralu: बड़ी समस्याओं से निपटने के कई तरीके हैं।MapReduce निश्चित रूप से उनमें से केवल एक है और यह निश्चित रूप से दोनों प्रतिमान और एल्गोरिदम है। इसके अलावा इसका कार्यान्वयन प्रौद्योगिकी बन जाता है, लेकिन मुझे कार्यान्वयन के बजाय विचारों में दिलचस्पी नहीं है। धन्यवाद। – Cartesius00

+0

विभाजन और विलय के रूप में आप अपनी समस्या के बारे में क्यों सोचते हैं। आपको बस समस्या हल करने की जरूरत है। उदाहरण के लिए अपाचे पिग भाषा की तरह एसक्यूएल का उपयोग करके श्वेत डेटा का लेनदेन करता है। और सोचने का कोई विभाजन और विलय तरीका नहीं है हालांकि यह सैकड़ों मशीनों के समूह पर चल सकता है और हडोप को मंच के रूप में उपयोग करता है। –

उत्तर

12

निश्चित रूप से। उदाहरण के लिए, Bulk Synchronous Parallel देखें। मानचित्र/घटा वास्तव में समस्याओं को कम करने का एक बहुत ही सीमित तरीका है, हालांकि प्रतिबंध यह हैडोप जैसे ढांचे में प्रबंधनीय बनाता है। सवाल यह है कि यदि आपकी समस्या को मानचित्र/कम करने की सेटिंग में दबाएं, या यदि डोमेन-विशिष्ट समांतरता योजना बनाना आसान है और सभी कार्यान्वयन विवरणों का ख्याल रखना आसान है। वास्तव में, सुअर, हडोप के शीर्ष पर केवल एक अमूर्त परत है जो मैप-रेडस-वाई से मैप-रेडस-संगत तक कई मानक समस्या परिवर्तनों को स्वचालित करता है।

संपादित 26.1.13: मिले एक nice up-to-date overview here

+3

[अपाचे हामा] (http://incubator.apache.org/hama/) बीएसपी लागू करता है। हामा को [यार्न (फिर भी एक अन्य संसाधन प्रबंधक)] (http://wiki.apache.org/hama/GettingStartedYARN) पर भेज दिया गया है जो हडोप 0.23 का हिस्सा है। अपाचे हामा पर यह [ब्लॉग] (http://codingwiththomas.blogspot.com/) देखें। –

+0

धन्यवाद प्रवीण;) कृपया हमारे वेबसाइट और विकी पर जाएं http://amaubator.apache.org/hama/ –

9

फिल Colella पहचान वैज्ञानिक गणना के लिए सात संख्यात्मक तरीके बिखरने और प्रसंस्करण नोड्स के बीच डेटा की सभा के पैटर्न पर आधारित है, और उन्हें कहा जाता है 'बौने'। ये दूसरों के द्वारा करने के लिए जोड़ा गया है, एक सूची Dwarf Mine पर उपलब्ध है:

  1. घने रेखीय बीजगणित
  2. विरल रेखीय बीजगणित
  3. स्पेक्ट्रल तरीके
  4. एन शारीरिक तरीके
  5. संरचित ग्रिड
  6. अनियंत्रित ग्रिड
  7. मैपराइडस
  8. कॉम्बिनेशन लॉगी ग
  9. ग्राफ़ Traversal
  10. गतिशील प्रोग्रामिंग
  11. पीछे और शाखा-और-बाउंड
  12. ग्राफिकल मॉडल
  13. परिमित अवस्था की मशीनों
0

माइक्रोसॉफ्ट के Dryad MapReduce से अधिक सामान्य होने का दावा किया है।

2

अपडेट (अगस्त 2014): स्ट्रैटोस्फीयर को अब Apache Flink (सेते हुए) कहा जाता है।

Stratosphere पर एक नज़र डालें। यह एक और बड़ा डेटा रनटाइम है जो अधिक ऑपरेटरों (मानचित्र, कमी, जुड़ना, संघ, क्रॉस, पुनरावृत्त, ...) प्रदान करता है। यह उन्नत डेटा फ्लो ग्राफ को परिभाषित करने की अनुमति देता है (हैडोप एमआर के साथ, आपको चेन जॉब्स करना होगा)।

स्ट्रेटोस्फीयर भी अपने ग्राफ प्रोसेसिंग अबास्ट्रक्शन (Spargel कहा जाता है) के साथ बीएसपी का समर्थन करता है।

यदि आप वैज्ञानिक कागजात पढ़ना चाहते हैं, तो Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing पर एक नज़र डालें, यह सिस्टम की सैद्धांतिक पृष्ठभूमि बताती है।

क्षेत्र में एक और प्रणाली Spark है जिसका अपना मॉडल (आरडीडी) है। चूंकि बीएसपी का उल्लेख यहां किया गया है, इसलिए GraphLab पर भी एक नज़र डालें, यह पेशकश बसपा के लिए एक विकल्प है।

संबंधित मुद्दे