2013-07-03 8 views
6

ठीक है..मैंने इस प्रश्न के उत्तर के लिए वेब और इस साइट को खोजने का प्रयास किया है जो एक बहुत ही बुनियादी सवाल की तरह लगता है। मैं बड़ी डेटा प्रोसेसिंग के लिए पूर्ण नोब हूं।हैडोप और डेटाबेस के बीच संबंध

मैं एचडीएफएस और डेटाबेस के बीच संबंध जानना चाहता हूं। क्या यह हमेशा आवश्यक है कि एचडीएफएस का उपयोग करने के लिए, डेटा कुछ नोएसक्यूएल प्रारूप में हो? क्या कोई विशिष्ट डेटाबेस है जो हमेशा एचडीएफएस का उपयोग करते समय संलग्न होता है? मुझे पता है कि क्लौडेरा हडोप समाधान प्रदान करता है और वे एचबीएस का उपयोग करते हैं।

क्या मैं एक संबंधित डेटाबेस का उपयोग हैडोप के लिए मूल डेटाबेस के रूप में कर सकता हूं?

उत्तर

0

हैडोप का लाभ प्रतिलिपि के साथ डेटा स्टोर करने की क्षमता है, इसलिए आप एचडीओपी को "काम बंद कर सकते हैं" कह सकते हैं, एसक्यूएल सर्वर, और न ही यह बहुत समझ में आता है। एचबीएएस, हाइव और पिग वातावरण (और अन्य) हैं जिन्हें हडोप के साथ काम करने के लिए स्थापित किया जा सकता है, और वे नियमित रूप से एसक्यूएल भाषाओं की तरह दिखते हैं और महसूस करते हैं। Hortonworks' Sandbox देखें यदि आप 15 मिनट में 0 से बिग डेटा से, जैसा कि कहते हैं, के साथ कुछ खेलना चाहते हैं। उम्मीद है की यह मदद करेगा।

+0

यह मदद करता है। धन्यवाद। मैंने इस बिंदु पर विचार नहीं किया कि हैडोप डेटा को दोहराता है - हां, यह एक SQL डेटाबेस को मूल डेटाबेस के रूप में असंगत बनाता है। – crossvalidator

1

आप वास्तव में क्या हासिल करना चाहते हैं, यह आपके प्रश्न से स्पष्ट नहीं है।

एचडीएफएस और डाटाबेस के बीच केवल एक अप्रत्यक्ष संबंध है। एचडीएफएस एक फाइल सिस्टम है, डेटाबेस नहीं। हडोप समानांतर प्रसंस्करण ढांचे (मैपराइडस) और फाइल सिस्टम एचडीएफएस का संयोजन है। समानांतर प्रसंस्करण ढांचे को एचडीएफएस फ़ाइल सिस्टम से डेटा के कुछ हिस्सों को दबाकर और इनपुटफॉर्मैट का उपयोग करके पकड़ लिया जाता है। कुछ डेटाबेस जैसे: ओरेकल नोएसक्यूएल डाटाबेस (ओएनडीबी), कैसंद्रा, रीक, दूसरों के पास उनके डेटा युक्त इनपुटफॉर्मेट वापस करने की क्षमता है, इसलिए वे एचडीएफएस से डेटा की तरह मैपराइडस प्रोसेसिंग के स्रोत के रूप में भाग ले सकते हैं।

तो फिर, आप क्या करना चाहते हैं?

हैडोप और एचडीएफएस सामान्य रूप से उपयोगी होते हैं जब आपके पास बड़ी मात्रा में डेटा होता है जिसे अभी तक उच्च स्तर की प्रसंस्करण के लिए आवश्यक कुछ मॉडल में एकत्रित नहीं किया गया है और/या संरचित किया गया है। अवसर पर (यद्यपि वास्तव में आवश्यक रूप से अधिक बार मजबूर किया जाता है), हैडोप का उपयोग उच्च स्तरीय प्रसंस्करण करने के लिए किया जा सकता है जो आम तौर पर एक अन्य प्रसंस्करण/भंडारण तकनीक में किया जाता है जो एक सभ्य मॉडल का लाभ उठाता है। Google Instant, MapReduce पर चलाने के लिए प्रयुक्त खोज सूचकांक निर्माण को सोचें, फिर उन्होंने एक मॉडल विकसित किया और अब बेहतर दृष्टिकोण का उपयोग करें .. Google Instant को अकेले MapReduce पर नहीं कर सका।

+0

मैं वास्तव में जानना चाहता हूं कि किस प्रकार के डेटाबेस का उपयोग सीधे हडोप के साथ किया जा सकता है, यानी बिना किसी कनेक्टिंग प्रोग्राम के जो डेटा प्रारूप बदल सकता है। असल में, मुझे समझ में नहीं आया कि एसक्यूओपी क्यों मौजूद है। हम हाडोप पर सीधे SQL डेटा का उपयोग क्यों नहीं कर सकते हैं। जैसा कि डॉक्टर डैन ने बताया, डेटा की प्रतिकृति एसक्यूएल के साथ व्यवहार्य नहीं होगी। मुझे आश्चर्य है कि क्या कोई अन्य चिंताएं हैं? – crossvalidator

+0

@crossvalidator: कृपया इस टिप्पणी के जवाब में संपादित उत्तर देखें। यहां वह लिखना संभव नहीं था। – Tariq

12
I want to know the relationship between HDFS and databases. 

वहाँ 2. के बीच इस तरह के रूप में कोई relation आप अभी भी कुछ समानता, केवल एक चीज है जो आम है 2 के बीच store आंकड़ों के प्रावधान नहीं है पता लगाना चाहते हैं है। लेकिन यह किसी भी एफएस और डीबी संयोजन के समान है। उदाहरण के लिए, MySQL और ext3। आप कहते हैं कि आप MySQL में डेटा संग्रहीत कर रहे हैं, लेकिन आखिरकार आपका डेटा आपके एफएस पर संग्रहीत होने में है। आम तौर पर लोग एचडीएफएस द्वारा प्रदान समानांतरता और वितरित व्यवहार का फायदा उठाने के लिए अपने हडोप क्लस्टर के शीर्ष पर एचबीएसई जैसे नोएसक्यूएल डेटाबेस का उपयोग करते हैं।

Is it always necessary that to use HDFS, the data be in a some NoSQL format? 

वास्तव में NoSQL format जैसी कोई चीज़ नहीं है। आप डेटा, पाठ, द्विआधारी, किसी भी प्रकार के HDFS उपयोग कर सकते हैं एक्सएमएल आदि आदि

Is there a specific database that always comes attached when using HDFS? 

नहीं। केवल एक चीज है जो HDFS के साथ मिलकर आता MapReduce framework है। आप एचडीएफएस के साथ काम करने के लिए स्पष्ट रूप से डीबी बना सकते हैं। लोग अक्सर एचडीएफएस के शीर्ष पर नोएसक्यूएल डीबी का उपयोग करते हैं। कैसंद्रा, एचबीज़ इत्यादि जैसे कई विकल्प हैं। यह तय करने के लिए कि आप किस का उपयोग करना चाहते हैं, यह पूरी तरह से आपके ऊपर है।

Can I use a relational database as the native database for Hadoop? 

कोई ओओटीबी सुविधा नहीं है जो इसकी अनुमति देता है।इसके अलावा, यह हडोप के साथ आरडीबीएमएस का उपयोग करने के लिए ज्यादा समझ में नहीं आता है। हडोप उन समय के लिए विकसित किया गया था जब आरडीबीएमएस उपयुक्त विकल्प नहीं है, जैसे डेटा के पीबी को संभालने, असंगठित डेटा को संभालने आदि। ऐसा कहकर, आपको हडोप को आरडीबीएमबी के प्रतिस्थापन के रूप में नहीं सोचना चाहिए। दोनों के पास पूरी तरह से अलग-अलग लक्ष्य हैं।

संपादित करें:

आम तौर पर लोगों को Hadoop साथ NoSQL डीबीएस (HBase की तरह, कैसेंड्रा) का उपयोग करें। हडूप के साथ इन डीबी का उपयोग केवल विन्यास का मामला है। इसे प्राप्त करने के लिए आपको किसी भी कनेक्टिंग प्रोग्राम की आवश्यकता नहीं है। @ डॉक्टर डैन द्वारा किए गए बिंदु के अलावा, एसक्यूएल डीबी के स्थान पर नोएसक्यूएल डीबी चुनने के पीछे कुछ और कारण हैं। एक बात size है। इन नोएसक्यूएल डीबी ने बड़ी क्षैतिज स्केलिबिलिटी प्रदान की जो आपको आसानी से डेटा के पीबी स्टोर करने में सक्षम बनाता है। आप परंपरागत प्रणालियों को स्केल कर सकते हैं, लेकिन लंबवत। डेटा का complexity एक और कारण है। वे स्थान, जहां इन डीबी का उपयोग किया जा रहा है, ज्यादातर अत्यधिक अनियंत्रित डेटा को संभालते हैं जो परंपरागत प्रणालियों का उपयोग करने से निपटना बहुत आसान नहीं है। उदाहरण के लिए, सेंसर डेटा, लॉग डेटा इत्यादि

असल में, मुझे समझ में नहीं आया कि एसक्यूओपी क्यों मौजूद है। हम क्यों नहीं हडोप पर एक SQL डेटा का उपयोग कर सकते हैं।

हालांकि हैडोप आपकी बिगडाटा आवश्यकताओं को संभालने में बहुत अच्छा है, लेकिन यह आपकी सभी आवश्यकताओं का समाधान नहीं है। यह वास्तविक समय की जरूरतों के लिए उपयुक्त नहीं है। मान लीजिए कि आप एक बहुत ही विशाल डेटासेट के साथ एक ऑनलाइन लेनदेन कंपनी हैं। आप पाते हैं कि आप इस डेटा को हडोप का उपयोग करके आसानी से संसाधित कर सकते हैं। लेकिन समस्या यह है कि आप हडोप के साथ ग्राहकों की वास्तविक समय की जरूरतों को पूरा नहीं कर सकते हैं। यह वह जगह है जहां एसक्यूओपी तस्वीर में आता है। यह एक आयात/निर्यात उपकरण है जो आपको SQL डीबी और हाडोप के बीच डेटा स्थानांतरित करने की अनुमति देता है। आप अपने बिगडाटा को अपने हडोप क्लस्टर में ले जा सकते हैं, इसे वहां संसाधित कर सकते हैं और फिर परिणामों को अपने ग्राहकों की वास्तविक समय की ज़रूरतों को पूरा करने के लिए एसक्यूओपीपी का उपयोग करके अपने एसक्यूएलबी में वापस धक्का दे सकते हैं।

एचटीएच

+1

बहुत अच्छा स्पष्टीकरण ... पता नहीं क्यों उपयोगकर्ता ने इसे उत्तर के रूप में स्वीकार नहीं किया है ... फिर भी +1 :) – Trialcoder

संबंधित मुद्दे