दिलचस्प सवाल। मैं एक ही ट्रैक पर हूं।
एमएलबीब के बारे में आपका पहला प्रश्न। मुझे लगता है कि आप Apache Spark MLlib, अपाचे स्पार्क के शीर्ष पर मशीन लर्निंग (एमएल) कार्यान्वयन का मतलब है।तो मेरा निष्कर्ष यह है: आप अपने Titan/Cassandra आधारित ग्राफ़ डेटाबेस में डेटा का उपयोग करके क्लस्टरिंग और वर्गीकरण जैसे उद्देश्यों के लिए एमएल एल्गोरिदम चलाने के लिए चाहते हैं। कृपया ध्यान दें कि आप अपने टाइटन/कैसंड्रा ग्राफ डेटाबेस के शीर्ष पर क्लस्टरिंग जैसी चीजों को करने के लिए स्पिडी द्वारा वर्णित पेज रैंक जैसे ग्राफ प्रोसेसिंग एल्गोरिदम का भी उपयोग कर सकते हैं। दूसरे शब्दों में: जब आपका प्रारंभिक बिंदु ग्राफ डेटाबेस होता है तो आपको क्लस्टरिंग करने के लिए एमएल की आवश्यकता नहीं होती है।
अपाचे स्पार्क MLlib, भविष्य सबूत और व्यापक रूप से समर्थित उनके सबसे हाल घोषणाएं नई एमएल एल्गोरिदम के बारे में किया गया प्रतीत हो रहा है, हालांकि Apache Mahout, एक और अपाचे एमएल परियोजना, समर्थित एमएल एल्गोरिदम की राशि के संबंध और अधिक परिपक्व है। अपाचे महाउट ने अपाचे स्पार्क को अपनी डेटा स्टोरेज परत के रूप में भी अपनाया है, इसलिए मैं इस पोस्ट में इसका उल्लेख करता हूं। अपाचे स्पार्क ऑफ़र मेमोरी कंप्यूटिंग के अलावा, मशीन सीखने के लिए उल्लिखित एमएलआईबीबी, Spark SQL स्पार्क, GraphX पर Hive जैसा है, जो एक ग्राफ प्रोसेसिंग सिस्टम है जैसा कि स्पिडी और Spark Streaming स्ट्रीमिंग डेटा की प्रोसेसिंग के लिए समझाया गया है।
मैं अपाचे स्पार्क को लॉजिकल डेटा लेयर के रूप में मानता हूं, जो कि रस्सी परतों (रेजिएंट डिस्ट्रिब्यूटेड डेटासेट्स) के रूप में प्रतिनिधित्व करता है जैसे कि कैसंड्रा, हाडोप/एचकेटल और एचबीज़। अपाचे स्पार्क कैसंद्रा के लिए एक कनेक्टर प्रदान करता है। ध्यान दें कि आरडीडी अपरिवर्तनीय हैं, आप स्पार्क का उपयोग कर डेटा को बदल नहीं सकते हैं, आप केवल स्पार्क में डेटा को संसाधित और विश्लेषण कर सकते हैं। अपाचे स्पार्क लॉजिकल स्टोरेज लेयर आरडीडी के बारे में: आप पुराने पुराने एसक्यूएल टाइम्स में एक आरडीडी की तुलना में तुलना कर सकते हैं, आरडीडी आपको उदाहरण के लिए एचबीएस के कैसंड्रा में एक टेबल देता है। ध्यान दें कि अपाचे स्पार्क 3 विकास वातावरण के लिए एक एपीआई प्रदान करता है: स्कैला, जावा और पायथन।
Apache Giraph एक ग्राफ प्रसंस्करण टूलसेट भी है, जो अपाचे स्पार्क ग्राफ़एक्स के समतुल्य कार्यात्मक है। अपाचे गिरफ डेटा स्टोरेज परत के रूप में हैडोप का उपयोग करता है। आप टाइटन/कैसंद्रा का उपयोग कर रहे हैं ताकि जब आप अपाचे गिरफ को अपने समाधान के रूप में चुनते हैं तो आप शायद डेटा माइग्रेशन कार्यों को दर्ज करेंगे। दूसरा, आपने एमएलआईबीआईबी का उपयोग करके एमएल के संबंध में एक प्रश्न के साथ अपनी पोस्ट शुरू की और अपाचे गिरफ एमएल समाधान नहीं है।
गिरफ और ग्रीमलिन के बारे में आपका निष्कर्ष सही नहीं है: वे समान नहीं हैं हालांकि दोनों ग्राफ डेटाबेस का उपयोग कर रहे हैं। गिराफ ग्राफ प्रसंस्करण के लिए एक समाधान है जैसा कि स्पिडी समझाया गया है। Giraph का उपयोग करके आप पेज रैंक जैसे ग्राफ विश्लेषण एल्गोरिदम निष्पादित कर सकते हैं, उदा। जिनके पास सबसे अनुयायियों हैं, जबकि Gremlin ट्रैवर्सिंग के लिए है। कशेरुक और किनारों के गुणों के परिणाम सेट प्राप्त करने वाली संस्थाओं (शिखर) के बीच जटिल संबंधों (किनारों) का उपयोग करके ग्राफ डेटाबेस को कतारबद्ध करें।
मानक टाइटन-1.0.0-हैडोप 1 वितरण में फ़ाइल को पढ़ने- cassandra.properties नोट करें; इसमें "स्पार्कग्राफ कंप्यूटर कॉन्फ़िगरेशन" शामिल है – arivero