2011-01-12 15 views
8

का उपयोग करके मैं समझने की कोशिश कर रहा हूं कि महोत्सव और हडूप को सहयोगी फ़िल्टरिंग के लिए कैसे उपयोग किया जाएगा। मैं एकल नोड कैसंद्रा सेटअप कर रहा हूँ। मैं कैसंद्रा से डेटा प्राप्त करना चाहता हूंमहॉट और हडूप

मुझे पहले हडूप के लिए स्पष्ट स्थापना चरणों और कैसंद्रा के साथ काम करने के लिए कहां मिल सकता है?

उत्तर

7

(मुझे लगता है कि यह एक ही सवाल तुम सिर्फ [email protected]? पर पूछा मेरा उत्तर प्रतिलिपि बनाई जा रही है।)

आप सब पर Hadoop की जरूरत नहीं है, और आप नहीं करते हैं, मैं सुझाव दूंगा कि आप सादगी के लिए इसका इस्तेमाल न करें। यह एक निश्चित बिंदु से पहले स्केल करने के लिए "आवश्यक बुराई" है।

आपके पास कैसंद्रा पर डेटा हो सकता है लेकिन आप इसे स्मृति में पढ़ने में सक्षम होना चाहेंगे। यदि आप फ़ाइल के रूप में डंप कर सकते हैं, तो आप FileDataModel का उपयोग कर सकते हैं। या, आप Cassandra पर आधारित एक बनाने के लिए FileDataModel में कोड अनुकरण कर सकते हैं।

फिर, अपने दो जरूरतों को आसानी से उत्तर दिया जाता है:

  1. यह भी एक सिफारिश समस्या नहीं है। उपयोगकर्ता की समानता के को कार्यान्वित करें, और इसे पर किसी अन्य उपयोगकर्ता से तुलना करें, और उच्चतम समानता वाले लोगों को चुनें। ( CachingUserSimilarity साथ रैपिंग एक बहुत मदद मिलेगी।)

  2. यह सिर्फ एक recommender समस्या है। जेनेरिक यूसर आधारित रीकैमेन्डर के साथ अपने उपयोगकर्ता समरूपता और डेटा मॉडल और आप कर चुके हैं।

यह निश्चित रूप से इससे अधिक जटिल हो सकता है, लेकिन यह एक अच्छा प्रारंभ बिंदु है।

यदि बाद में आप हडोप का उपयोग करते हैं, तो आपको इसके निर्देशों के अनुसार हडोप स्थापित करना होगा। कोई महाउट "सेटअप" नहीं है। अनुशंसाओं के लिए, आप एक सिफारिशकर्ता जोब कक्षाओं में से एक देखेंगे जो आपके हडोप क्लस्टर पर आवश्यक नौकरियों का आह्वान करता है। आप इसे "हडूप" कमांड के साथ चलाएंगे - फिर, यह वह जगह है जहां आपको हडोप को समझना होगा।

पुस्तक Mahout in Action पुस्तक में कुछ विस्तार से महाउट हडोप नौकरियां लिखती हैं।

3

पुस्तक में महाउट ने वास्तव में मुझे दस्तावेज़ों की निराशाजनक कमी से बचाया था।

मैं https://issues.apache.org/jira/browse/MAHOUT-180 का पालन कर रहा था ... जो 'हैडोप -jar' वाक्यविन्यास का सुझाव देता है जिसने मुझे केवल त्रुटियां दीं। पुस्तक के बजाय 'जार' है, और इसके साथ ही मेरा टेस्ट जॉब खुशी से चल रहा है।

यहाँ मैं क्या किया है:

  1. http://bickson.blogspot.com/2011/02/mahout-svd-matrix-factorization.html?showComment=1298565709376#c3501116664672385942 पर उपयोगिता इस्तेमाल किया एक महावत फ़ाइल स्वरूप के लिए अपने मैट्रिक्स की एक सीएसवी प्रतिनिधित्व कन्वर्ट करने के लिए। इसे हडोप फाइल सिस्टम में कॉपी किया गया।

  2. मैहआउट-उदाहरण-0.5-स्नैपशॉट-जॉब.जर अपलोड किया गया था, जो लैपटॉप पर ताजा निर्मित महोत्सव से हैडूप क्लस्टर के नियंत्रण बॉक्स पर था। वहां पर कोई अन्य महोत्सव नहीं है।\ , (जो मैं DFS -LS/उपयोगकर्ता/danbri साथ इस बात की पुष्टि हो जाती है Hadoop कॉन्फ़िगर किया गया है)

Hadoop जार ./mahout-examples-0.5-SNAPSHOT-job.jar:

  • इस Ran org.apache.mahout.math.hadoop.decomposer.DistributedLanczosSolver \ --input svdoutput.mht --output outpath --numRows 0 --numCols 4 --rank 50

    ... अब क्या मैं यह अधिकार मिल गया एक और मामला है, लेकिन ऐसा लगता है कि कुछ कर रहा है!

  • -1

    आप सीखने के लिए निम्नलिखित ट्यूटोरियल का पालन कर सकते हैं। हडोप की मूल बातें के बारे में स्पष्ट रूप से समझने और स्पष्ट करने के लिए इसकी आसानी:

    http://developer.yahoo.com/hadoop/tutorial/

    संबंधित मुद्दे