हैडोप मशीन लर्निंग/डेटा खनन परियोजना विचार?

मैं स्नातक सीएस छात्र (डेटा खनन और मशीन लर्निंग) हूं और कोर जावा (> 4 साल) के लिए अच्छा प्रदर्शन कर रहा हूं। मैंने हडोप और मैप/हैडोप मशीन लर्निंग/डेटा खनन परियोजना विचार?

पर सामानों का एक गुच्छा पढ़ा है, अब मैं बेहतर समझ प्राप्त करने के लिए इस सामान (कोर के अपने खाली समय पर) पर एक परियोजना करना चाहता हूं।

किसी भी अच्छे परियोजना विचारों की वास्तव में सराहना की जाएगी। मैं सिर्फ यह सीखने के लिए करना चाहता हूं, इसलिए मुझे वास्तव में पहिया का पुन: आविष्कार करने में कोई फर्क नहीं पड़ता। इसके अलावा, डेटा खनन/मशीन सीखने से संबंधित कुछ भी एक जोड़ा बोनस होगा (मेरे शोध के साथ फिट बैठता है) लेकिन बिल्कुल जरूरी नहीं है।

स्रोत

2011-02-04 dreamer13134

ग्राफ खनन से आपका क्या मतलब है? आप अपनी रुचियों को क्या सीखना/बनाना/सुधार करना चाहते हैं? मेरे पास कुछ सुझाव हैं लेकिन पहले अपनी व्यक्तिगत रुचि-फ़ील्ड का इंतजार करना चाहते हैं ... – Sam

ग्राफ़ खनन से, मेरा मतलब है कि मैंने बड़े ग्राफ (फ़्लिकर, डीबीएलपी) पर ऑप्टिमाइज़ेशन समस्याओं पर काम किया है और वर्तमान में कुछ सामाजिक नेटवर्क ग्राफ विश्लेषण पर काम कर रहा हूं जिसमें विषय शामिल है ट्विटर डेटा में मॉडलिंग और बड़े ग्राफ के कम रैंक मैट्रिक्स सन्निकटन पर भी। अन्यथा, मुझे विशेष रूप से मशीन लर्निंग और डेटा खनन समस्याओं में दिलचस्पी है। हालांकि, हडोप के लिए मैं किसी भी गैर-तुच्छ लेकिन गैर-अनुसंधान परियोजना की तलाश में हूं, जो कि मैं अपने खाली समय में कर सकता हूं, बस बेहतर समझने के लिए। – dreamer13134

आपने अपनी रुचि के बारे में कुछ भी नहीं लिखा है। मुझे पता है कि ग्राफ खनन में एल्गोरिदम हैडऑप ढांचे पर लागू किया गया है। यह सॉफ्टवेयर http://www.cs.cmu.edu/~pegasus/ और कागज: "पेगासस: एक पेटा-स्केल ग्राफ खनन प्रणाली - कार्यान्वयन और अवलोकन" आपको प्रारंभिक बिंदु दे सकता है।

आगे, यह लिंक आपके प्रश्न के समान कुछ चर्चा करता है: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/ लेकिन यह अजगर में है। और, एंड्रयू एनजी द्वारा "मल्टीकोर" पर मशीन लर्निंग के लिए मानचित्र-कमी "का एक बहुत अच्छा पेपर है।

इसी तरह के विषय पर एक एनआईपीएस 200 कार्यशाला थी "बड़े पैमाने पर मशीन सीखना: समांतरता और भारी डेटासेट"। आप कुछ पेपर ब्राउज़ कर सकते हैं और एक विचार प्राप्त कर सकते हैं।

संपादित करें: इसके अलावा वहाँ अपाचे महावत है http://mahout.apache.org/ -> "हमारे समूह है, जो वर्गीकरण और बैच के लिए कोर एल्गोरिदम आधारित सहयोगी छानने मानचित्र का उपयोग अपाचे Hadoop के शीर्ष पर लागू किया जाता है/प्रतिमान को कम करने"

स्रोत

2011-02-04 07:03:15 iinception

पॉइंटर्स के लिए बहुत बहुत धन्यवाद। मैं इसकी सराहना करता हूं। – dreamer13134

मैंने मूल रूप से मशीन सीखने, मेरे मास्टर्स में ग्राफ खनन सामग्री पर ध्यान केंद्रित किया है और अतिरिक्त कौशल-सेट के रूप में हैडोप सीखना चाहता हूं। मैं महौत जैसी परियोजनाओं से गुजर चुका हूं, लेकिन मैं गहरी समझ के साथ-साथ कुछ बड़े पैमाने पर सॉफ्टवेयर विकास के लिए खुद को कुछ बनाना चाहता हूं। – dreamer13134

देखें http://www.quora.com/Machine-Learning/What-are-some-good-class-projects-for-machine-learning-using-MapReduce

और कुछ अच्छा खिलौना परियोजनाओं शुरू करने के लिए के साथ: http://www.quora.com/Programming-Challenges-1/What-are-some-good-toy-problems-in-data-science

स्रोत

2011-06-15 00:41:38 alex

क्यों आप उन्हें अतिरिक्त एल्गोरिथम को लागू मदद करके अपाचे Hadoop/महावत में योगदान नहीं है?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

"खुला" के रूप में चिह्नित एल्गोरिदम की एक संख्या है। मेरी समझ के लिए, वे इन्हें लागू करने में सहायता का उपयोग कर सकते हैं? और इस सूची से सैकड़ों एल्गोरिदम भी गायब हैं।

किसी भी तरह से, क्योंकि आप हडोप के साथ कुछ करना चाहते हैं, तो आप क्यों नहीं पूछते हैं कि उन्हें कुछ यादृच्छिक इंटरनेट साइट पर पूछने के बजाय की आवश्यकता क्यों है?

स्रोत

2012-05-06 09:44:57

हाडोप पर पदानुक्रमित एग्ग्लोमेमेरेटिव क्लस्टरिंग को लागू करने के लिए एक प्रभावी तरीका सोचने की कोशिश करना एक अच्छा प्रोजेक्ट है। इसमें न केवल एल्गोरिदमिक पहलुओं को शामिल किया गया है बल्कि हडूप कोर फ्रेमवर्क संबंधित अनुकूलन भी था।

स्रोत

2012-08-21 11:14:03

हैडोप मशीन लर्निंग/डेटा खनन परियोजना विचार?

उत्तर

संबंधित मुद्दे