2011-02-04 11 views
13

मैं स्नातक सीएस छात्र (डेटा खनन और मशीन लर्निंग) हूं और कोर जावा (> 4 साल) के लिए अच्छा प्रदर्शन कर रहा हूं। मैंने हडोप और मैप/हैडोप मशीन लर्निंग/डेटा खनन परियोजना विचार?

पर सामानों का एक गुच्छा पढ़ा है, अब मैं बेहतर समझ प्राप्त करने के लिए इस सामान (कोर के अपने खाली समय पर) पर एक परियोजना करना चाहता हूं।

किसी भी अच्छे परियोजना विचारों की वास्तव में सराहना की जाएगी। मैं सिर्फ यह सीखने के लिए करना चाहता हूं, इसलिए मुझे वास्तव में पहिया का पुन: आविष्कार करने में कोई फर्क नहीं पड़ता। इसके अलावा, डेटा खनन/मशीन सीखने से संबंधित कुछ भी एक जोड़ा बोनस होगा (मेरे शोध के साथ फिट बैठता है) लेकिन बिल्कुल जरूरी नहीं है।

+0

ग्राफ खनन से आपका क्या मतलब है? आप अपनी रुचियों को क्या सीखना/बनाना/सुधार करना चाहते हैं? मेरे पास कुछ सुझाव हैं लेकिन पहले अपनी व्यक्तिगत रुचि-फ़ील्ड का इंतजार करना चाहते हैं ... – Sam

+0

ग्राफ़ खनन से, मेरा मतलब है कि मैंने बड़े ग्राफ (फ़्लिकर, डीबीएलपी) पर ऑप्टिमाइज़ेशन समस्याओं पर काम किया है और वर्तमान में कुछ सामाजिक नेटवर्क ग्राफ विश्लेषण पर काम कर रहा हूं जिसमें विषय शामिल है ट्विटर डेटा में मॉडलिंग और बड़े ग्राफ के कम रैंक मैट्रिक्स सन्निकटन पर भी। अन्यथा, मुझे विशेष रूप से मशीन लर्निंग और डेटा खनन समस्याओं में दिलचस्पी है। हालांकि, हडोप के लिए मैं किसी भी गैर-तुच्छ लेकिन गैर-अनुसंधान परियोजना की तलाश में हूं, जो कि मैं अपने खाली समय में कर सकता हूं, बस बेहतर समझने के लिए। – dreamer13134

उत्तर

8

आपने अपनी रुचि के बारे में कुछ भी नहीं लिखा है। मुझे पता है कि ग्राफ खनन में एल्गोरिदम हैडऑप ढांचे पर लागू किया गया है। यह सॉफ्टवेयर http://www.cs.cmu.edu/~pegasus/ और कागज: "पेगासस: एक पेटा-स्केल ग्राफ खनन प्रणाली - कार्यान्वयन और अवलोकन" आपको प्रारंभिक बिंदु दे सकता है।

आगे, यह लिंक आपके प्रश्न के समान कुछ चर्चा करता है: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/ लेकिन यह अजगर में है। और, एंड्रयू एनजी द्वारा "मल्टीकोर" पर मशीन लर्निंग के लिए मानचित्र-कमी "का एक बहुत अच्छा पेपर है।

इसी तरह के विषय पर एक एनआईपीएस 200 कार्यशाला थी "बड़े पैमाने पर मशीन सीखना: समांतरता और भारी डेटासेट"। आप कुछ पेपर ब्राउज़ कर सकते हैं और एक विचार प्राप्त कर सकते हैं।

संपादित करें: इसके अलावा वहाँ अपाचे महावत है http://mahout.apache.org/ -> "हमारे समूह है, जो वर्गीकरण और बैच के लिए कोर एल्गोरिदम आधारित सहयोगी छानने मानचित्र का उपयोग अपाचे Hadoop के शीर्ष पर लागू किया जाता है/प्रतिमान को कम करने"

+0

पॉइंटर्स के लिए बहुत बहुत धन्यवाद। मैं इसकी सराहना करता हूं। – dreamer13134

+0

मैंने मूल रूप से मशीन सीखने, मेरे मास्टर्स में ग्राफ खनन सामग्री पर ध्यान केंद्रित किया है और अतिरिक्त कौशल-सेट के रूप में हैडोप सीखना चाहता हूं। मैं महौत जैसी परियोजनाओं से गुजर चुका हूं, लेकिन मैं गहरी समझ के साथ-साथ कुछ बड़े पैमाने पर सॉफ्टवेयर विकास के लिए खुद को कुछ बनाना चाहता हूं। – dreamer13134

1

क्यों आप उन्हें अतिरिक्त एल्गोरिथम को लागू मदद करके अपाचे Hadoop/महावत में योगदान नहीं है?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

"खुला" के रूप में चिह्नित एल्गोरिदम की एक संख्या है। मेरी समझ के लिए, वे इन्हें लागू करने में सहायता का उपयोग कर सकते हैं? और इस सूची से सैकड़ों एल्गोरिदम भी गायब हैं।

किसी भी तरह से, क्योंकि आप हडोप के साथ कुछ करना चाहते हैं, तो आप क्यों नहीं पूछते हैं कि उन्हें कुछ यादृच्छिक इंटरनेट साइट पर पूछने के बजाय की आवश्यकता क्यों है?

0

हाडोप पर पदानुक्रमित एग्ग्लोमेमेरेटिव क्लस्टरिंग को लागू करने के लिए एक प्रभावी तरीका सोचने की कोशिश करना एक अच्छा प्रोजेक्ट है। इसमें न केवल एल्गोरिदमिक पहलुओं को शामिल किया गया है बल्कि हडूप कोर फ्रेमवर्क संबंधित अनुकूलन भी था।

संबंधित मुद्दे