2011-12-24 13 views
6

मैं वर्तमान में एक एमएल कार्य के साथ प्रयोग कर रहा हूं जिसमें एक वर्गीकरण मॉडल की पर्यवेक्षित प्रशिक्षण शामिल है। आज तक, मुझे ~ 5 एम प्रशिक्षण उदाहरण और ~ 5M उदाहरण पार-सत्यापन के लिए मिला है। प्रत्येक उदाहरण में, 46 फीचर्स हैं, हालांकि मैं निकट भविष्य में 10 और उत्पन्न करना चाहता हूं, इसलिए किसी भी समाधान को सुधार के लिए कुछ जगह छोड़नी चाहिए।मशीन लर्निंग कार्य: किस उपकरण का उपयोग करना है?

मेरी समस्या निम्न है: इस समस्या से निपटने के लिए मैं किस टूल का उपयोग करता हूं? मैं यादृच्छिक जंगलों या एसवीएम का उपयोग करना चाहता हूं, हालांकि मुझे डर है कि बाद वाला मेरे मामले में बहुत धीमा हो सकता है। मैंने महाउट पर विचार किया है, लेकिन इसे दूर कर दिया गया है क्योंकि ऐसा लगता है कि कमांड लाइन स्क्रिप्ट के साथ गड़बड़ी के साथ कॉन्फ़िगर की एक निश्चित मात्रा की आवश्यकता होती है। मैं सीधे कुछ (अच्छी तरह से प्रलेखित!) पुस्तकालय के खिलाफ कोड या एक जीयूआई के साथ अपने मॉडल को परिभाषित करना चाहता हूं।

मुझे यह भी निर्दिष्ट करना चाहिए कि मैं कुछ ऐसा ढूंढ रहा हूं जो विंडोज़ (साइगविन जैसी चीजों के बिना) पर चल रहा है, और जो समाधान .NET के साथ अच्छी तरह से खेलते हैं, उनकी बहुत सराहना की जाती है।

आपको लगता है कि कल्पना कर सकते हैं, जब समय, आ जाएगा, कोड एक Cluster Compute Eight Extra Large InstanceAmazon EC2 पर पर चलने दी जाएगी, इसलिए कुछ भी है कि राम और बहु-कोर सीपीयू की व्यापक उपयोग करता है का स्वागत है।

इतना ही नहीं बल्कि, मैं निर्दिष्ट करना होगा कि मेरे डाटासेट घना है (कि में वहाँ कोई लापता मूल्य/सभी स्तंभों प्रत्येक वेक्टर के लिए मान है)

+1

असंख्य उपकरण उपलब्ध हैं (शुरुआत के लिए, KDnuggets पर सॉफ़्टवेयर सूची देखें: http://www.kdnuggets.com/software/index.html)। यद्यपि आपकी समस्या का विवरण उनमें से कुछ को समाप्त करता है, फिर भी एक संख्या शेष है जो पर्याप्त हो सकती है। मुझे यकीन नहीं है कि, वास्तव में, ".NET के साथ अच्छी तरह से खेलें" का मतलब है, लेकिन किसी भी सार्थक टूल को मॉडल की एक रिपोर्ट या स्रोत कोड प्रदान करना चाहिए जिसे आसानी से .NET कोड में अनुवादित किया जा सकता है। – Predictor

+0

लिंक के लिए धन्यवाद, जैसे ही मैंने इसे लिखा है, इसे जांच लेंगे। .NET के साथ अच्छी तरह से खेलने के लिए इसका मतलब है कि नौकरी शुरू करने के लिए प्रोग्राम करने योग्य इंटरफ़ेस वाला कुछ या यह भी .NET लाइब्रेरी (या उपयोग करने योग्य रैपर) है जो कुछ नहीं है। – em70

उत्तर

2

मैं के इस पैमाने के लिए स्टोकेस्टिक ढाल वंश देखने की सलाह देते हैं एक समस्या। VowpalWabbit पर देखने के लिए एक अच्छा टूल है। उस आकार पर आप शायद अपने प्रयोगों को डेस्कटॉप पर उचित चश्मा के साथ चला सकते हैं। आपके लिए एकमात्र नकारात्मकता, मुझे लगता है कि यह विंडोज केंद्रित नहीं है, लेकिन हालांकि मैंने जांच नहीं की है, इसे साइगविन पर चलाना चाहिए।

संपादित करें: डेवलपर्स से विंडोज़ पर चल रहे VowpalWabbit को प्राप्त करने में बहुत रुचि रही है। मार्च 2013 तक VowpalWabbit (संस्करण 7.2) विंडोज़ पर बॉक्स के बाहर चलता है। कुछ उन्नत/वैकल्पिक विशेषताएं हैं जिन्हें अभी तक विंडोज़ पर लागू नहीं किया गया है, उनमें से एक VowpalWabbit को डेमन के रूप में चला रहा है, लेकिन ऐसा लगता है कि अल्पकालिक भविष्य में इसे संभाला जाएगा।

+1

यह विशेष उपकरण क्यों है? दर्जनों उम्मीदवार हैं: यह सब बाकी के ऊपर क्या बढ़ता है? – Predictor

+1

@ प्रिडिक्टर, यही वह है जिसे मैंने उपयोग किया है, जिसे मैंने अनुभव किया है और जिस के साथ मुझे अच्छे परिणाम मिल चुके हैं। साथ ही, व्यक्तिगत रूप से, मैं उन तकनीकी उपकरण का उल्लेख करने वाला पहला व्यक्ति हूं जो उन्हें चाहिए (स्टोकास्टिक ग्रेडियेंट वंश)। साथ ही, यह उल्लेख करने वाला पहला व्यक्ति है कि वह अपने लैपटॉप पर उस पैमाने को संभाल सकता है, और ईसी 2 क्लस्टर की आवश्यकता नहीं है। – carlosdc

+0

मुझे यह जवाब ~ 1.5 वर्ष पुराना है। vowpal wabbit को विंडोज़ पर पोर्ट किया गया है, और संस्करण 7.x को विंडोज़ पर ठीक नहीं बनाना चाहिए। – arielf

3

मैं नियमित तौर पर R EC2 पर में इसी तरह की पंक्ति/सुविधा गणना डेटासेट चलाने (16 कोर/60 जीबी उदाहरण आप की बात कर रहे टाइप मामले में विशेष रूप से उपयोगी है यदि आप एक विधि है कि इस तरह के रूप में एक से अधिक CPU का लाभ ले सकते उपयोग कर रहे हैं पैकेज caret।) जैसा कि आपने उल्लेख किया है, सभी सीखने के तरीकों (जैसे कि एसवीएम) इस तरह के डेटासेट पर अच्छा प्रदर्शन करने जा रहे हैं।

आप पूर्ण डेटासेट पर चलने से पहले त्वरित प्रोटोटाइप/प्रदर्शन बेंचमार्किंग के लिए 10% नमूना या तो उपयोग करने पर विचार करना चाह सकते हैं।

यदि आप अत्यधिक उच्च प्रदर्शन चाहते हैं तो वोपाल वैबिट एक बेहतर फिट है (लेकिन यह केवल सामान्यीकृत रैखिक शिक्षार्थियों का समर्थन करता है, इसलिए gbm या Random Forest नहीं।) इसके अलावा, वीडब्ल्यू बहुत विंडोज़ के अनुकूल नहीं है।

संबंधित मुद्दे