2009-06-07 20 views
34

मैं कृत्रिम तंत्रिका नेटवर्क के लिए विभिन्न प्रशिक्षण विधियों का परीक्षण और तुलना करने के लिए कुछ अपेक्षाकृत सरल डेटा सेट ढूंढ रहा हूं। मुझे डेटा चाहिए जो इनपुट और आउटपुट (0-1 से सामान्यीकृत) की सूची के मेरे इनपुट प्रारूप में बदलने के लिए बहुत अधिक प्री-प्रोसेसिंग नहीं करेगा। किसी भी लिंक की सराहना की।तंत्रिका नेटवर्क प्रशिक्षण के लिए डेटा सेट

उत्तर

28

प्रशिक्षण डेटा के रूप में पाप फ़ंक्शन की तरह कुछ आसान क्यों न करें? चूंकि आप प्रशिक्षण विधियों की तुलना कर रहे हैं और वास्तव में इस बात की परवाह नहीं करते कि आप किस नेटवर्क के लिए प्रशिक्षण दे रहे हैं, इसे काम करना चाहिए और प्रशिक्षण डेटा उत्पन्न करना आसान होना चाहिए।

पाप (x) का उपयोग कर नेटवर्क को प्रशिक्षित करें जहां एक्स इनपुट है और आउटपुट फ़ंक्शन का मान है। आपके मामले में एक अतिरिक्त लाभ यह है कि परिणाम का पूर्ण मूल्य पहले से ही 0-1 की सीमा में है। यह अन्य गणितीय कार्यों के साथ समान रूप से काम करेगा।

+0

हाँ, यह एक अच्छा बिंदु है। इसके अलावा, हालांकि, मुझे अभी भी कुछ उच्च आयामी समस्याओं को पसंद आएगा। मुझे लगता है कि मैं उन्हें समीकरणों से भी उत्पन्न कर सकता हूं। धन्यवाद। –

+1

@ जेफ थॉमस मैं जानना चाहता हूं कि किसी ने वास्तव में एनएन के साथ एसआईएन सन्निकटन पूरा किया है या नहीं। यदि हां, तो आपकी अंतिम त्रुटि क्या थी, और नेटवर्क कॉन्फ़िगरेशन? –

3

मैंने ओएनसी (ऑप्टिकल कैरेक्टर रिकग्निशन) करने के लिए उनका उपयोग करके अंडरग्रेजुएट के रूप में एएनएन को सीखा। मुझे लगता है कि यह एक अच्छा उपयोग मामला है।

टेक्स्ट के दो पृष्ठों में स्कैन करें, अक्षरों को निकालें और प्रशिक्षण/परीक्षण डेटासेट बनाएं (उदा। 8x8 पिक्सल 64 इनपुट नोड्स की ओर जाता है), डेटा लेबल करें। एएनएन को प्रशिक्षित करें और परीक्षण डेटासेट का उपयोग करके स्कोर प्राप्त करें। नेटवर्क टोपोलॉजी/पैरामीटर बदलें और सर्वश्रेष्ठ स्कोर प्राप्त करने के लिए नेटवर्क को ट्यून करें।

47

https://archive.ics.uci.edu/ml मशीन लर्निंग डेटासेट के कैलिफोर्निया इरविन भंडार विश्वविद्यालय है। यह वास्तव में एक महान संसाधन है, और मेरा मानना ​​है कि वे सभी सीएसवी फाइलों में हैं।

+1

अरे, यह बहुत साफ है। ठीक वही जो मेरे द्वारा खोजा जा रहा था। – Mumbleskates

11

कुछ संसाधनों

  • sinc समारोह कर रहे हैं।

     +---- 
         | sin(x) 
         | -------  when x != 0 
         |  x 
    sinC = | 
         | 
         |  1   otherwise 
         +---- 
    
  • sin(x) समारोह के रूप में @adrianbanks बताया।

  • कुछ पुराने एल्गोरिदम के लिए कुछ नए संशोधन का परीक्षण करने के लिए अच्छे पुराने एन-समानता परीक्षण।

  • आईरिस डेटासेट, सेमियन हाथ लिखा अंक डेटा सेट आदि, कोई अन्य कार्य और बहुत कुछ।

  • यूसीआई मशीन लर्निंग भंडार: archive.ics.uci.edu/ml/datasets.html

  • यहाँ कई प्रतिगमन डेटासेट होने एक और संसाधन है: www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html। आप इनमें से कई यूसीआई एमएल रिपोजिटरी से प्राप्त करेंगे।
  • आप विभिन्न व्यावहारिक डेटा सेट के लिए https://www.kaggle.com/ से डेटा सेट प्राप्त कर सकते हैं।

मुझे नहीं लगता कि आपको इनके साथ बहुत से प्री-प्रोसेसिंग की आवश्यकता है। स्पष्ट चर के लिए, आप उन्हें एक जीयूआई पाठ संपादक का उपयोग कर बाइनरी के साथ प्रतिस्थापित कर सकते हैं। उदाहरण के लिए Abalone डेटासेट में एक स्पष्ट विशेषता है, लिंग, जिसमें पुरुष के लिए तीन मान "एम" हैं, मादा के लिए "एफ", शिशु के लिए "मैं"। आप अपने टेक्स्ट एडिटर में Ctrl + R दबा सकते हैं और 1,0,0 के साथ "एम" की सभी घटनाओं को प्रतिस्थापित कर सकते हैं,के साथ "एफ" की सभी घटनाएं और 0,0,1 के साथ "I" की सभी घटनाएं (फ़ाइल को CSV प्रारूप में माना जाता है)। यह स्पष्ट चर के त्वरित प्रतिस्थापन करेगा।

आप R में हैं, तो आप normalizeData समारोह जो RSNNS package के साथ आता है 0 और 1.

में पैमाने और सामान्य बनाने के लिए अपने डेटा आप octave या matlab जैसे अन्य वातावरण में हैं, तो उपयोग कर सकते हैं, आप कर सकते हैं बस अपना कोड लिखने के लिए कुछ समय निवेश करें। मुझे इन वातावरणों में उपलब्ध कार्यों के बारे में पता नहीं है, मैं डेटा को स्केल और/या सामान्य करने के लिए अपने कोड का उपयोग करता हूं।

जब आप फ़ंक्शंस का उपयोग करते हैं तो आपके काम को अधिक आसान बना दिया जाता है, और एक बार जब आप डेटा तैयार करते हैं, तो संशोधित डेटा को फ़ाइल में सहेजें।

एक बात याद रखें, एक तंत्रिका नेटवर्क को प्रशिक्षित करने का लक्ष्य नेटवर्क को प्रशिक्षित करने के लिए नहीं है जैसे कि यह एक निश्चित प्रशिक्षण सेट पर अच्छा काम करता है। मुख्य लक्ष्य नेटवर्क को प्रशिक्षित करना है कि इस तरह के नए डेटा के लिए सबसे अच्छी त्रुटि है जिसे नेटवर्क ने नहीं देखा है (प्रत्यक्ष या परोक्ष रूप से)।

+1

डेटा सेट्स पर अब तक के प्रश्नों के लिए अब तक का सबसे अच्छा जवाब मिला है ...! –

4

प्रशिक्षण उद्देश्यों के लिए यहां कुछ हस्तलेखन और अन्य डेटाबेस हैं। http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html:

http://www.cs.nyu.edu/~roweis/data.html

एक दिलचस्प ओर ध्यान दें के रूप में, ~ roweis अपनी पत्नी के साथ लड़ने के बाद 2010 में आत्महत्या के लिए प्रतिबद्ध।

+0

+1। धन्यवाद! जब वे लिखे गए थे तो उनके दिमाग की स्थिति को जानकर इस आदमी के शब्दों को बहुत ही बेवकूफ पढ़ना। – sherrellbc

संबंधित मुद्दे