तंत्रिका नेटवर्क प्रशिक्षण के लिए डेटा सेट

मैं कृत्रिम तंत्रिका नेटवर्क के लिए विभिन्न प्रशिक्षण विधियों का परीक्षण और तुलना करने के लिए कुछ अपेक्षाकृत सरल डेटा सेट ढूंढ रहा हूं। मुझे डेटा चाहिए जो इनपुट और आउटपुट (0-1 से सामान्यीकृत) की सूची के मेरे इनपुट प्रारूप में बदलने के लिए बहुत अधिक प्री-प्रोसेसिंग नहीं करेगा। किसी भी लिंक की सराहना की।तंत्रिका नेटवर्क प्रशिक्षण के लिए डेटा सेट

स्रोत

2009-06-07 Jeff Thomas

प्रशिक्षण डेटा के रूप में पाप फ़ंक्शन की तरह कुछ आसान क्यों न करें? चूंकि आप प्रशिक्षण विधियों की तुलना कर रहे हैं और वास्तव में इस बात की परवाह नहीं करते कि आप किस नेटवर्क के लिए प्रशिक्षण दे रहे हैं, इसे काम करना चाहिए और प्रशिक्षण डेटा उत्पन्न करना आसान होना चाहिए।

पाप (x) का उपयोग कर नेटवर्क को प्रशिक्षित करें जहां एक्स इनपुट है और आउटपुट फ़ंक्शन का मान है। आपके मामले में एक अतिरिक्त लाभ यह है कि परिणाम का पूर्ण मूल्य पहले से ही 0-1 की सीमा में है। यह अन्य गणितीय कार्यों के साथ समान रूप से काम करेगा।

स्रोत

2009-06-07 23:57:28 adrianbanks

हाँ, यह एक अच्छा बिंदु है। इसके अलावा, हालांकि, मुझे अभी भी कुछ उच्च आयामी समस्याओं को पसंद आएगा। मुझे लगता है कि मैं उन्हें समीकरणों से भी उत्पन्न कर सकता हूं। धन्यवाद। –

@ जेफ थॉमस मैं जानना चाहता हूं कि किसी ने वास्तव में एनएन के साथ एसआईएन सन्निकटन पूरा किया है या नहीं। यदि हां, तो आपकी अंतिम त्रुटि क्या थी, और नेटवर्क कॉन्फ़िगरेशन? –

मैंने ओएनसी (ऑप्टिकल कैरेक्टर रिकग्निशन) करने के लिए उनका उपयोग करके अंडरग्रेजुएट के रूप में एएनएन को सीखा। मुझे लगता है कि यह एक अच्छा उपयोग मामला है।

टेक्स्ट के दो पृष्ठों में स्कैन करें, अक्षरों को निकालें और प्रशिक्षण/परीक्षण डेटासेट बनाएं (उदा। 8x8 पिक्सल 64 इनपुट नोड्स की ओर जाता है), डेटा लेबल करें। एएनएन को प्रशिक्षित करें और परीक्षण डेटासेट का उपयोग करके स्कोर प्राप्त करें। नेटवर्क टोपोलॉजी/पैरामीटर बदलें और सर्वश्रेष्ठ स्कोर प्राप्त करने के लिए नेटवर्क को ट्यून करें।

स्रोत

2009-08-05 14:05:29 graveca

https://archive.ics.uci.edu/ml मशीन लर्निंग डेटासेट के कैलिफोर्निया इरविन भंडार विश्वविद्यालय है। यह वास्तव में एक महान संसाधन है, और मेरा मानना है कि वे सभी सीएसवी फाइलों में हैं।

स्रोत

2012-11-03 01:32:03 calebtomlinson

अरे, यह बहुत साफ है। ठीक वही जो मेरे द्वारा खोजा जा रहा था। – Mumbleskates

कुछ संसाधनों

sinc समारोह कर रहे हैं।

 +---- 
     | sin(x) 
     | -------  when x != 0 
     |  x 
sinC = | 
     | 
     |  1   otherwise 
     +----

sin(x) समारोह के रूप में @adrianbanks बताया।
कुछ पुराने एल्गोरिदम के लिए कुछ नए संशोधन का परीक्षण करने के लिए अच्छे पुराने एन-समानता परीक्षण।
आईरिस डेटासेट, सेमियन हाथ लिखा अंक डेटा सेट आदि, कोई अन्य कार्य और बहुत कुछ।
यूसीआई मशीन लर्निंग भंडार: archive.ics.uci.edu/ml/datasets.html
यहाँ कई प्रतिगमन डेटासेट होने एक और संसाधन है: www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html। आप इनमें से कई यूसीआई एमएल रिपोजिटरी से प्राप्त करेंगे।
आप विभिन्न व्यावहारिक डेटा सेट के लिए https://www.kaggle.com/ से डेटा सेट प्राप्त कर सकते हैं।

मुझे नहीं लगता कि आपको इनके साथ बहुत से प्री-प्रोसेसिंग की आवश्यकता है। स्पष्ट चर के लिए, आप उन्हें एक जीयूआई पाठ संपादक का उपयोग कर बाइनरी के साथ प्रतिस्थापित कर सकते हैं। उदाहरण के लिए Abalone डेटासेट में एक स्पष्ट विशेषता है, लिंग, जिसमें पुरुष के लिए तीन मान "एम" हैं, मादा के लिए "एफ", शिशु के लिए "मैं"। आप अपने टेक्स्ट एडिटर में Ctrl + R दबा सकते हैं और 1,0,0 के साथ "एम" की सभी घटनाओं को प्रतिस्थापित कर सकते हैं,के साथ "एफ" की सभी घटनाएं और 0,0,1 के साथ "I" की सभी घटनाएं (फ़ाइल को CSV प्रारूप में माना जाता है)। यह स्पष्ट चर के त्वरित प्रतिस्थापन करेगा।

आप R में हैं, तो आप normalizeData समारोह जो RSNNS package के साथ आता है 0 और 1.

में पैमाने और सामान्य बनाने के लिए अपने डेटा आप octave या matlab जैसे अन्य वातावरण में हैं, तो उपयोग कर सकते हैं, आप कर सकते हैं बस अपना कोड लिखने के लिए कुछ समय निवेश करें। मुझे इन वातावरणों में उपलब्ध कार्यों के बारे में पता नहीं है, मैं डेटा को स्केल और/या सामान्य करने के लिए अपने कोड का उपयोग करता हूं।

जब आप फ़ंक्शंस का उपयोग करते हैं तो आपके काम को अधिक आसान बना दिया जाता है, और एक बार जब आप डेटा तैयार करते हैं, तो संशोधित डेटा को फ़ाइल में सहेजें।

एक बात याद रखें, एक तंत्रिका नेटवर्क को प्रशिक्षित करने का लक्ष्य नेटवर्क को प्रशिक्षित करने के लिए नहीं है जैसे कि यह एक निश्चित प्रशिक्षण सेट पर अच्छा काम करता है। मुख्य लक्ष्य नेटवर्क को प्रशिक्षित करना है कि इस तरह के नए डेटा के लिए सबसे अच्छी त्रुटि है जिसे नेटवर्क ने नहीं देखा है (प्रत्यक्ष या परोक्ष रूप से)।

स्रोत

2013-04-16 19:12:45 phoxis

डेटा सेट्स पर अब तक के प्रश्नों के लिए अब तक का सबसे अच्छा जवाब मिला है ...! –

http://neuroph.sourceforge.net/sample_projects.html कई नमूना परियोजनाएं और प्रसिद्ध डेटा हैं।

स्रोत

2014-08-13 10:56:32 greentec

प्रशिक्षण उद्देश्यों के लिए यहां कुछ हस्तलेखन और अन्य डेटाबेस हैं। http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html:

http://www.cs.nyu.edu/~roweis/data.html

एक दिलचस्प ओर ध्यान दें के रूप में, ~ roweis अपनी पत्नी के साथ लड़ने के बाद 2010 में आत्महत्या के लिए प्रतिबद्ध।

स्रोत

2015-07-31 21:57:31 Kava

+1। धन्यवाद! जब वे लिखे गए थे तो उनके दिमाग की स्थिति को जानकर इस आदमी के शब्दों को बहुत ही बेवकूफ पढ़ना। – sherrellbc

तंत्रिका नेटवर्क प्रशिक्षण के लिए डेटा सेट

उत्तर

संबंधित मुद्दे