30

मल्टीलायर परसेप्ट्रॉन तंत्रिका नेटवर्क में छिपी हुई परतों की संख्या न्यूरल नेटवर्क के तरीके से क्या करती है? छिपी परतों में नोड्स की संख्या के लिए वही सवाल?तंत्रिका नेटवर्क में छिपी हुई परतों और नोड्स की संख्या कैसे चुनें?

मान लें कि मैं हस्त लिखित चरित्र पहचान के लिए एक तंत्रिका नेटवर्क का उपयोग करना चाहता हूं। इस मामले में मैंने इनपुट नोड्स के रूप में पिक्सेल रंग तीव्रता मान डाल दिए, और आउटपुट नोड्स के रूप में वर्ण वर्ग।

मैं ऐसी समस्या को हल करने के लिए छिपी हुई परतों और नोड्स की संख्या कैसे चुनूं?

+0

बस यह सुनिश्चित करने के लिए कि कहां से शुरू करना है, आपको पता है कि आपको किस छिपी हुई परत की आवश्यकता है? वैसे, मुझे नहीं लगता कि आप इस प्रश्न के लिए एक सही उत्तर प्राप्त कर सकते हैं – Tim

+0

जो मैं समझता हूं उससे छिपी परतें आम तौर पर अधिक जटिल रिश्ते की अनुमति देती हैं .. मुझे पता है कि कोई सही जवाब नहीं हो सकता है, लेकिन मुझे क्या देखना चाहिए परतों/नोड्स की संख्या तय करना? – gintas

+0

आपको यह समझकर शुरू करना चाहिए कि आपको छिपी परतों (एक्सओआर) की आवश्यकता क्यों है। – Tim

उत्तर

7

हाइपरपेरामीटर चुनने के लिए सामान्य उत्तर पार करना मान्य है। कुछ डेटा दबाएं, विभिन्न विन्यासों के साथ नेटवर्क को प्रशिक्षित करें, और उस व्यक्ति का उपयोग करें जो आयोजित आउट सेट पर सर्वोत्तम प्रदर्शन करता है।

+4

ठीक है, यह एक ठोस दृष्टिकोण है। लेकिन क्या इसका अनुमान लगाने का कोई तरीका है? कुछ ऐसा, इस डेटा को 10 प्रमुख घटकों के साथ बहुत अच्छी तरह से समझाया जा सकता है, इसलिए हमारे पास 2 परतों में व्यवस्थित लगभग 10 छुपे हुए नोड्स होना चाहिए? – gintas

16

नोट: यह उत्तर उस समय सही था जब इसे बनाया गया था, लेकिन तब से पुराना हो गया है।


तंत्रिका नेटवर्क में दो से अधिक छिपी परतें दुर्लभ हैं। परतों की संख्या आमतौर पर आपके नेटवर्क का पैरामीटर नहीं होगी, जिसके बारे में आप चिंता करेंगे।

कई परतों के साथ बहु परत तंत्रिका नेटवर्क गहरी सर्किट का प्रतिनिधित्व कर सकते हैं, गहरी नेटवर्क प्रशिक्षण हमेशा कुछ हद तक एक चुनौती के रूप में देखा गया है। हाल ही में, अनुभवजन्य अध्ययनों को अक्सर मिला कि गहरे नेटवर्क ने आमतौर पर एक या दो छिपी परतों के साथ तंत्रिका नेटवर्क की तुलना में बेहतर, और अक्सर खराब, प्रदर्शन किया।

Bengio, Y. & LeCun, Y., 2007. Scaling learning algorithms towards AI. Large-Scale Kernel Machines, (1), pp.1-41.

उद्धृत कागज सामान्य रूप में नेटवर्क गहराई, गहरी नेटवर्क शिक्षण में हाल की प्रगति, और गहरी सीखने के प्रभाव के बारे में सीखने के लिए एक अच्छा संदर्भ है।

+0

यह सही है। तकनीकी रूप से, 'सावधानी' की समस्याओं के कारण, बैक प्रोपेगेशन-प्रशिक्षित मल्टीलायर पेसेप्ट्रोन जैसे मॉडल में कई परतें हैं। यदि आपके पास कई छिपी हुई परतें हैं, तो आप गहरी शिक्षा में देखना चाहते हैं जो इस मुद्दे को हल कर सकता है। – bean5

+1

हालांकि यह दृश्य पुराना है। यदि आप पूर्व प्रशिक्षण का उपयोग करते हैं तो साबित हुआ है कि परतों की संख्या में वृद्धि करके आप त्रुटि पर ऊपरी बाउंड को कम करते हैं। इसके अलावा हिनटन में कुछ प्रयोग हैं जो दिखाते हैं कि अधिक छिपी हुई इकाइयों का मतलब इनपुट का बेहतर प्रतिनिधित्व है और इसलिए बेहतर परिणाम। संशोधित रैखिक इकाइयों का उपयोग करते समय यह विशेष रूप से मौजूद होता है। – elaRosca

+0

शायद यह 2012 में सच था, लेकिन मुझे यकीन नहीं है कि यह अब है। मुझे लगता है कि दो परतों से अधिक नहीं होने के कारण यह दुर्लभ है। –

4

मैंने देखी गई अधिकांश समस्याओं को 1-2 छिपी हुई परतों के साथ हल किया गया था। यह सिद्ध किया जाता है कि केवल एक छिपी हुई परत वाली एमएलपी सार्वभौमिक कार्य अनुमानक (Hornik et. al.) हैं। अधिक छिपी परतें समस्या को आसान या कठिन बना सकती हैं। आपको आमतौर पर विभिन्न टोपोलॉजीज़ का प्रयास करना पड़ता है। मैंने सुना है कि यदि आप अपने एमएलपी को बैकप्रॉप से ​​प्रशिक्षित करना चाहते हैं तो आप छिपी हुई परतों की मनमानी संख्या नहीं जोड़ सकते हैं क्योंकि पहली परतों में ढाल बहुत छोटा हो जाएगा (मेरे पास इसका कोई संदर्भ नहीं है)। लेकिन कुछ ऐसे अनुप्रयोग हैं जहां लोग nine layers तक उपयोग करते थे। शायद आप standard benchmark problem में रुचि रखते हैं जो विभिन्न क्लासिफायरों और एमएलपी टोपोलॉजीज द्वारा हल किया जाता है।

3

इस तथ्य के अलावा कि विभिन्न मॉडल कॉन्फ़िगरेशन (छिपी परतों या प्रति परत न्यूरॉन्स) पर क्रॉस-सत्यापन आपको बेहतर कॉन्फ़िगरेशन चुनने के लिए प्रेरित करेगा।

एक दृष्टिकोण एक मॉडल, के रूप में बड़े और संभव के रूप में गहरी प्रशिक्षण और को छोड़ने वालों की नियमितीकरण का उपयोग कुछ न्यूरॉन्स बंद कर देते हैं और overfitting को कम कर रहा है।

इस दृष्टिकोण में इस दृष्टिकोण का संदर्भ देखा जा सकता है। https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf

0

उपरोक्त सभी उत्तर सही निश्चित रूप से कर रहे हैं लेकिन सिर्फ कुछ और विचारों को जोड़ने के लिए: 'अनुमान करने वाले एकाधिक हिडन लेयर BPNN वास्तुकला में छिपे हुए परत न्यूरॉन्स की संख्या' सौरभ द्वारा: कुछ सामान्य नियम इस पत्र के आधार पर अनुसरण कर रहे हैं Karsoliya।

सामान्य में:

  • छिपी परत न्यूरॉन्स की संख्या 2/3 (या 90% तक 70%) इनपुट परत के आकार के हैं। यदि यह अपर्याप्त है तो बाद में आउटपुट परत न्यूरॉन्स की संख्या को जोड़ा जा सकता है।
  • छिपे हुए परत न्यूरॉन्स की संख्या इनपुट परत में न्यूरॉन्स की संख्या से दोगुनी से कम होनी चाहिए।
  • छिपे हुए परत न्यूरॉन्स का आकार इनपुट परत आकार और आउटपुट परत आकार के बीच है।

हमेशा ध्यान रखें कि आपको कई अलग-अलग संयोजनों का पता लगाने और प्रयास करने की आवश्यकता है। इसके अलावा, ग्रिडशर्च का उपयोग करके आप "सर्वश्रेष्ठ मॉडल और पैरामीटर" पा सकते हैं। जैसे छुपा परत के "सर्वश्रेष्ठ" आकार को निर्धारित करने के लिए हम ग्रिडशर्च कर सकते हैं।

संबंधित मुद्दे