2016-09-15 14 views
15

के लिए सीखने का क्षय करना चाहिए, मैं एडम ऑप्टिमाइज़र के साथ छवि स्थानीयकरण के लिए नेटवर्क प्रशिक्षण कर रहा हूं, और कोई मुझे घातीय क्षय का उपयोग करने का सुझाव देता है। मैं कोशिश नहीं करना चाहता क्योंकि एडम ऑप्टिमाइज़र खुद ही सीखने की दर तय करता है। लेकिन वह लड़का जोर देता है और उसने कहा कि उसने पहले ऐसा किया था। तो क्या मुझे ऐसा करना चाहिए और क्या आपके सुझाव के पीछे कोई सिद्धांत है?क्या हमें एडम ऑप्टिमाइज़र

उत्तर

19

यह निर्भर करता है चाहिए। एडीएएम व्यक्तिगत सीखने की दर के साथ किसी भी पैरामीटर को अद्यतन करता है। इसका मतलब है कि नेटवर्क में हर पैरामीटर में एक विशिष्ट सीखने की दर है।

लेकिन पैरामीटर के लिए एकल सीखने की दर लैम्ब्डा (प्रारंभिक सीखने की दर) को ऊपरी सीमा के रूप में उपयोग करके गणना की जाती है। इसका मतलब यह है कि प्रत्येक एकल सीखने की दर 0 से कोई भिन्न नहीं हो सकती है (कोई अद्यतन नहीं) lambda (अधिकतम अद्यतन)।

सीखने की दर ट्रेन के चरणों के दौरान स्वयं को अनुकूलित करती है, यह सच है, लेकिन यदि आप यह सुनिश्चित करना चाहते हैं कि प्रत्येक अपडेट चरण लैम्ब्डा से अधिक न हो तो आप घातीय क्षय या जो भी हो, कम लैम्ब्डा से कम कर सकते हैं। यह प्रशिक्षण के नवीनतम चरण के दौरान हानि को कम करने में मदद कर सकता है, जब पहले जुड़े लैम्ब्डा पैरामीटर के साथ गणना की गई हानि घट गई है।

16

मेरे अनुभव में यह एडम अनुकूलक के साथ सीखने की दर क्षय करने के लिए समझ में नहीं आता है (और अच्छी तरह से काम नहीं करता है)।

सिद्धांत एडम पहले से ही दर अनुकूलन (check reference) सीखने संभालती है जो:।

"हम एडम, कुशल स्टोकेस्टिक अनुकूलन के लिए एक विधि है कि केवल थोड़ा स्मृति आवश्यकता के साथ पहले क्रम ढ़ाल की आवश्यकता का प्रस्ताव विधि विभिन्न ग्रेडियेंट्स के पहले और दूसरे क्षणों के अनुमानों से पैरामीटर अलग-अलग अनुकूली सीखने की दर की गणना करता है; नाम एडम अनुकूली पल अनुमान से लिया गया है। "

किसी भी गहरी सीखने समस्या YMMV के साथ के रूप में, एक आकार सभी फिट नहीं करता है, तो आप अलग-अलग दृष्टिकोण कोशिश करते हैं और देखते हैं कि क्या आप के लिए काम करता है, आदि आदि

संबंधित मुद्दे