के लिए सीखने का क्षय करना चाहिए, मैं एडम ऑप्टिमाइज़र के साथ छवि स्थानीयकरण के लिए नेटवर्क प्रशिक्षण कर रहा हूं, और कोई मुझे घातीय क्षय का उपयोग करने का सुझाव देता है। मैं कोशिश नहीं करना चाहता क्योंकि एडम ऑप्टिमाइज़र खुद ही सीखने की दर तय करता है। लेकिन वह लड़का जोर देता है और उसने कहा कि उसने पहले ऐसा किया था। तो क्या मुझे ऐसा करना चाहिए और क्या आपके सुझाव के पीछे कोई सिद्धांत है?क्या हमें एडम ऑप्टिमाइज़र
उत्तर
यह निर्भर करता है चाहिए। एडीएएम व्यक्तिगत सीखने की दर के साथ किसी भी पैरामीटर को अद्यतन करता है। इसका मतलब है कि नेटवर्क में हर पैरामीटर में एक विशिष्ट सीखने की दर है।
लेकिन पैरामीटर के लिए एकल सीखने की दर लैम्ब्डा (प्रारंभिक सीखने की दर) को ऊपरी सीमा के रूप में उपयोग करके गणना की जाती है। इसका मतलब यह है कि प्रत्येक एकल सीखने की दर 0 से कोई भिन्न नहीं हो सकती है (कोई अद्यतन नहीं) lambda (अधिकतम अद्यतन)।
सीखने की दर ट्रेन के चरणों के दौरान स्वयं को अनुकूलित करती है, यह सच है, लेकिन यदि आप यह सुनिश्चित करना चाहते हैं कि प्रत्येक अपडेट चरण लैम्ब्डा से अधिक न हो तो आप घातीय क्षय या जो भी हो, कम लैम्ब्डा से कम कर सकते हैं। यह प्रशिक्षण के नवीनतम चरण के दौरान हानि को कम करने में मदद कर सकता है, जब पहले जुड़े लैम्ब्डा पैरामीटर के साथ गणना की गई हानि घट गई है।
मेरे अनुभव में यह एडम अनुकूलक के साथ सीखने की दर क्षय करने के लिए समझ में नहीं आता है (और अच्छी तरह से काम नहीं करता है)।
सिद्धांत एडम पहले से ही दर अनुकूलन (check reference) सीखने संभालती है जो:।
"हम एडम, कुशल स्टोकेस्टिक अनुकूलन के लिए एक विधि है कि केवल थोड़ा स्मृति आवश्यकता के साथ पहले क्रम ढ़ाल की आवश्यकता का प्रस्ताव विधि विभिन्न ग्रेडियेंट्स के पहले और दूसरे क्षणों के अनुमानों से पैरामीटर अलग-अलग अनुकूली सीखने की दर की गणना करता है; नाम एडम अनुकूली पल अनुमान से लिया गया है। "
किसी भी गहरी सीखने समस्या YMMV के साथ के रूप में, एक आकार सभी फिट नहीं करता है, तो आप अलग-अलग दृष्टिकोण कोशिश करते हैं और देखते हैं कि क्या आप के लिए काम करता है, आदि आदि
- 1. एडम ऑप्टिमाइज़र
- 2. टेन्सफोर्लो: एडम ऑप्टिमाइज़र का उपयोग
- 3. क्या PHP में ऑप्टिमाइज़र बनाया गया है?
- 4. हमें ऑप्टिमाइज़र पर शून्य_grad() को स्पष्ट रूप से क्यों कॉल करने की आवश्यकता है?
- 5. क्या हमें SQL सर्वर
- 6. क्या हमें enums
- 7. क्या हमें टाइपस्क्रिप्ट
- 8. केरास ऑप्टिमाइज़र कोड को कैसे बदलें
- 9. हमें जावा
- 10. हमें एफआरपी
- 11. दृश्यकिट आंकड़े विंडो हमें क्या बताती है?
- 12. क्या हमें बिज़टॉक/ईएसबी पेश करना चाहिए?
- 13. क्या हमें यूनिट परीक्षण लॉगिंग करना चाहिए?
- 14. क्या हमें यूनिट परीक्षण कंसोल आउटपुट चाहिए?
- 15. क्या हमें कोरोना रास्ता जाना चाहिए?
- 16. क्या हमें एक पठन-भारी अनुप्रयोग
- 17. क्या हमें DI के लिए इंटरफेस चाहिए?
- 18. हमें जावा
- 19. क्या संभाव्य मैट्रिक्स फैक्टरेशन के लिए Lasagne के एडम कार्यान्वयन का उपयोग करने की उम्मीद है?
- 20. हमें कक्षा का उपयोग कब करना चाहिए और जब हमें
- 21. हमें Control.Lens.Reified क्यों चाहिए?
- 22. mongodb हमें getSisterDB
- 23. आवश्यकताएँ जेएस ऑप्टिमाइज़र में नेस्टेड आवश्यकता कॉल शामिल नहीं हैं
- 24. RequJS ऑप्टिमाइज़र कॉन्फ़िगरेशन के साथ समस्या, बीबीबी रिलीज
- 25. हमें std :: enable_shared_from_this
- 26. हमें जावास्क्रिप्ट प्रवाह नियंत्रण
- 27. प्ले फ्रेमवर्क में RequJS ऑप्टिमाइज़र का उपयोग कैसे करें?
- 28. क्या ओरेकल ऑप्टिमाइज़र एक ही चयन में एकाधिक संकेतों का उपयोग करेगा?
- 29. क्या एक एसक्यूएल क्वेरी ऑप्टिमाइज़र नेस्टेड लूप के बीच निर्णय लेता है और हैश
- 30. क्या हास्केल ऑप्टिमाइज़र स्कोप में बार-बार फ़ंक्शन कॉल के लिए ज्ञापन का उपयोग करता है?