क्या मुझे समान प्रशिक्षण उदाहरणों को रखना/हटाना चाहिए जो विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं?

मैंने एक निश्चित प्रकार की वस्तुओं को पहचानने के लिए एक डेटासेट तैयार किया है (लगभग 2240 नकारात्मक ऑब्जेक्ट उदाहरण और केवल 9 0 पॉजिटिव ऑब्जेक्ट उदाहरण)। हालांकि, डेटासेट में प्रत्येक ऑब्जेक्ट के लिए 10 विशेषताओं की गणना करने के बाद, अद्वितीय प्रशिक्षण उदाहरणों की संख्या क्रमश: 130 और 30 तक गिर गई।क्या मुझे समान प्रशिक्षण उदाहरणों को रखना/हटाना चाहिए जो विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं?

चूंकि समान प्रशिक्षण उदाहरण वास्तव में विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं, क्या मैं कह सकता हूं कि इस डुप्लिकेशन में प्रासंगिक जानकारी (जैसे ऑब्जेक्ट फीचर मानों का वितरण) है, जो एक तरफ या किसी अन्य तरीके से उपयोगी हो सकता है?

स्रोत

2014-10-04 Sultan Abraham

क्या तंत्रिका नेटवर्क सुविधाओं के अलावा अन्य जानकारी प्राप्त करता है? और क्या फीचर वैल्यू वास्तव में समान हैं या बस बहुत समान हैं? – seaotternerd

ए 1: नहीं, यह कोई अन्य जानकारी प्राप्त नहीं करता है। ए 2: फीचर वैल्यू समान हैं। –

यदि आप डुप्लिकेट छोड़ देते हैं, तो यह प्रत्येक विशिष्ट वस्तु की आधार दर को कम करेगा। यदि प्रशिक्षण डेटा असली दुनिया का प्रतिनिधि नमूना है, तो आप इसे नहीं चाहते हैं, क्योंकि आप वास्तव में थोड़ा अलग दुनिया के लिए प्रशिक्षण देंगे (एक अलग आधार दर के साथ)।

बिंदु को स्पष्ट करने के लिए, उस परिदृश्य पर विचार करें जिसमें केवल दो विशिष्ट वस्तुएं हैं। आपके मूल डेटा में ऑब्जेक्ट बी का ऑब्जेक्ट ए और 1 है। डुप्लिकेट फेंकने के बाद, आपके पास 1 ऑब्जेक्ट ए और 1 ऑब्जेक्ट बी है। डी-डुप्लिकेट डेटा पर प्रशिक्षित एक वर्गीकृत मूल डेटा पर प्रशिक्षित एक से काफी अलग होगा।

मेरी सलाह डेटा में डुप्लिकेट छोड़ना है।

स्रोत

2014-10-05 05:26:41

आपके उत्तर के लिए धन्यवाद। क्या आप कृपया किसी भी संदर्भ का सुझाव दे सकते हैं जो इस मुद्दे का और स्पष्टीकरण प्रदान करता है? –

प्रशिक्षण डेटा तैयारी कई सीमाओं से ग्रस्त है, जिसका अर्थ है कि प्रशिक्षण डेटा वास्तविक दुनिया का प्रतिनिधि नमूना नहीं है। साथ ही, डुप्लिकेट प्रशिक्षण उदाहरणों को बनाए रखने से सटीकता के पार-सत्यापन अनुमान को प्रभावित किया जाएगा, क्योंकि प्रशिक्षण सबसेट के साथ-साथ टेस्ट सबसेट में समान उदाहरण मौजूद हो सकते हैं। –

अंतिम प्रश्न :) असंतुलन के इस स्तर के साथ, डेटा को डी-डुप्लिकेट करने से पहले या बाद में, क्या मुझे ओवरम्प्लिंग तकनीक का उपयोग करना चाहिए? –

क्या मुझे समान प्रशिक्षण उदाहरणों को रखना/हटाना चाहिए जो विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं?

उत्तर

संबंधित मुद्दे