5

मैंने एक निश्चित प्रकार की वस्तुओं को पहचानने के लिए एक डेटासेट तैयार किया है (लगभग 2240 नकारात्मक ऑब्जेक्ट उदाहरण और केवल 9 0 पॉजिटिव ऑब्जेक्ट उदाहरण)। हालांकि, डेटासेट में प्रत्येक ऑब्जेक्ट के लिए 10 विशेषताओं की गणना करने के बाद, अद्वितीय प्रशिक्षण उदाहरणों की संख्या क्रमश: 130 और 30 तक गिर गई।क्या मुझे समान प्रशिक्षण उदाहरणों को रखना/हटाना चाहिए जो विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं?

चूंकि समान प्रशिक्षण उदाहरण वास्तव में विभिन्न वस्तुओं का प्रतिनिधित्व करते हैं, क्या मैं कह सकता हूं कि इस डुप्लिकेशन में प्रासंगिक जानकारी (जैसे ऑब्जेक्ट फीचर मानों का वितरण) है, जो एक तरफ या किसी अन्य तरीके से उपयोगी हो सकता है?

+0

क्या तंत्रिका नेटवर्क सुविधाओं के अलावा अन्य जानकारी प्राप्त करता है? और क्या फीचर वैल्यू वास्तव में समान हैं या बस बहुत समान हैं? – seaotternerd

+0

ए 1: नहीं, यह कोई अन्य जानकारी प्राप्त नहीं करता है। ए 2: फीचर वैल्यू समान हैं। –

उत्तर

10

यदि आप डुप्लिकेट छोड़ देते हैं, तो यह प्रत्येक विशिष्ट वस्तु की आधार दर को कम करेगा। यदि प्रशिक्षण डेटा असली दुनिया का प्रतिनिधि नमूना है, तो आप इसे नहीं चाहते हैं, क्योंकि आप वास्तव में थोड़ा अलग दुनिया के लिए प्रशिक्षण देंगे (एक अलग आधार दर के साथ)।

बिंदु को स्पष्ट करने के लिए, उस परिदृश्य पर विचार करें जिसमें केवल दो विशिष्ट वस्तुएं हैं। आपके मूल डेटा में ऑब्जेक्ट बी का ऑब्जेक्ट ए और 1 है। डुप्लिकेट फेंकने के बाद, आपके पास 1 ऑब्जेक्ट ए और 1 ऑब्जेक्ट बी है। डी-डुप्लिकेट डेटा पर प्रशिक्षित एक वर्गीकृत मूल डेटा पर प्रशिक्षित एक से काफी अलग होगा।

मेरी सलाह डेटा में डुप्लिकेट छोड़ना है।

+0

आपके उत्तर के लिए धन्यवाद। क्या आप कृपया किसी भी संदर्भ का सुझाव दे सकते हैं जो इस मुद्दे का और स्पष्टीकरण प्रदान करता है? –

+0

प्रशिक्षण डेटा तैयारी कई सीमाओं से ग्रस्त है, जिसका अर्थ है कि प्रशिक्षण डेटा वास्तविक दुनिया का प्रतिनिधि नमूना नहीं है। साथ ही, डुप्लिकेट प्रशिक्षण उदाहरणों को बनाए रखने से सटीकता के पार-सत्यापन अनुमान को प्रभावित किया जाएगा, क्योंकि प्रशिक्षण सबसेट के साथ-साथ टेस्ट सबसेट में समान उदाहरण मौजूद हो सकते हैं। –

+0

अंतिम प्रश्न :) असंतुलन के इस स्तर के साथ, डेटा को डी-डुप्लिकेट करने से पहले या बाद में, क्या मुझे ओवरम्प्लिंग तकनीक का उपयोग करना चाहिए? –

संबंधित मुद्दे

 संबंधित मुद्दे