2013-04-03 6 views
11

यह महाउट में कार्रवाई में वर्णित है कि सामान्यीकरण सटीकता में थोड़ा सुधार कर सकता है। क्या कोई कारण बता सकता है, धन्यवाद!वेक्टर सामान्यीकरण क्लस्टरिंग और वर्गीकरण की सटीकता में सुधार क्यों कर सकता है?

+0

सीखने की कौन सी विधि या कौन सा मॉडल चर्चा में है? (उदाहरण के लिए perceptron, kmeans, आदि) – DuckMaestro

+0

बेवकूफ बेयस, के-साधन ... –

उत्तर

34

सामान्यीकरण हमेशा आवश्यक नहीं है, लेकिन यह शायद ही कभी दर्द होता है।

कुछ उदाहरण:

K-means:

कश्मीर का मतलब है क्लस्टरिंग है "समदैशिक" अंतरिक्ष और की सभी दिशाओं में इसलिए कम या ज्यादा दौर (बल्कि लम्बी से) समूहों का उत्पादन करता है। इस स्थिति में भिन्नता को छोड़कर असमान के बराबर है जो छोटे भिन्नता वाले चर पर अधिक वजन डालता है। मैटलैब में

उदाहरण:

X = [randn(100,2)+ones(100,2);... 
    randn(100,2)-ones(100,2)]; 

% Introduce denormalization 
% X(:, 2) = X(:, 2) * 1000 + 500; 

opts = statset('Display','final'); 

[idx,ctrs] = kmeans(X,2,... 
        'Distance','city',... 
        'Replicates',5,... 
        'Options',opts); 

plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12) 
hold on 
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12) 
plot(ctrs(:,1),ctrs(:,2),'kx',... 
    'MarkerSize',12,'LineWidth',2) 
plot(ctrs(:,1),ctrs(:,2),'ko',... 
    'MarkerSize',12,'LineWidth',2) 
legend('Cluster 1','Cluster 2','Centroids',... 
     'Location','NW') 
title('K-means with normalization') 

enter image description here

enter image description here

(FYI करें: How can I detect if my dataset is clustered or unclustered (i.e. forming one single cluster)

Distributed clustering:

तुलनात्मक विश्लेषण से पता चलता है कि वितरित क्लस्टरिंग परिणाम सामान्यीकरण प्रक्रिया के प्रकार पर निर्भर करते हैं।

Artificial neural network (inputs):

तो इनपुट चर रैखिक जोड़ दिया जाता है एक MLP के रूप में, है, तो यह शायद ही कभी सख्ती से आदानों मानकीकृत करने के लिए, कम से कम सिद्धांत रूप में आवश्यक है। इसका कारण यह है कि एक इनपुट वेक्टर का कोई भी बचाव संबंधित वजन और पूर्वाग्रहों को बदलकर प्रभावी ढंग से पूर्ववत किया जा सकता है, आपको पहले के समान सटीक आउटपुट के साथ छोड़ देता है। हालांकि, कई व्यावहारिक कारण हैंइनपुट को मानकीकृत करने से मानक तेजी से प्रशिक्षण मिल सकता है और स्थानीय ऑप्टिमा में फंसने की संभावना कम हो सकती है। इसके अलावा, वजन घटाने और Bayesian अनुमान मानक मानकों के साथ अधिक आसानी से किया जा सकता है।

Artificial neural network (inputs/outputs)

आप अपने डेटा को इन बातों से कोई भी कार्य करना चाहिए? जवाब है, यह निर्भर करता है।

मानकीकरण या तो इनपुट या लक्ष्य चर के प्रशिक्षण प्रक्रिया बेहतर संख्यात्मक हालत में सुधार के द्वारा व्यवहार दिखाने का प्रयत्न करता अनुकूलन समस्या का ( ftp://ftp.sas.com/pub/neural/illcond/illcond.html देखें) और सुनिश्चित करना है कि विभिन्न मूलभूत मूल्यों प्रारंभ और समाप्ति में शामिल उपयुक्त हैं। लक्ष्यीकरण मानकीकरण उद्देश्य कार्य को भी प्रभावित कर सकता है।

मामलों के मानकीकरण को सावधानी से संपर्क किया जाना चाहिए क्योंकि यह जानकारी छोड़ देता है। यदि वह जानकारी अप्रासंगिक है, तो मानकीकरण के मामले काफी उपयोगी हो सकते हैं। यदि वह जानकारी महत्वपूर्ण है, तो मानकीकरण के मामले विनाशकारी हो सकते हैं।


दिलचस्प है, बदलते माप इकाइयाँ भी एक का नेतृत्व एक बहुत अलग क्लस्टरिंग संरचना को देखने के लिए हो सकता है: Kaufman, Leonard, and Peter J. Rousseeuw.. "Finding groups in data: An introduction to cluster analysis." (2005).

कुछ अनुप्रयोगों में, माप इकाइयों को बदलने भी नेतृत्व एक एक को देखने के लिए कर सकते हैं बहुत अलग क्लस्टरिंग संरचना। उदाहरण के लिए, उम्र ( वर्षों में) और चार काल्पनिक लोगों की ऊंचाई (सेंटीमीटर) को तालिका 3 में दिया गया है और चित्रा 3 में प्लॉट किया गया है। ऐसा प्रतीत होता है कि {ए, बी) और {सी, 0) दो अच्छी तरह से हैं अलग-अलग क्लस्टर दूसरी तरफ, जब ऊंचाई फीट में व्यक्त की जाती है तो उसे तालिका 4 और चित्रा 4 प्राप्त होता है, जहां स्पष्ट क्लस्टर अब {ए, सी} और {बी, डी} हैं। यह विभाजन पूरी तरह से पहले से अलग है क्योंकि प्रत्येक विषय को साथी प्राप्त हुआ है। (चित्रा 4 को दिनों में मापा गया था, तो और भी अधिक चपटा हो गया होगा।)

माप इकाइयों की पसंद पर इस निर्भरता से बचने के लिए, डेटा को मानकीकृत करने का विकल्प है। यह यूनिट रहित चर के मूल माप को परिवर्तित करता है।

enter image description here enter image description here

Kaufman et al. कुछ दिलचस्प विचार (पेज 11) के साथ जारी है:

देखने के एक दार्शनिक बिंदु से, मानकीकरण नहीं वास्तव में समस्या को हल करता है। दरअसल, माप इकाइयों की पसंद चर के सापेक्ष वजन के लिए बढ़ जाती है। छोटे इकाइयों में एक चर को अभिव्यक्त करने से उस चर के लिए एक बड़ी श्रृंखला हो जाएगी, जो परिणामी संरचना पर एक बड़ा प्रभाव डालेगा। दूसरी ओर, द्वारा सभी चरों को बराबर वजन देने के प्रयासों को मानकीकृत करने, में ऑब्जेक्टिविटी प्राप्त करने की आशा। इस प्रकार, इसका उपयोग व्यवसायी द्वारा किया जा सकता है जिसका कोई पूर्व ज्ञान नहीं है। हालांकि, यह हो सकता है कि कुछ चर विशेष अनुप्रयोग में दूसरों की तुलना में आंतरिक रूप से अधिक महत्वपूर्ण हैं, और फिर वजन-वस्तु का कार्य विषय-वस्तु ज्ञान (देखें, उदाहरण के लिए, अब्राहमविच, 1 9 85) के आधार पर होना चाहिए। पर दूसरी ओर क्लस्टरिंग तकनीकों को बनाने के प्रयास किए गए हैं जो (फ्राइडमैन और रूबिन, 1 9 67) के चर से स्वतंत्र हैं। हार्डी और रासन (1 9 82) का प्रस्ताव है जो विभाजन की खोज के लिए है जो क्लस्टर के उत्तल खंडों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की विधि डेटा के रैखिक परिवर्तनों के संबंध में परिवर्तनीय है, लेकिन दुर्भाग्यवश इसके कार्यान्वयन के लिए कोई एल्गोरिदम मौजूद नहीं है ( सन्निकटन जो कि दो आयामों तक सीमित है) को छोड़कर।इसलिए, मानकीकरण की दुविधा वर्तमान में अपरिहार्य दिखाई देती है और इस पुस्तक में वर्णित प्रोग्राम उपयोगकर्ता को पसंद छोड़ देते हैं।

+0

क्या आप के-साधनों के लिए और अधिक विस्तार कर सकते हैं, "भिन्न भिन्नता को छोड़कर छोटे भिन्नता वाले चर पर अधिक वजन डालने के बराबर है"? यूक्लिडियन दूरी इस तरह के मामले में असमान भिन्नताओं से कैसे प्रभावित होती है? – soufanom

+1

@soufanom निश्चित, उदाहरण उत्तर में जोड़ा गया। –

+1

ध्यान दें कि मैं के-साधन उदाहरण प्लॉट करने के लिए ['gscatter'] (http://www.mathworks.com/help/stats/gscatter.html) का उपयोग कर सकता था। –

0

इसके पीछे कारण यह है कि कभी-कभी विभिन्न चर के माप प्रकृति में भिन्न होते हैं, इसलिए परिणामों का भिन्नता सामान्यीकृत करके समायोजित किया जाता है। उदाहरण के लिए उम्र (x) बनाम वजन (वाई) बच्चों के एक सेट के लिए तुलना में, उम्र एक से 10 तक जा सकती है और वजन 10 पाउंड से 100 तक जा सकता है। यदि आप ग्राफिक को सामान्य नहीं करते हैं तो आपके ग्राफ के दाईं ओर दो बहुत ही अजीब लंबे अंडाकार आकार होते हैं क्योंकि दोनों तराजू को एक से 100 तक जाने की आवश्यकता होती है। सामान्यीकरण दोनों अक्षरों को 1 से 100 स्केल देता है जब ग्राफिक अधिक सार्थक क्लस्टर दिखाएगा।

संबंधित मुद्दे