2015-06-14 9 views
11

मैं इस कोड का उपयोग का उपयोग कर इस पर एक गाऊसी कर्नेल घनत्व की गणना करने के मूल्यों के औसत से अलग महत्व देताकी गणना कैसे एक मूल्य गाऊसी कर्नेल घनत्व (अजगर)

from random import randint 
x_grid=[] 
for i in range(1000): 
    x_grid.append(randint(0,4)) 
print (x_grid) 

इस गाऊसी कर्नेल गणना करने के लिए कोड है मैं 5 में एक नया मान प्राप्त होता है घनत्व

from statsmodels.nonparametric.kde import KDEUnivariate 
import matplotlib.pyplot as plt 

def kde_statsmodels_u(x, x_grid, bandwidth=0.2, **kwargs): 
    """Univariate Kernel Density Estimation with Statsmodels""" 
    kde = KDEUnivariate(x) 
    kde.fit(bw=bandwidth, **kwargs) 
    return kde.evaluate(x_grid) 

import numpy as np 
from scipy.stats.distributions import norm 

# The grid we'll use for plotting 
from random import randint 
x_grid=[] 
for i in range(1000): 
    x_grid.append(randint(0,4)) 
print (x_grid) 

# Draw points from a bimodal distribution in 1D 
np.random.seed(0) 
x = np.concatenate([norm(-1, 1.).rvs(400), 
        norm(1, 0.3).rvs(100)]) 

pdf_true = (0.8 * norm(-1, 1).pdf(x_grid) + 
      0.2 * norm(1, 0.3).pdf(x_grid)) 

# Plot the three kernel density estimates 
fig, ax = plt.subplots(1, 2, sharey=True, figsize=(13, 8)) 
fig.subplots_adjust(wspace=0) 

pdf=kde_statsmodels_u(x, x_grid, bandwidth=0.2) 
ax[0].plot(x_grid, pdf, color='blue', alpha=0.5, lw=3) 
ax[0].fill(x_grid, pdf_true, ec='gray', fc='gray', alpha=0.4) 
ax[0].set_title("kde_statsmodels_u") 
ax[0].set_xlim(-4.5, 3.5) 

plt.show() 

सभी ग्रिड में मूल्यों के बीच 0 ई 4. हैं मैं कैसे है कि मूल्य औसत मूल्य से अलग है की गणना करने और इसे करने के लिए 0 और 1 के बीच एक स्कोर प्रदान करना चाहते हैं (एक थ्रेसहोल्ड सेट करना)

तो अगर मुझे एक नया मान 5 के रूप में प्राप्त होता है तो इसका स्कोर 0.90, के करीब होना चाहिए, जबकि यदि मुझे एक नया मान 500 के रूप में प्राप्त होता है तो इसका स्कोर 0.0 के करीब होना चाहिए।

मैं यह कैसे कर सकता हूं? क्या मेरा कार्य गॉसियन कर्नेल घनत्व की गणना करने के लिए सही है या क्या ऐसा करने के लिए एक बेहतर तरीका/पुस्तकालय है?

* अद्यतन * मैंने एक पेपर में एक उदाहरण पढ़ा। वॉशिंग मशीन का वजन आमतौर पर 100 किग्रा होता है। आम तौर पर विक्रेता अपनी क्षमता (उदाहरण 9 किलो) का उल्लेख करने के लिए किग्रा इकाई का उपयोग करते हैं। एक इंसान के लिए यह समझना आसान है कि 9 ग्राम क्षमता है और वॉशिंग मशीन का कुल वजन नहीं है। हम प्रत्येक विशेषता के लिए प्रशिक्षण डेटा पर मूल्यों के वितरण को मॉडलिंग करते हुए द्वारा गहरी भाषा समझ के बिना खुफिया जानकारी के इस रूप में "नकली" कर सकते हैं।

किसी दिए गए गुण के लिए (उदाहरण के लिए वॉशिंग मशीन का वजन), वीए = {va1, va2,। । । वैन} (| वीए | = एन) प्रशिक्षण डेटा में उत्पादों के अनुरूप विशेषता के मानों का सेट बनें। यदि मुझे एक नया मूल्य v अंतर्निहित रूप से मिला है तो यह "बंद" ( से अनुमानित वितरण) वीए है, तो हमें इस मूल्य को एक वाशिंग मशीन के उदाहरण वजन को अधिक आत्मविश्वास महसूस करना चाहिए।

द्वारा मानक विचलन की संख्या को मापने के लिए एक विचार हो सकता है, जो नया मान v Va में मानों के औसत से भिन्न होता है लेकिन वीए पर एक (गॉसियन) कर्नेल घनत्व मॉडल करने के लिए बेहतर हो सकता है, और फिर एक्सप्रेस उस बिंदु पर घनत्व के रूप में नया मान वी पर समर्थन:

enter image description here

जहां जहां σ^(2) ए के kth गाऊसी की भिन्नता है, और Z (यकीन है कि एस बनाने के लिए एक स्थिर है सीएसवी , वीए) ∈ [0, 1]। मैं figuresmodels लाइब्रेरी का उपयोग कर पायथन में इसे कैसे प्राप्त कर सकता हूं?

* अपडेट किए गए डेटा के 2 * उदाहरण ... लेकिन मुझे लगता है कि बहुत महत्वपूर्ण नहीं है ... इस कोड द्वारा उत्पन्न ...

from random import randint 
x_grid=[] 
for i in range(1000): 
    x_grid.append(randint(1,3)) 
print (x_grid) 

[2, 2, 1, 2, 2, 3, 1, 1, 1, 2, 2, 2, 1, 1, 3, 3, 1, 2, 1, 3, 2, 3, 3, 1, 2, 3, 1, 1, 3, 2, 2, 1, 1, 1, 2, 3, 2, 1, 2, 3, 3, 2, 2, 3, 3, 2, 2, 1, 2, 1, 2, 2, 3, 3, 1, 1, 2, 3, 3, 2, 1, 2, 3, 3, 3, 3, 2, 1, 3, 2, 2, 1, 3, 3, 1, 2, 1, 3, 2, 3, 3, 1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 1, 2, 1, 1, 2, 3, 2, 1, 2, 2, 2, 3, 2, 3, 3, 1, 1, 3, 2, 1, 1, 3, 3, 3, 2, 1, 2, 2, 1, 3, 2, 3, 1, 3, 1, 2, 3, 1, 3, 2, 2, 1, 1, 2, 2, 3, 1, 1, 3, 2, 2, 1, 2, 1, 2, 3, 1, 3, 3, 1, 2, 1, 2, 1, 3, 1, 3, 3, 2, 1, 1, 3, 2, 2, 2, 3, 2, 1, 3, 2, 1, 1, 3, 3, 3, 2, 1, 1, 3, 2, 1, 2, 2, 2, 1, 3, 1, 3, 2, 3, 1, 2, 1, 1, 2, 2, 2, 3, 3, 3, 3, 2, 2, 2, 3, 1, 1, 2, 2, 1, 1, 1, 3, 3, 3, 3, 1, 3, 1, 3, 1, 1, 1, 2, 1, 2, 1, 1, 2, 1, 3, 1, 2, 3, 1, 3, 2, 2, 2, 2, 2, 1, 1, 2, 3, 1, 1, 1, 3, 1, 3, 2, 2, 3, 1, 3, 3, 2, 2, 3 , 2, 1, 2, 1, 1, 1, 2, 2, 3, 2, 1, 1, 3, 1, 2, 1, 3, 3, 3, 1, 2, 2, 2, 1, 1 , 2, 2, 1, 2, 3, 1, 3, 2, 2, 2, 2, 2, 2, 1, 3, 1, 3, 3, 2, 3, 2, 1, 3, 3, 3 , 3, 3, 1, 2, 2, 2, 1, 1, 3, 2, 3, 1, 2, 3, 2, 3, 2, 1, 1, 3, 3, 1, 1, 2, 3 , 2, 3, 3, 2, 3, 3, 2, 3, 3, 3, 3, 3, 3, 3, 2, 1, 1, 2, 3, 2, 3, 1, 1, 1, 1 , 2, 2, 2, 2, 1, 1, 2, 2, 1, 3, 1, 1, 2, 3, 1, 1, 2, 3, 1, 2, 3, 1, 2, 1, 3 , 3, 2, 2, 3, 3, 3, 2, 1, 1, 2, 2, 3, 2, 3, 2, 1, 1, 1, 1, 2, 3, 1, 3, 3, 3 , 2, 1, 2, 3, 1, 2, 1, 1, 2, 3, 3, 1, 1, 3, 2, 1, 3, 3, 2, 1, 1, 3, 1, 3, 1 , 2, 2, 1, 3, 3, 2, 3, 1, 1, 3, 1, 2, 2, 1, 3, 2, 3, 1, 1, 3, 1, 3, 1, 2, 1 , 3, 2, 2, 2, 2, 1, 3, 2, 1, 3, 3, 2, 3, 2, 1, 3, 1, 2, 1, 2, 3, 2, 3, 2, 3 , 3, 2, 3, 3, 1, 1, 3, 2, 3, 2, 2, 2, 3, 1, 3, 2, 2, 3, 3, 2, 3, 2, 2, 2, 3 , 3, 1, 3, 2, 3, 1, 1, 2, 1, 3, 1, 2, 2, 3, 3, 1, 3, 1, 1, 2, 2, 1, 3, 3, 3 , 1, 2, 2, 2, 1, 3, 1, 2, 2, 2, 3, 3, 3, 1, 1, 2, 3, 3, 1, 1, 2, 3, 2, 3, 3 , 2, 2, 1, 3, 3, 3, 3, 2, 3, 1, 3, 3, 2, 1, 3, 2, 1, 1, 3, 3, 2, 2, 2, 2, 1 , 1, 1, 1, 2, 3, 3, 3, 2, 1, 3, 1, 1, 1, 1, 3, 1, 2, 3, 3, 3, 2, 3, 1, 2, 2, 2, 3, 2, 1, 2, 3, 3, 2, 3, 3, 1, 2, 3, 3, 3, 3, 2, 3, 3, 2, 1, 1, 1, 2, 3, 1, 3, 3, 2, 1, 3, 3, 3, 2, 2, 1, 2, 3, 2, 3, 3, 3, 3, 2, 3, 2, 1, 2, 1, 1, 3, 3, 3, 2, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 2, 2, 2, 3, 3, 1, 2, 1, 2, 1, 3, 2, 3, 3, 3, 3, 3, 3, 3, 1, 2, 3, 1, 3, 3, 2, 2, 1, 3, 1, 1, 3, 2, 1, 2, 3, 2, 1, 3, 3, 3, 2, 3, 1, 2, 3, 3, 1, 2, 2, 2, 3, 1, 2, 1, 1, 1, 3, 1, 3, 1, 3, 3, 2, 3, 1, 3, 2, 3, 3, 1, 2, 1, 3, 2, 2, 2, 2, 2, 2, 1, 2, 2, 3, 2, 2, 3, 2, 2, 2, 3, 1, 1, 3, 3, 1, 3, 1, 2, 1, 2, 1, 3, 2, 2, 1, 3, 1, 3, 3, 1, 3, 1, 1, 1, 1, 3, 2, 1, 2, 3, 1, 1, 3, 1, 1, 3, 1, 3, 3, 3, 1, 1, 3, 1, 3, 2, 2, 2, 1, 1, 2, 3, 3, 2, 3, 3, 1, 2, 3, 2, 2, 3, 1, 2, 2, 2, 1, 1, 3, 1, 2, 2, 2, 1, 1, 2, 3, 1, 3, 1, 1, 3, 2, 2, 3, 2, 2, 3, 3, 1, 1, 2, 2, 3, 1, 1, 2, 3, 2, 2, 3, 1, 2, 2, 1, 1, 3, 2, 3, 1, 1, 3, 1, 3, 2, 3, 3, 3, 3, 3, 2, 2, 3, 2, 1, 1, 1, 3, 3, 1, 2, 1, 3, 2, 3, 2, 2, 1, 2, 3, 3, 1, 1, 1, 1, 3, 3, 1, 3, 3, 1, 1, 3, 1, 3, 1, 3, 2, 3, 1, 3, 3, 3, 1, 1, 2, 2, 3, 2, 3, 2, 2, 1, 2, 1, 2, 1, 2, 2, 3, 1, 1, 3, 2, 2, 3, 2, 3, 3, 2, 2, 2, 2, 2, 2, 3, 2, 3, 1, 2, 2, 1, 1, 2, 3, 3, 1, 3, 3, 1, 3, 3, 1, 3, 2, 2, 2, 3, 1, 1, 1, 2, 3, 3, 2, 3, 1, 3]

यह सरणी बाजार में नए स्मार्टफोन के रैम का प्रतिनिधित्व करती है ... आमतौर पर उनके पास 1,2,3 जीबी रैम होता है।

कर्नेल घनत्व है कि

enter image description here

*** अद्यतन

मैं इस के साथ कोड को महत्व देता

[1024, 1, 1024, 1000, 1024, 128 की कोशिश , 1536, 16, 1 9 2, 2048, 2000, 2048, 24, 250, 256, 278, 288, 2 9 0, 3072, 3, 3000, 3072, 32, 384, 4096, 4, 4096, 448, 45, 512 , 576, 64, 768, 8, 9 6]

मूल्य सभी एमबी में हैं ... क्या आपको लगता है कि यह अच्छी तरह से काम कर रहा है?मुझे लगता है कि मैं एक सीमा

 100%  cdfv  kdev 
1  42 0.210097 0.499734 
1024 96 0.479597 0.499983 
5000  0 0.000359 0.498885 
2048 36 0.181609 0.499700 
3048  8 0.040299 0.499424 

* अद्यतन 3 *

[256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 512, 512, 512, 256, 256, 256, 512, 512, 512, 128, 128, 128, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 128, 128, 128, 512, 512, 512, 256, 256, 256, 256, 256, 256, 1024, 1024, 1024, 512, 512, 512, 128, 128, 128, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 4, 4, 4, 3, 3, 3, 24, 24, 24, 8, 8, 8, 16, 16, 16, 16, 16, 16, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 512, 512, 512, 256, 256, 256, 256, 256, 256, 256, 256, 256, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 2048, 2048, 2048, 2048, 2048, 2048, 4096, 4096, 4096, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 768, 768, 768, 768, 768, 768, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 512, 512, 512, 256, 256, 256, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 3072, 3072, 3072, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 256, 256, 256, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 512, 512, 512, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 64, 64, 64, 1024, 1024, 1024, 1024, 1024, 1024, 256, 256, 256, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 64, 64, 64, 64, 64, 64, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 128, 128, 128, 576, 576, 576, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 576, 576, 576, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 2048, 2048, 2048, 768, 768, 768, 768, 768, 768, 768, 768, 768, 512, 512, 512, 192, 192, 192, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 384, 384, 384, 448, 448, 448, 576, 576, 576, 384, 384, 384, 288, 288, 288, 768, 768, 768, 384, 384, 384, 288, 288, 288, 64, 64, 64, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 64, 64, 64, 128, 128, 128, 128, 128, 128, 128, 128, 128, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 256, 256, 256, 768, 768, 768, 768, 768, 768, 768, 768, 768, 256, 256, 256, 192, 192, 192, 256, 256, 256, 64, 64, 64, 256, 256, 256, 192, 192, 192, 128, 128, 128, 256, 256, 256, 192, 192, 192, 288, 288, 288, 288, 288, 288, 288, 288, 288, 288, 288, 288, 128, 128, 128, 128, 128, 128, 384, 384, 384, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 32, 32, 32, 768, 768, 768, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 3072, 3072, 3072, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 256, 512, 512, 512, 512, 512, 512, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 128, 128, 128, 128, 128, 128, 1024, 1024, 1024, 1024, 1024, 1024, 128, 128, 128, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 3072, 3072, 3072, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 256, 256, 256, 256, 256, 256, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 2048, 2048, 2048, 384, 384, 384, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 128, 128, 128, 256, 256, 256, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 768, 768, 768, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 128, 128, 128, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 64, 64, 64, 64, 64, 64, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 16, 16, 16, 3072, 3072, 3072, 3072, 3072, 3072, 256, 256, 256, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 32, 32, 32, 1024, 1024, 1024, 1024, 1024, 1024, 256, 256, 256, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 32, 32, 32, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 512, 512, 512, 1, 1, 1, 1024, 1024, 1024, 32, 32, 32, 32, 32, 32, 45, 45, 45, 8, 8, 8, 512, 512, 512, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 16, 16, 16, 4, 4, 4, 4, 4, 4, 4, 4, 4, 16, 16, 16, 16, 16, 16, 16, 16, 16, 64, 64, 64, 8, 8, 8, 8, 8, 8, 8, 8, 8, 64, 64, 64, 64, 64, 64, 256, 256, 256, 64, 64, 64, 64, 64, 64, 512, 512, 512, 512, 512, 512, 512, 512, 512, 32, 32, 32, 32, 32, 32, 32, 32, 32, 128, 128, 128, 128, 128, 128, 128, 128, 128, 32, 32, 32, 128, 128, 128, 64, 64, 64, 64, 64, 64, 16, 16, 16, 256, 256, 256, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 256, 256, 256, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 256, 256, 256, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 256, 256, 256, 256, 256, 256, 1024, 1024, 1024, 1024, 1024, 1024, 256, 256, 256, 3072, 3072, 3072, 3072, 3072, 3072, 128, 128, 128, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 128, 128, 128, 128, 128, 128, 64, 64, 64, 256, 256, 256, 256, 256, 256, 512, 512, 512, 768, 768, 768, 768, 768, 768, 16, 16, 16, 32, 32, 32, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 512, 512, 512, 2048, 2048, 2048, 1024, 1024, 1024, 3072, 3072, 3072, 3072, 3072, 3072, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 3072, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 3072, 3072, 3072, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 64, 64, 64, 96, 96, 96, 512, 512, 512, 64, 64, 64, 64, 64, 64, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 3072, 3072, 3072, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 64, 64, 64, 64, 64, 64, 256, 256, 256, 1024, 1024, 1024, 512, 512, 512, 256, 256, 256, 512, 512, 512, 1024, 1024, 1024, 512, 512, 512, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 512, 512, 512, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 2048, 3072, 3072, 3072, 3072, 3072, 3072, 2048, 2048, 2048, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 1024, 2048, 2048, 2048, 2048, 2048, 2048, 1024, 1024, 1024, 2048, 2048, 2048, 3072, 3072, 3072, 2048, 2048, 2048] 

नए रूप में इस संख्या

# new values 
x = np.asarray([128,512,1024,2048,3072,2800]) 

कुछ के साथ गलत हो जाता है सेट करना होगा इस डेटा के साथ करता है, तो मैं कोशिश 3072 (सभी मान एमबी में हैं)।

 100%  cdfv  kdev 
128  26 0.129688 0.499376 
512  55 0.275874 0.499671 
1024 91 0.454159 0.499936 
2048 12 0.062298 0.499150 
3072  0 0.001556 0.498364 
2800  1 0.004954 0.498573 

मैं नहीं समझ सकता कि ऐसा क्यों होता ... 3072 मान डेटा में बहुत समय दिखाई देता है ... यह मेरी datas के हिस्टोग्राम है:

यह परिणाम है। .. यह बहुत ही अजीब है, क्योंकि statsmodels विवरण में जाने के बिना के लिए 4096.

enter image description here

+0

यह आप वास्तव में क्या के लिए पूछ रहे हैं [पी-मूल्य] है की तरह लगता है (https://en.wikipedia.org/wiki/P-value) संभावना है कि नए मूल्य से ली गई है दर्शाती अन्य मूल्यों के समान अंतर्निहित वितरण। एक पी-वैल्यू कम से कम चरम *, यानी पी (x == 500) के बजाय मूल्य * को चित्रित करने की संभावना को दर्शाता है। –

+0

धन्यवाद @ali_m मैं पी-वैल्यू कैसे प्राप्त कर सकता हूं? –

+0

जबकि केडीई का उपयोग करके पी-वैल्यू प्राप्त करना संभव है, यह शायद नौकरी के लिए सबसे अच्छा उपकरण नहीं है, क्योंकि यह अत्यधिक रूढ़िवादी (बड़े) पी-मानों ([यहां देखें] की ओर पक्षपात करने की बहुत अधिक गारंटी है (http://stats.stackexchange.com/a/56321/22156))। आपके पिछले मानों पर पैरामीट्रिक वितरण को फिट करने के लिए एक और समझदार विकल्प हो सकता है, फिर अपने नए मान पर सीडीएफ का मूल्यांकन करके पी-वैल्यू प्राप्त करें। आपका वास्तविक डेटा कैसे वितरित किया जाता है? क्या आप वितरण का हिस्टोग्राम दिखा सकते हैं, या अपने वास्तविक डेटा का नमूना पोस्ट कर सकते हैं? –

उत्तर

3

कुछ सामान्य टिप्पणी 3072 के लिए कुछ मान रहे हैं और यह भी।

आंकड़े मॉडल में सीडीएफ कर्नेल भी हैं, लेकिन मुझे याद नहीं है कि वे कितनी अच्छी तरह से काम करते हैं, और मुझे नहीं लगता कि इसके लिए स्वचालित बैंडविड्थ चयन है।

glen_b का जवाब यह है कि टिप्पणी में से जुड़ा हुआ ali_m लिए संबंधित:

CDF अनुमान बहुत तेजी से घनत्व नमूना बढ़ता है के रूप में की अनुमान से सही वितरण के लिए जोड़ देता है। पूर्वाग्रह को संतुलित करने के लिए - भिन्न व्यापार व्यापार हमें सीडीएफ कर्नेल के लिए एक छोटी बैंडविड्थ का उपयोग करना चाहिए, जो घनत्व अनुमान के सापेक्ष कमजोर है। अनुमान इसी घनत्व अनुमानों से अधिक सटीक होना चाहिए।

पूंछ टिप्पणियों की संख्या:

नमूने में अपनी सबसे बड़ी अवलोकन 4 और आप 5 पर CDF जानना चाहते हैं, तो अपने डेटा इसके बारे में कोई जानकारी है, तो। पूंछों के लिए जहां आपके पास केवल बहुत कम अवलोकन हैं, कर्नेल वितरण अनुमानक जैसे गैरपरैमेट्रिक अनुमानक का अंतर सापेक्ष शर्तों में बड़ा होगा (क्या यह 1e-5 या 1e-20 है?)।

कर्नेल घनत्व या कर्नेल वितरण अनुमान के विकल्प के रूप में, हम पूंछ के हिस्सों के लिए एक पेटी वितरण का अनुमान लगा सकते हैं। उदाहरण के लिए, सबसे बड़े 10 या 20 प्रतिशत अवलोकन लेते हैं और एक पारेतो वितरण फिट करते हैं, और पूंछ घनत्व को निकालने के लिए इसका उपयोग करते हैं। पावरलॉ अनुमान के लिए कई पायथन पैकेज हैं, जिनका उपयोग इस के लिए किया जा सकता है।

अद्यतन

निम्नलिखित शो कैसे "outlyingness" की गणना करने के लिए एक पैरामीट्रिक सामान्य वितरण धारणा और निश्चित बैंडविड्थ के साथ एक गाऊसी कर्नेल घनत्व अनुमान का उपयोग।

यह नमूना केवल एकदम सही है जब नमूना निरंतर वितरण से आता है या निरंतर वितरण द्वारा अनुमानित किया जा सकता है। यहां हम का दावा करते हैं कि एक नमूना जिसमें केवल 3 विशिष्ट मान सामान्य वितरण से आता है। अनिवार्य रूप से, गणना की गई सीडीएफ मान दूरी माप की तरह है जो एक असतत यादृच्छिक चर के लिए संभावना नहीं है।

यह sdey से kde का उपयोग करता है।आँकड़े संस्करण के बजाय निश्चित बैंडविड्थ वाले आंकड़े।

मुझे यकीन नहीं है कि बैंडविड्थ scipy's gaussian_kde में कैसे सेट है, इसलिए, मेरी निश्चित बैंडविड्थ पसंद scale के बराबर है। मुझे नहीं पता कि मैं बैंडविड्थ कैसे चुनूं यदि केवल तीन अलग-अलग मान हैं, तो डेटा में पर्याप्त जानकारी नहीं है। डिफ़ॉल्ट बैंडविड्थ उन वितरणों के लिए है जो लगभग सामान्य हैं, या कम से कम एकल चोटी वाले हैं।

import numpy as np 
from scipy import stats 

# data 
ram = np.array([2, <truncated from data in description>, 3]) 

loc = ram.mean() 
scale = ram.std() 

# new values 
x = np.asarray([-1, 0, 2, 3, 4, 5, 100]) 

# assume normal distribution 
cdf_val = stats.norm.cdf(x, loc=loc, scale=scale) 
cdfv = np.minimum(cdf_val, 1 - cdf_val) 

# use gaussian kde but fix bandwidth 
kde = stats.gaussian_kde(ram, bw_method=scale) 
kde_val = np.asarray([kde.integrate_box_1d(-np.inf, xx) for xx in x]) 
kdev = np.minimum(kde_val, 1 - kde_val) 


#print(np.column_stack((x, cdfv, kdev))) 
# use pandas for prettier table 
import pandas as pd 
print(pd.DataFrame({'cdfv': cdfv, 'kdev': kdev}, index=x)) 

''' 
      cdfv  kdev 
-1 0.000096 0.000417 
0 0.006171 0.021262 
2 0.479955 0.482227 
3 0.119854 0.199565 
5 0.000143 0.000472 
100 0.000000 0.000000 
''' 
+0

आपके अपडेट को देखते हुए, मैंने जो कुछ भी कहा वह अभी भी लागू होता है, सिवाय इसके कि निरंतर डेटा के लिए उपयुक्त है, या समर्थन में कम से कम कई अलग-अलग मूल्य हैं ताकि निरंतर सीडीएफ अलग सीडीएफ के लिए एक अच्छा अनुमान हो। हालांकि, आपको उन बिंदुओं के बारे में कुछ पूर्व जानकारी शामिल करने की आवश्यकता है जो समर्थन में नहीं हैं, उदाहरण के लिए 5 के करीब 5 है यदि हमने कभी 5 या इससे पहले कभी नहीं देखा। एक और उदाहरण: सीपीयू की संख्या के लिए आंशिक गणना संभव है? क्या हमारे पास एक कंप्यूटर है जिसमें 2.5 सीपीयू हैं, या क्या हम यह कह सकते हैं कि यदि हम 2.5 देखते हैं तो यह CPU की संख्या है? – user333700

+0

आंकड़े के संदर्भ में मैं इसे एक गैर-पैरामीटर वर्गीकरण समस्या के रूप में मानता हूं। प्रत्येक श्रेणी के लिए अनुमानित nonparametric घनत्व को देखते हुए, हम विभिन्न श्रेणियों के लिए एक नए अवलोकन के "निकटता" की गणना करने के लिए सीडीएफ का उपयोग कर सकते हैं। (एक nonparametric बहुराष्ट्रीय लॉग की तरह) – user333700

+0

एक सरल शुरुआत के लिए, मैं सामान्य वितरण, साधनों और भिन्नताओं की गणना, और सामान्य सीडीएफ का उपयोग "बाह्यता" उपाय के रूप में करता हूं। यदि निरंतर वितरण द्वारा अनुमानित अर्थ समझ में आता है, तो मैं कर्नेल वितरण कार्यों के साथ एक ही दृष्टिकोण को परिशोधित करता हूं। – user333700

संबंधित मुद्दे