2015-09-12 28 views
6

को संरक्षित करते समय डेटासेट से यादृच्छिक नमूनाकरण, मेरे पास माप से एकत्रित 2000 संख्याओं का एक सेट है। मैं इस डेटा सेट से नमूना देना चाहता हूं, प्रत्येक परीक्षण में ~ 10 बार, जबकि कुल मिलाकर संभाव्यता वितरण को संरक्षित करना, और प्रत्येक परीक्षण में (लगभग यथासंभव सीमा तक)। उदाहरण के लिए, प्रत्येक परीक्षण में, मुझे कुछ छोटे मूल्य, कुछ मध्यम वर्ग मूल्य, कुछ बड़ा मूल्य, मूल वितरण के करीब लगभग माध्य और भिन्नता के साथ चाहिए। सभी परीक्षणों का संयोजन, मैं भी सभी नमूनों के कुल माध्य और भिन्नता को चाहता हूं, लगभग मूल वितरण के करीब। डेटा के 2k तत्वों कीमूल डेटा वितरण

Probability density

छवि 1. घनत्व साजिश ~:

मेरी डाटासेट के रूप में एक long-tail probability distribution है, प्रत्येक quantile पर डेटा की मात्रा ही नहीं हैं।

मैं जावा का उपयोग कर रहा है, और अभी मैं एक uniform distribution उपयोग कर रहा हूँ, और डाटासेट से एक यादृच्छिक पूर्णांक का उपयोग करें, और उस स्थिति में डेटा तत्व वापसी:

public int getRandomData() { 
    int data[] ={1231,414,222,4211,,41,203,123,432,...}; 
    length=data.length; 
    Random r=new Random(); 
    int randomInt = r.nextInt(length); 
    return data[randomInt]; 
} 

मैं अगर पता नहीं है यह वैसे ही काम करता है जैसा मैं चाहता हूं, क्योंकि मैं डेटा का उपयोग करता हूं ताकि इसे मापा जा सके, जिसमें सीरियल सहसंबंध की बड़ी मात्रा है।

उत्तर

3

यह वही काम करता है जैसा आप चाहते हैं। डेटा का क्रम अप्रासंगिक है।

+0

आपने मुझे बेहतर भर दिया। :-) लेकिन मैं यह कैसे साबित कर सकता हूं? और मैं अभी भी इस तथ्य के बारे में चिंतित हूं कि मुझे प्रत्येक परीक्षा में पर्याप्त छोटे और बड़े मूल्य नहीं मिलते हैं। – Ho1

+0

@ हो 1 साधन और मानक विचलन आदेश द्वारा अपरिवर्तित हैं। यदि आप वही वितरण चाहते हैं तो आपको मूल्यों को क्रमबद्ध करने और नमूने के यादृच्छिक रूप से अलग-अलग हिस्सों का चयन करने की आवश्यकता है, बेशक यह पूरी तरह से यादृच्छिक नहीं है क्योंकि आप अपने इच्छित परिणामों को बाधित कर रहे हैं। –

+0

@ पीटर लेवरी: आप जो कहते हैं वह गलत है। –

2

यादृच्छिक नमूना संभावितता वितरण को संरक्षित करता है।

संबंधित मुद्दे