को संरक्षित करते समय डेटासेट से यादृच्छिक नमूनाकरण, मेरे पास माप से एकत्रित 2000 संख्याओं का एक सेट है। मैं इस डेटा सेट से नमूना देना चाहता हूं, प्रत्येक परीक्षण में ~ 10 बार, जबकि कुल मिलाकर संभाव्यता वितरण को संरक्षित करना, और प्रत्येक परीक्षण में (लगभग यथासंभव सीमा तक)। उदाहरण के लिए, प्रत्येक परीक्षण में, मुझे कुछ छोटे मूल्य, कुछ मध्यम वर्ग मूल्य, कुछ बड़ा मूल्य, मूल वितरण के करीब लगभग माध्य और भिन्नता के साथ चाहिए। सभी परीक्षणों का संयोजन, मैं भी सभी नमूनों के कुल माध्य और भिन्नता को चाहता हूं, लगभग मूल वितरण के करीब। डेटा के 2k तत्वों कीमूल डेटा वितरण
छवि 1. घनत्व साजिश ~:
मेरी डाटासेट के रूप में एक long-tail probability distribution है, प्रत्येक quantile पर डेटा की मात्रा ही नहीं हैं।
मैं जावा का उपयोग कर रहा है, और अभी मैं एक uniform distribution उपयोग कर रहा हूँ, और डाटासेट से एक यादृच्छिक पूर्णांक का उपयोग करें, और उस स्थिति में डेटा तत्व वापसी:
public int getRandomData() {
int data[] ={1231,414,222,4211,,41,203,123,432,...};
length=data.length;
Random r=new Random();
int randomInt = r.nextInt(length);
return data[randomInt];
}
मैं अगर पता नहीं है यह वैसे ही काम करता है जैसा मैं चाहता हूं, क्योंकि मैं डेटा का उपयोग करता हूं ताकि इसे मापा जा सके, जिसमें सीरियल सहसंबंध की बड़ी मात्रा है।
आपने मुझे बेहतर भर दिया। :-) लेकिन मैं यह कैसे साबित कर सकता हूं? और मैं अभी भी इस तथ्य के बारे में चिंतित हूं कि मुझे प्रत्येक परीक्षा में पर्याप्त छोटे और बड़े मूल्य नहीं मिलते हैं। – Ho1
@ हो 1 साधन और मानक विचलन आदेश द्वारा अपरिवर्तित हैं। यदि आप वही वितरण चाहते हैं तो आपको मूल्यों को क्रमबद्ध करने और नमूने के यादृच्छिक रूप से अलग-अलग हिस्सों का चयन करने की आवश्यकता है, बेशक यह पूरी तरह से यादृच्छिक नहीं है क्योंकि आप अपने इच्छित परिणामों को बाधित कर रहे हैं। –
@ पीटर लेवरी: आप जो कहते हैं वह गलत है। –