8

मान लीजिए कि आप किसी साइट के उपयोगकर्ताबेस के आकार का आकलन करना चाहते हैं जो इस जानकारी को प्रचारित नहीं करता है।नमूना लेने से साइट के उपयोगकर्ताबेस के आकार का अनुमान लगाने के लिए उपयोगकर्ता नाम

लोग विभिन्न संभावनाओं के साथ अलग-अलग उपयोगकर्ता नाम प्राप्त करने की अधिक संभावना रखते हैं। उदाहरण के लिए, यदि उपयोगकर्ता नाम 'निक' सिस्टम पर मौजूद नहीं है, तो इसकी संभावना बहुत कम उपयोगकर्ताबेस होने की संभावना है। यदि उपयोगकर्ता नाम 'स्टारबाबी' लिया जाता है, तो यह एक बहुत बड़ी साइट होने की संभावना है। यह एक सीधी बेयसियन समस्या की तरह लगता है।

समस्या यह है कि अलग-अलग साइटों में स्वीकार्य उपयोगकर्ता नामों की एक अलग जगह हो सकती है। सबसे बड़ी समस्या सामान्य पात्रों की वैधता होगी जैसे रिक्त स्थान, मुझे कल्पना है। एक और मुद्दा जो पूर्व वितरण को दंडित कर सकता है यह है कि जब साइट आप चाहते हैं तो नाम नाम सुझाता है, या आपको खुद को और अधिक रचनात्मक नाम के बारे में सोचने के लिए छोड़ देता है।

आप विभिन्न आकार के सिस्टम में उपयोगकर्ता नामों की घटना की आवृत्ति का प्रशिक्षण सेट कैसे बना सकते हैं? बेयस का उपयोग निश्चित चौड़ाई वाली बाल्टी में वर्गीकरण के बजाय संख्यात्मक अनुमान करने के लिए करने का कोई तरीका है?

+0

बेहतर उत्तर प्राप्त करने के लिए अनुमान लगा सकें, तो मैं इसे संपादित कर दूंगा आखिरी सवाल, "क्या आपको लगता है कि इस विचार में योग्यता है?" हर कोई उस पर ध्यान केंद्रित करने जा रहा है और आपको कठोर राय-आधारित उत्तर देता है, लेकिन आपके लिए अधिक मूल्यवान लोग आपके पहले दो तकनीकी प्रश्नों के उत्तर होंगे। –

+0

@ ब्रेंट ओज़र: अच्छी सलाह! मुझे यह देखकर खुशी हुई कि उसने इसे लिया। –

+0

और जल्दी से एक बेहतर उत्तर मिला –

उत्तर

1

एकमात्र तरीका उन सिस्टम पर उपयोगकर्ता नामों का एक बड़ा सेट प्राप्त करना है जिसके लिए आप उपयोगकर्ताबेस के आकार को जानते हैं। उपयोगकर्ताबेसबेस में डेटा को घटाया जा सकता है जहां कुछ नाम अधिक आम होते हैं। रिंग्स फोरम के लॉर्ड से यहां तक ​​कि एक छोटे से उपयोगकर्ताबेस में उदाहरण के लिए उपयोगकर्ता नाम स्ट्रिडर भी होगा।

3

मुझे लगता है कि यह एक अच्छा विचार है!

आप कुछ अलग-अलग उपयोगकर्ता नामों के लिए UserNameCheck.com का उपयोग कर डेटा सेट को एक साथ रख सकते हैं और उन साइटों के निर्दिष्ट उपयोगकर्ताबेस आकार के परिणामों को पार-संदर्भित कर सकते हैं।

नोट: वह वेबसाइट यह नहीं लगती है कि उपयोगकर्ता नाम साइट के लिए मान्य हैं या नहीं। ऐसा लगता है कि जीमेल आपको "[email protected]" पंजीकृत करने देगा, भले ही यह बहुत छोटा हो।

+0

यदि आप जीमेल के आकार का आकलन करना चाहते हैं तो आप इन नियमों को पहले से जानते थे, तो आप स्वतंत्रता ग्रहण करने के इच्छुक हैं, तो आप अपने पूर्व वितरण से ऐसे नामों को अनदेखा कर सकते हैं। –

+0

(मैं केवल यह ध्यान दे रहा था कि अगर सेवा "ली गई", "उपलब्ध" या "अनुमति नहीं दी गई" कहा जाता है तो सेवा बेहतर होती।) मुझे लगता है कि आजादी मानना ​​सही शुरुआत है। आपके द्वारा उल्लेख किए गए संभावित skewed परिणाम असली हैं, लेकिन शायद "समयपूर्व अनुकूलन" हैं। =) –

5

आपको जो करना है, वह सटीक अनुमान लगाता है कि पंजीकृत उपयोगकर्ता की संख्या के अनुसार एक निश्चित उपयोगकर्ता नाम मौजूद है। आइए कहें कि एन उपयोगकर्ताओं की संख्या है और यू = 1 यदि उपयोगकर्ता मौजूद है और 0 अनुपस्थित हैं तो 0।

सबसे पहले, यह मान लें कि प्रत्येक उपयोगकर्ता नाम के लिए संभाव्यता वितरण एक दूसरे से स्वतंत्र हैं। यह सच नहीं होगा - और आप पहले से ही एक कारण के साथ आ चुके हैं - लेकिन शायद यह आवश्यक होगा क्योंकि यह डेटा संग्रह और गणित को बहुत आसान बनाता है।

आपको पंजीकृत उपयोगकर्ता नामों और उस साइट के उपयोगकर्ताओं की कुल संख्या वाले साइटों से बहुत सारे डेटा की आवश्यकता होगी। अब, किसी भी विशिष्ट उपयोगकर्ता नाम को लें और 2 डी प्लॉट पर अपने डेटा पॉइंट्स की कल्पना करें (एक्स पर एक्स और यू पर वाई के साथ), y = 0 पर बिंदुओं की एक क्षैतिज रेखा होगी और दूसरा y = 1 पर होगा। आप या तो एक्स अक्ष को बिन कर सकते हैं जैसा कि आप सुझाव देते हैं और एक अलग फ़ंक्शन प्राप्त करने के लिए बिन में सभी डेटा बिंदुओं का माध्य वाई समन्वय लेते हैं, या आप कुछ वर्गों के कार्यों के ग्राफ पर बिंदुओं को फिट करने का प्रयास कर सकते हैं। मैं वास्तव में नहीं जानता कि कार्यों का वह वर्ग क्या होगा - शायद कुछ प्रकार का पावर लॉ? (मैं Zipf's law के बारे में सोच रहा हूं)।

अब आपके पास Bayes के नियम को लागू करने के लिए संभाव्यता वितरण हैं। मुझे नहीं पता कि एन के लिए आप किस तरह का पूर्व उपयोग करना चाहते हैं। एक समान वितरण (कुछ बड़ी संख्या तक) कोई धारणा नहीं करेगा, लेकिन मुझे लगता है कि अधिकांश साइटों के पास एक छोटा उपयोगकर्ता आधार है।

मुझे संदेह है कि इस काम को करने के लिए, जब आप साइट से उपयोगकर्ताओं का नमूना लेंगे तो आपको उपयोगकर्ताओं के एक विशिष्ट समूह के लिए ऐसा करने की आवश्यकता होगी।मैं शर्त लगा रहा हूं कि उपयोगकर्ता नामों की लोकप्रियता बहुत लंबी पूंछ होने वाली है और इसलिए उपयोगकर्ताओं का एक यादृच्छिक नमूना आपको बहुत ही कम इस्तेमाल किए जाने वाले नाम और इसलिए बहुत सारे अनौपचारिक सबूत देने जा रहा है।

संपादित करें: मेरे पास एक और विचार था; अधिकांश फ़ोरम (और स्टैक ओवरव्लो पर) उपयोगकर्ताओं के पास लगातार उपयोगकर्ता आईडी हैं, इसलिए आप बड़ी संख्या में उपयोगकर्ताओं के साथ एक छोटी साइट के साथ अनुमान लगा सकते हैं ताकि आप सभी छोटे एन

संबंधित मुद्दे