2013-02-24 5 views
6

में पैरामीटर अनुमान मुझे अलग-अलग पूर्वस्थापन (जैसे एजेंटिव, वाद्ययंत्र, समय, स्थान इत्यादि) के साथ उनके वितरण के आधार पर संज्ञाओं के स्वाभाविक रूप से होने वाले वर्गों को खोजने की आवश्यकता है। मैंने के-साधन क्लस्टरिंग का उपयोग करने की कोशिश की लेकिन कम मदद की, यह अच्छी तरह से काम नहीं कर सका, कक्षाओं पर बहुत अधिक ओवरलैप था जो संभवतः कक्षाओं के गैर-गोलाकार आकार और के-साधनों में यादृच्छिक प्रारंभिकता के कारण था)।डीबीएससीएएन

अब मैं डीबीएससीएएन का उपयोग करने पर काम कर रहा हूं, लेकिन मुझे इस क्लस्टरिंग एल्गोरिदम में ईपीएसलॉन मान और मिनी-पॉइंट मान को समझने में परेशानी है। क्या मैं यादृच्छिक मानों का उपयोग कर सकता हूं या मुझे उनकी गणना करने की आवश्यकता है। क्या कोई मदद कर सकता है। विशेष रूप से ईपीएसलॉन के साथ, कम से कम अगर इसे करने की आवश्यकता है तो इसकी गणना कैसे करें।

उत्तर

6

पैरामीटर चुनने के लिए अपने डोमेन ज्ञान का उपयोग करें। Epsilon एक त्रिज्या है। आप इसे न्यूनतम क्लस्टर आकार के रूप में सोच सकते हैं।

स्पष्ट रूप से यादृच्छिक मूल्य बहुत अच्छी तरह से काम नहीं करेंगे। एक उदारवादी के रूप में, आप एक के-दूरी साजिश को देखने की कोशिश कर सकते हैं; लेकिन यह स्वचालित नहीं है।

किसी भी तरीके से करने की पहली बात आपके डेटा के लिए एक अच्छी दूरी का फ़ंक्शन चुनें। और उपयुक्त सामान्यीकरण प्रदर्शन करते हैं।

"minPts" के रूप में यह फिर से आपके डेटा पर निर्भर करता है और की आवश्यकता है। एक उपयोगकर्ता दूसरे की तुलना में बहुत अलग मूल्य चाहता है। और निश्चित रूप से minPts और Epsilon युग्मित हैं। यदि आप डबल ईपीएसलॉन करते हैं, तो आपको मोटे तौर पर 2^डी (यूक्लिडियन दूरी के लिए) की वृद्धि करने की आवश्यकता होगी, क्योंकि यह है कि हाइपरस्फेयर की मात्रा बढ़ जाती है!)

यदि आप बहुत छोटे और बढ़िया विस्तृत क्लस्टर चाहते हैं, तो चुनें एक कम minpts। यदि आप बड़े और कम क्लस्टर (और अधिक शोर) चाहते हैं, तो एक बड़े minpts का उपयोग करें। यदि आप किसी भी क्लस्टर को बिल्कुल नहीं चाहते हैं, तो अपने डेटा सेट आकार से बड़े मिनट चुनें ...

+0

मैं आपको पैरामीटर यहां बताने में सक्षम नहीं हूं। आपको * प्रयोग * की आवश्यकता है। लेकिन गंभीरता से, पहले समानता को मापने के तरीके को समझने का प्रयास करें। एक डीबीएससीएएन क्लस्टरिंग परिणाम हमेशा उतना ही अच्छा होगा जितना आपका समानता कार्य होता है। –

+0

मैं अपने डेटा में 3 प्रमुख वर्गों के साथ एक पदानुक्रमिक संरचना मान रहा हूं। मेरे पास 15 आयामों के साथ लगभग 32 के अंक हैं। मेरा डेटा बिंदु: संज्ञा, गणना (prep1)/संज्ञा की कुल गणना, गणना (prep2)/कुल ....... गिनती (prep15)/कुल। मैं यूक्लिडियन दूरी समारोह का उपयोग कर रहा हूं, मैंने अभी तक दूसरों की कोशिश नहीं की है। सामान्यीकरण के आधार पर आपका क्या मतलब है, मुझे डेटा को सामान्यीकृत करने के लिए कैसे किया जाता है, मैंने पहले से दिए गए संज्ञा की कुल आवृत्ति द्वारा वितरण को सामान्यीकृत कर दिया है। एक और सवाल, इसके बारे में के-साधन, क्या मैं हाथ से पहले सेंट्रॉइड चुन सकता हूं, क्योंकि मैं अपने डोमेन ज्ञान के प्रत्येक वर्ग के प्रोटोटाइप का अनुमान लगा सकता हूं। – Riyaz