मैं 'समाचार कहानियां' एला Google समाचार में लेखों को क्लस्टर करने के तरीके पर थोड़ा सा शोध कर रहा हूं।वृद्धिशील क्लस्टरिंग एल्गोरिदम?
इस विषय पर पिछले प्रश्नों को देखते हुए, मुझे अक्सर यह लगता है कि यह किसी लेख से शब्दों का एक वेक्टर खींचने की सिफारिश करता है, यदि वे लेख के कुछ हिस्सों में हैं (उदाहरण के लिए शीर्षक), और फिर लेखों को क्लस्टर करने के लिए के-साधन एल्गोरिदम की तरह कुछ उपयोग करने के लिए।
लेकिन इस सवाल के एक जोड़े की ओर जाता है: पहले से
- k-साधन के साथ
, तुम कैसे जानते हो कितना कश्मीर होना चाहिए? एक गतिशील समाचार वातावरण में आपके पास कहानियों की एक बहुत ही परिवर्तनीय संख्या हो सकती है, और आप पहले से नहीं जान पाएंगे कि लेखों का संग्रह कितनी कहानियां दर्शाता है।
पदानुक्रम क्लस्टरिंग एल्गोरिदम के साथ, आप कैसे तय करते हैं कि कौन से क्लस्टर आपकी कहानियों के रूप में उपयोग करते हैं? आपके पास पेड़ के निचले हिस्से में क्लस्टर होंगे जो केवल एक लेख हैं, जिन्हें आप स्पष्ट रूप से उपयोग नहीं करना चाहते हैं, और पेड़ की जड़ पर एक क्लस्टर जिसमें सभी लेख हैं, जो आप फिर से नहीं चाहते हैं ... लेकिन आप कैसे जानते हैं कि कहानियों का प्रतिनिधित्व करने के लिए बीच में कौन से क्लस्टर का उपयोग किया जाना चाहिए?
अंत में, या तो के-साधन या पदानुक्रमित एल्गोरिदम के साथ, मैंने जो अधिकांश साहित्य पढ़ा है, वह मानते हैं कि आपके पास क्लस्टर करना चाहते हैं, और यह एक बार में सभी को क्लस्टर करता है। लेकिन ऐसी स्थिति का क्या है जहां आपके पास हर बार नए लेख आते हैं। क्या होता है? क्या आपको स्क्रैच से सभी लेखों को क्लस्टर करना है, अब एक अतिरिक्त है? यही कारण है कि मैं सोच रहा हूं कि क्या ऐसे दृष्टिकोण हैं जो आपको लेख जोड़ने 'जैसे' स्क्रैच से पुनः क्लस्टरिंग के बिना जाते हैं। मैं कल्पना नहीं कर सकता कि यह बहुत ही कुशल है।
धन्यवाद एरिक! यह एक सहायक पेपर है :) यह क्लस्टर की संख्या को पूर्व निर्धारित करने के मुद्दे को संबोधित करता है, और मुझे लगता है कि क्लस्टर की गुणवत्ता के मामले में दहलीज की पसंद बहुत महत्वपूर्ण है ... लेकिन यह ऐसा कुछ है जिसका प्रयोग किया जा सकता है साथ में। हालांकि मैं सोच रहा हूं ... क्या आपको पता है कि यह एल्गोरिदम एक वृद्धिशील संदर्भ में अच्छा काम करेगा या नहीं? मेरा मतलब है, अगर कोई नया लेख साथ आता है, और मैं इसे क्लस्टर को मौजूदा समूहों के लिए कम से कम दूरी के आधार पर असाइन करता हूं, तो इससे क्लस्टर को खरोंच से पुनः संयोजित करने के परिणामस्वरूप, या नतीजा यह होगा कि सभी उद्देश्यों और उद्देश्यों के लिए परिणाम ' उतना ही अच्छा'? – Peter
अपने निष्कर्ष अनुच्छेद के आधार पर मेरा मानना है कि जवाब हां है, यह "अच्छा" प्रदर्शन करेगा जैसे कि आपने क्लस्टर को खरोंच से पुनः संयोजित किया था, यह मानते हुए कि आपकी दूरी गणना सही तरीके से की जाती है। मुझे नहीं लगता कि यह आपको एक स्क्रिप्टिंग भाषा में प्रोटोटाइप को लागू करने में बहुत लंबा समय लगेगा (कई डेटा प्रारूपों को तुरंत पार्स करना आसान है, और क्लस्टर विज़ुअलाइजेशन के लिए अच्छी लाइब्रेरी प्रदान करता है)। फिर आपके पास एक रणनीति पैटर्न हो सकता है, अनुकूली के-साधनों का उपयोग करके एक रणनीति और सामान्य के-साधनों का उपयोग करके एक रणनीति जो हर बार पुन: प्रयास करती है। –
के-निकटतम पड़ोसी नए लेखों के ऑनलाइन क्लस्टरिंग में सहायता कर सकते हैं। – crizCraig