2010-08-31 17 views
14

मैं 'समाचार कहानियां' एला Google समाचार में लेखों को क्लस्टर करने के तरीके पर थोड़ा सा शोध कर रहा हूं।वृद्धिशील क्लस्टरिंग एल्गोरिदम?

इस विषय पर पिछले प्रश्नों को देखते हुए, मुझे अक्सर यह लगता है कि यह किसी लेख से शब्दों का एक वेक्टर खींचने की सिफारिश करता है, यदि वे लेख के कुछ हिस्सों में हैं (उदाहरण के लिए शीर्षक), और फिर लेखों को क्लस्टर करने के लिए के-साधन एल्गोरिदम की तरह कुछ उपयोग करने के लिए।

लेकिन इस सवाल के एक जोड़े की ओर जाता है: पहले से

  • k-साधन के साथ

    , तुम कैसे जानते हो कितना कश्मीर होना चाहिए? एक गतिशील समाचार वातावरण में आपके पास कहानियों की एक बहुत ही परिवर्तनीय संख्या हो सकती है, और आप पहले से नहीं जान पाएंगे कि लेखों का संग्रह कितनी कहानियां दर्शाता है।

  • पदानुक्रम क्लस्टरिंग एल्गोरिदम के साथ, आप कैसे तय करते हैं कि कौन से क्लस्टर आपकी कहानियों के रूप में उपयोग करते हैं? आपके पास पेड़ के निचले हिस्से में क्लस्टर होंगे जो केवल एक लेख हैं, जिन्हें आप स्पष्ट रूप से उपयोग नहीं करना चाहते हैं, और पेड़ की जड़ पर एक क्लस्टर जिसमें सभी लेख हैं, जो आप फिर से नहीं चाहते हैं ... लेकिन आप कैसे जानते हैं कि कहानियों का प्रतिनिधित्व करने के लिए बीच में कौन से क्लस्टर का उपयोग किया जाना चाहिए?

  • अंत में, या तो के-साधन या पदानुक्रमित एल्गोरिदम के साथ, मैंने जो अधिकांश साहित्य पढ़ा है, वह मानते हैं कि आपके पास क्लस्टर करना चाहते हैं, और यह एक बार में सभी को क्लस्टर करता है। लेकिन ऐसी स्थिति का क्या है जहां आपके पास हर बार नए लेख आते हैं। क्या होता है? क्या आपको स्क्रैच से सभी लेखों को क्लस्टर करना है, अब एक अतिरिक्त है? यही कारण है कि मैं सोच रहा हूं कि क्या ऐसे दृष्टिकोण हैं जो आपको लेख जोड़ने 'जैसे' स्क्रैच से पुनः क्लस्टरिंग के बिना जाते हैं। मैं कल्पना नहीं कर सकता कि यह बहुत ही कुशल है।

उत्तर

2

मैं अनुकूली के-साधन क्लस्टरिंग एल्गोरिदम की खोज करता हूं। आपके द्वारा वर्णित समस्याओं के प्रति समर्पित अनुसंधान का एक अच्छा अनुभाग है। यहां एक ऐसा paper (पीडीएफ)

+0

धन्यवाद एरिक! यह एक सहायक पेपर है :) यह क्लस्टर की संख्या को पूर्व निर्धारित करने के मुद्दे को संबोधित करता है, और मुझे लगता है कि क्लस्टर की गुणवत्ता के मामले में दहलीज की पसंद बहुत महत्वपूर्ण है ... लेकिन यह ऐसा कुछ है जिसका प्रयोग किया जा सकता है साथ में। हालांकि मैं सोच रहा हूं ... क्या आपको पता है कि यह एल्गोरिदम एक वृद्धिशील संदर्भ में अच्छा काम करेगा या नहीं? मेरा मतलब है, अगर कोई नया लेख साथ आता है, और मैं इसे क्लस्टर को मौजूदा समूहों के लिए कम से कम दूरी के आधार पर असाइन करता हूं, तो इससे क्लस्टर को खरोंच से पुनः संयोजित करने के परिणामस्वरूप, या नतीजा यह होगा कि सभी उद्देश्यों और उद्देश्यों के लिए परिणाम ' उतना ही अच्छा'? – Peter

+0

अपने निष्कर्ष अनुच्छेद के आधार पर मेरा मानना ​​है कि जवाब हां है, यह "अच्छा" प्रदर्शन करेगा जैसे कि आपने क्लस्टर को खरोंच से पुनः संयोजित किया था, यह मानते हुए कि आपकी दूरी गणना सही तरीके से की जाती है। मुझे नहीं लगता कि यह आपको एक स्क्रिप्टिंग भाषा में प्रोटोटाइप को लागू करने में बहुत लंबा समय लगेगा (कई डेटा प्रारूपों को तुरंत पार्स करना आसान है, और क्लस्टर विज़ुअलाइजेशन के लिए अच्छी लाइब्रेरी प्रदान करता है)। फिर आपके पास एक रणनीति पैटर्न हो सकता है, अनुकूली के-साधनों का उपयोग करके एक रणनीति और सामान्य के-साधनों का उपयोग करके एक रणनीति जो हर बार पुन: प्रयास करती है। –

+0

के-निकटतम पड़ोसी नए लेखों के ऑनलाइन क्लस्टरिंग में सहायता कर सकते हैं। – crizCraig

3

मैंने स्टार्ट-अप पर काम किया जो वास्तव में बनाया गया: समाचार लेखों के लिए एक वृद्धिशील क्लस्टरिंग इंजन। हम इस पेपर पर हमारे एल्गोरिदम पर आधारित हैं: वेब दस्तावेज़ क्लस्टरिंग दस्तावेज़ इंडेक्स ग्राफ (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851) का उपयोग कर। हमारे लिए 10 के लेख/दिन के लिए अच्छा काम किया।

इसके दो मुख्य फायदे हैं: 1) यह वृद्धिशील है, जो (भेजे लेख की एक धारा से निपटने के लिए होने के बजाय एक बार में सभी क्लस्टरिंग के साथ समस्या यह आप के पते) 2) यह का उपयोग करता वाक्यांश आधारित मॉडलिंग, "शब्दों के थैले" के विरोध में, जिसके परिणामस्वरूप बहुत अधिक सटीकता होती है।

एक Google खोज http://www.similetrix.com पर पॉप अप करती है, तो हो सकता है कि वे जो भी खोज रहे हों।

संबंधित मुद्दे