5

Google समाचार जैसे समाचार आउटलेट स्वचालित रूप से "ओबामा के 2011 बजट" जैसे उभरते विषयों के बारे में दस्तावेजों को वर्गीकृत और रैंक करते हैं?आने वाले डेटा में नए रुझानों को अंधेरे से वर्गीकृत करना

मुझे बेसबॉल डेटा जैसे टैग नाम और लेख (प्रासंगिक, ओपनकालाइस) की प्रासंगिकता के साथ टैग की गई लेखों का ढेर मिला है, और वे एक Google समाचार-शैली इंटरफ़ेस बनाना पसंद करेंगे जो आने वाले नए पदों को रैंक और प्रदर्शित करता है विशेष रूप से उभरते विषयों में। मुझे लगता है कि एक बेवकूफ बेयस वर्गीकृत को कुछ स्थिर श्रेणियों को प्रशिक्षित किया जा सकता है, लेकिन यह वास्तव में इस प्रवृत्ति को ट्रैक करने की अनुमति नहीं देता है जैसे "इस खिलाड़ी को सिर्फ इस टीम के लिए कारोबार किया गया था, ये अन्य खिलाड़ी भी शामिल थे।"

+0

पायथन टैग क्यों? – mjv

+0

ओह, मेरी गलती। यह अब चला गया धन्यवाद। – Carson

+0

क्या आपका मतलब है कि यह अदृश्य विषयों को सामान्यीकृत कैसे कर सकता है? – bayer

उत्तर

4

कोई संदेह नहीं है, Google समाचार अन्य चाल (या यहां तक ​​कि एक संयोजन को), लेकिन एक अपेक्षाकृत सस्ती चाल, उपयोग कर सकते हैं, जो कंप्यूटेशनल, से मुक्त-पाठ विषयों अनुमान लगाने के लिए NLP धारणा है कि एक शब्द अपने अर्थ हो जाता है शोषण होगा केवल अन्य शब्दों से कनेक्ट होने पर।

  • पीओएस (भाग-ऑफ-द भाषण) पाठ
    हम शायद और भी अधिक संज्ञाओं पर अधिक ध्यान केंद्रित करना चाहते हैं और हो सकता है को टैग:
    एक एल्गोरिद्म से अधिक दस्तावेज़ से नए विषय श्रेणियों की खोज की अतिसंवेदनशील पालन रेखांकित किया जा सकता है ऐसा नाम संस्थाओं पर (जैसे के रूप में ओबामा या न्यू इंग्लैंड)
  • उनके आम स्टेम द्वारा विभक्ति शब्दों को बदलने के पाठ
    विशेष रूप से सामान्यीकृत करें। हो सकता है कि कुछ विशेषणों को संबंधित नामांकित इकाई (पूर्व: पेरिसियन ==> पेरिस, कानूनी ==> कानून)
    द्वारा भी कुछ विशेषणों को प्रतिस्थापित करें, इसके अलावा, शोर शब्दों और शोर अभिव्यक्तियों को हटा दें।
  • बनाए रखा "वर्तमान/आवर्ती गर्म शब्द" मैन्युअल की सूची में से कुछ शब्दों की पहचान (Superbowl, चुनाव, घोटाले ...)
    यह बाद के चरणों में इस्तेमाल किया जा सकता कुछ एन ग्राम के लिए और अधिक वजन प्रदान करने के लिए
  • प्रत्येक दस्तावेज़ में पाए गए सभी एन-ग्राम का आकलन करें (जहां एन 4 या 5 कहने के लिए 1 है)
    किसी दिए गए दस्तावेज़ के भीतर प्रत्येक एन-ग्राम की घटनाओं की संख्या और अलग-अलग दस्तावेजों की संख्या को गिनना सुनिश्चित करें, दिए गए एन-ग्राम
  • सबसे अधिक बार उद्धृत एन-ग्राम्स (यानी अधिकांश दस्तावेजों में उद्धृत किए गए) शायद विषय हैं।
  • (ज्ञात विषयों की एक सूची से) मौजूदा विषयों को पहचानें
  • [वैकल्पिक] मैन्युअल नए विषय

यह सामान्य नुस्खा भी दस्तावेजों की अन्य विशेषताओं का लाभ उठाने के बदला जा सकता है और पाठ उसमें की समीक्षा । उदाहरण के लिए दस्तावेज़ मूल (सीएनएन/स्पोर्ट्स बनाम सीएनएन/राजनीति ...) का उपयोग डोमेन विशिष्ट शब्दावली का चयन करने के लिए किया जा सकता है। एक अन्य उदाहरण यह प्रक्रिया दस्तावेज शीर्षक (या किसी विशेष मार्क-अप के साथ पाठ के अन्य क्षेत्रों) से शब्दों/अभिव्यक्तियों पर भारी या अधिक जोर दे सकती है।

संबंधित मुद्दे