2010-01-03 6 views
7

मैंने this question देखा, जो "ब्रिटनी स्पीयर्स" समस्या पर केंद्रित है। लेकिन मेरे पास एक अलग सवाल है। एल्गोरिदम कैसे निर्धारित करता है कि कौन से शब्दों या वाक्यांशों को रैंक किया जाना चाहिए? उदाहरण के लिए, अगर मैं एक ट्वीट भेजता हूं जो कहता है "माइकल जैक्सन की मृत्यु हो गई", तो "माइकल जैक्सन" को खींचने के लिए यह कैसे पता चला लेकिन "मृत्यु" नहीं हुई?ट्विटर के रुझान वाले विषयों एल्गोरिदम कैसे निर्णय लेते हैं कि कौन से शब्द ट्वीट से निकाले जाते हैं?

या मान लीजिए कि एलेक बाल्डविन और स्टीवन बाल्डविन उस दिन समाचार में थे और इस प्रकार दोनों को कई ट्वीट्स में उल्लेख किया गया था। "बाल्डविन" को खींचने के बजाय दोनों नामों का अलग-अलग इलाज कैसे किया जाए?

मूर्खतापूर्ण हो गया, मैं इस समस्या को एनपी-पूर्ण होने के रूप में देख सकता था (आपको ट्वीट में सभी संभावित वाक्यांशों की तुलना किसी अन्य के ट्वीट्स में सभी संभावित वाक्यांशों के साथ करना होगा)।

उत्तर

2

इस समस्या का एक सामान्य समाधान "term frequency, inverse document frequency" (tf-idf) के साथ है।

यह एक सांख्यिकीय दृष्टिकोण है जो शब्दों/शर्तों को पाता है जो दूसरों की तुलना में अधिक प्रासंगिक हैं क्योंकि उन्हें अक्सर नहीं देखा जाता है। इस मामले में, "माइकल जैक्सन" नाम का एक आम अंग्रेजी शब्द "मृत्यु" की तुलना में बहुत कम आवृत्ति हो सकती है।

एलेक बाल्डविन बनाम स्टीवन बाल्डविन के लिए - इन्हें part-of-speech tagging के दौरान अलग के रूप में पहचाना जाएगा - वे व्यक्तिगत उचित संज्ञाओं के रूप में टैग किए जाएंगे।

2

मुझे विश्वास है कि यह शब्दों के सामान्य सेटों की तलाश में है। साथ ही, ऐसा प्रतीत होता है कि वे http://www.whatthetrend.com/

संदर्भित कर रहे हैं, इसके अलावा, यहां कुछ मामूली मानव नियंत्रण भी शामिल हो सकता है।

संबंधित मुद्दे