2015-04-22 11 views
11

मैं समझने की कोशिश कर रहा हूं कि लेटेंट ड्रिचलेट आवंटन (एलडीए) ट्विटर जैसे छोटे टेक्स्ट वातावरण में खराब प्रदर्शन क्यों करता है। मैंने A biterm topic model for short text पढ़ा है, हालांकि, मैं अभी भी "शब्द सह-घटनाओं की स्पष्टता" को समझ नहीं पा रहा हूं।लघु ग्रंथों के लिए एलडीए का नुकसान क्या है?

मेरे दृष्टिकोण से, एलडीए का पीढ़ी हिस्सा किसी भी प्रकार के ग्रंथों के लिए उचित है, लेकिन लघु ग्रंथों में खराब परिणाम क्या नमूना प्रक्रिया है। मैं एलडीए नमूने को दो भागों के आधार पर एक शब्द के लिए एक विषय का अनुमान लगा रहा हूं: (1) उसी शब्द में अन्य शब्दों के विषय (2) इस शब्द की अन्य घटनाओं के विषय असाइनमेंट। चूंकि (1) एक छोटे से पाठ का हिस्सा इसके वास्तविक वितरण को प्रतिबिंबित नहीं कर सकता है, जो प्रत्येक शब्द के लिए एक खराब विषय असाइनमेंट का कारण बनता है।

यदि आपको यह प्रश्न मिल गया है, तो कृपया अपने विचार को पोस्ट करने में संकोच न करें और इसे समझने में मेरी सहायता करें।

उत्तर

14

एलडीए जैसे संभाव्य मॉडल डेटा के गुप्त पैटर्न खोजने के लिए सांख्यिकीय अनुमान का फायदा उठाते हैं। संक्षेप में, वे अवलोकन से मॉडल पैरामीटर का अनुमान लगाते हैं।उदाहरण के लिए, एक काले रंग का बॉक्स होता है जिसमें विभिन्न रंगों वाली कई गेंदें होती हैं। आप बॉक्स से कुछ गेंद खींचते हैं और फिर गेंदों के रंगों के वितरण का अनुमान लगाते हैं। यह सांख्यिकीय अनुमान की एक सामान्य प्रक्रिया है। सांख्यिकीय अनुमान की सटीकता आपके अवलोकनों की संख्या पर निर्भर करती है।

अब छोटे ग्रंथों पर एलडीए की समस्या पर विचार करें। एलडीए विषयों के मिश्रण के रूप में एक दस्तावेज मॉडल करता है, और फिर प्रत्येक शब्द अपने विषय में से एक से खींचा जाता है। आप कल्पना कर सकते हैं कि एक ब्लैक बॉक्स में ऐसे मॉडल से उत्पन्न शब्द शामिल हैं। अब आपने केवल कुछ शब्दों के साथ एक छोटा दस्तावेज़ देखा है। पैरामीटर का अनुमान लगाने के लिए टिप्पणियां बहुत कम हैं। यह डेटा वर्णित समस्या है जिसका हमने उल्लेख किया है।

वास्तव में, अवलोकनों की कमी के अलावा, समस्या मॉडल की अत्यधिक जटिलता से भी आती है। आम तौर पर, एक अधिक लचीला मॉडल को अनुमान लगाने के लिए और अधिक अवलोकन की आवश्यकता होती है। Biterm Topic Model मॉडल जटिलता को कम करके विषय अनुमान को आसान बनाने की कोशिश करता है। सबसे पहले, यह पूरे कॉर्पस को विषयों के मिश्रण के रूप में मॉडल करता है। चूंकि कॉर्पस पर विषय मिश्रण का वर्णन करना एक संक्षिप्त दस्तावेज़ पर विषय मिश्रण को घुमाने से आसान है। दूसरा, यह मानता है कि प्रत्येक बिटरम एक विषय से खींचा जाता है। एलडीए में एक शब्द के विषय को समझने से बिटरम का विषय भी आसान है, क्योंकि अधिक संदर्भ जोड़ा गया है।

मुझे उम्मीद है कि स्पष्टीकरण आपके लिए समझ में आता है। हमारे पेपर का जिक्र करने के लिए धन्यवाद।

4

खुदाई करने के लिए थोड़ा सा करना, Hong and Davison (2010) इनका एक महान उदाहरण के रूप में दिखाया गया है जो ट्वीट्स वर्गीकृत करने पर अच्छी तरह से काम नहीं कर रहा है। दुर्भाग्यवश, वे वास्तव में बहुत अंतर्दृष्टि नहीं देते हैं कि यह क्यों काम नहीं करता है।

मुझे संदेह है कि एलडीए छोटे दस्तावेजों के लिए अच्छा काम नहीं कर रहा है।

सबसे पहले, छोटे दस्तावेज़ों पर काम करते समय, अतिरिक्त विषय परत वर्गीकरण में कुछ भी नहीं जोड़ती है, और संभवतः दर्द में मदद नहीं करता है। यदि आपके पास वास्तव में छोटे दस्तावेज़ हैं, जैसे ट्वीट्स, दस्तावेज़ों में दस्तावेज़ों को तोड़ना वाकई मुश्किल है। किसी भी चीज के लिए ज्यादा जगह नहीं है, लेकिन एक विषय में एक विषय है। चूंकि विषय परत वर्गीकरण में अधिक योगदान नहीं दे सकती है, इसलिए यह सिस्टम में त्रुटि उत्पन्न होने के लिए जगह बनाता है।

दूसरा, भाषाई रूप से, ट्विटर उपयोगकर्ता ट्वीट करते समय "अनावश्यक फ्लफ" को बंद करना पसंद करते हैं। पूर्ण दस्तावेजों के साथ काम करते समय, विशेषताएं हैं - शब्द, शब्द कॉलोकेशन इत्यादि .-- जो शायद विशिष्ट, सामान्य, और अक्सर एक शैली के भीतर दोहराए जाते हैं। ट्वीट करते समय, हालांकि, इन आम तत्वों को पहले गिरा दिया जाता है क्योंकि दिलचस्प, नया, और अधिक परेशान क्या होता है जब फ्लफ हटा दिया जाता है।

उदाहरण के लिए, myowntweets को देखो, क्योंकि मैं बेशर्म स्वयं को बढ़ावा देने में विश्वास करते हैं करते हैं:

Progressbar.py is a fun little package, though I don't get 
a chance to use it too often. it even does ETAs for you 
https://pypi.python.org/pypi/progressbar … 

From a capitalist perspective, the social sciences exist so 
idiot engineers don't waste money on building **** no one needs. 

Abstract enough to be reusable, specific enough to be useful. 

पहले अजगर के बारे में है। यदि आप यूआरएल को पार्स कर रहे हैं, तो आपको वह मिल जाएगा - और .py आपको यह भी देगा। हालांकि, एक अधिक अभिव्यक्तिपूर्ण माध्यम में, शायद मैंने कहीं "पायथन" शब्द रखा होगा। दूसरा प्रोग्रामिंग से संबंधित है, लेकिन व्यापार के अंत में थोड़ा और है। एक बार यह प्रोग्रामिंग के लिए विशिष्ट कुछ भी उल्लेख नहीं करता है, हालांकि। अंतिम भी प्रोग्रामिंग से संबंधित है, लेकिन प्रोग्रामिंग की कला में अधिक संबंध रखता है, जो कोडिंग करते समय डबल-बाइंड प्रोग्रामर का सामना करते हैं। यह दूसरा, फीचर-वार जितना मुश्किल है।

पिछले दो उदाहरणों में, क्या मैं एक माइक्रोब्लॉग पोस्ट नहीं लिख रहा था, इन्हें तत्काल उदाहरणों के साथ पालन किया गया होगा जो क्लासिफायर के लिए बहुत उपयोगी होते थे, या स्वयं में अधिक डेटा शामिल होता था। ट्विटर के पास उस तरह की चीजें नहीं हैं, हालांकि, और ऐसी सामग्री जो शैली को टाइप करेगी, एक ट्वीट संबंधित है।

तो, अंत में, हमें दो समस्याएं हैं। लंबाई एलडीए के लिए एक समस्या है, क्योंकि विषय स्वतंत्रता की एक अतिरिक्त, अनावश्यक डिग्री जोड़ते हैं, और ट्वीट्स किसी भी वर्गीकृत के लिए एक समस्या है, क्योंकि आमतौर पर वर्गीकरण में उपयोगी विशेषताएं लेखकों द्वारा चुनिंदा रूप से हटा दी जाती हैं।

+0

अपने विचार से सहमत हैं कि एलडीए की दस्तावेज़-विषय परत लघु ग्रंथों के लिए अनावश्यक है। अभी भी और स्पष्टीकरण चाहते हैं, शायद एलडीए की प्रक्रिया कम पाठ में गलत हो रही है, या इसे सैद्धांतिक रूप से समझाती है? –

संबंधित मुद्दे