खुदाई करने के लिए थोड़ा सा करना, Hong and Davison (2010) इनका एक महान उदाहरण के रूप में दिखाया गया है जो ट्वीट्स वर्गीकृत करने पर अच्छी तरह से काम नहीं कर रहा है। दुर्भाग्यवश, वे वास्तव में बहुत अंतर्दृष्टि नहीं देते हैं कि यह क्यों काम नहीं करता है।
मुझे संदेह है कि एलडीए छोटे दस्तावेजों के लिए अच्छा काम नहीं कर रहा है।
सबसे पहले, छोटे दस्तावेज़ों पर काम करते समय, अतिरिक्त विषय परत वर्गीकरण में कुछ भी नहीं जोड़ती है, और संभवतः दर्द में मदद नहीं करता है। यदि आपके पास वास्तव में छोटे दस्तावेज़ हैं, जैसे ट्वीट्स, दस्तावेज़ों में दस्तावेज़ों को तोड़ना वाकई मुश्किल है। किसी भी चीज के लिए ज्यादा जगह नहीं है, लेकिन एक विषय में एक विषय है। चूंकि विषय परत वर्गीकरण में अधिक योगदान नहीं दे सकती है, इसलिए यह सिस्टम में त्रुटि उत्पन्न होने के लिए जगह बनाता है।
दूसरा, भाषाई रूप से, ट्विटर उपयोगकर्ता ट्वीट करते समय "अनावश्यक फ्लफ" को बंद करना पसंद करते हैं। पूर्ण दस्तावेजों के साथ काम करते समय, विशेषताएं हैं - शब्द, शब्द कॉलोकेशन इत्यादि .-- जो शायद विशिष्ट, सामान्य, और अक्सर एक शैली के भीतर दोहराए जाते हैं। ट्वीट करते समय, हालांकि, इन आम तत्वों को पहले गिरा दिया जाता है क्योंकि दिलचस्प, नया, और अधिक परेशान क्या होता है जब फ्लफ हटा दिया जाता है।
उदाहरण के लिए, myowntweets को देखो, क्योंकि मैं बेशर्म स्वयं को बढ़ावा देने में विश्वास करते हैं करते हैं:
Progressbar.py is a fun little package, though I don't get
a chance to use it too often. it even does ETAs for you
https://pypi.python.org/pypi/progressbar …
From a capitalist perspective, the social sciences exist so
idiot engineers don't waste money on building **** no one needs.
Abstract enough to be reusable, specific enough to be useful.
पहले अजगर के बारे में है। यदि आप यूआरएल को पार्स कर रहे हैं, तो आपको वह मिल जाएगा - और .py आपको यह भी देगा। हालांकि, एक अधिक अभिव्यक्तिपूर्ण माध्यम में, शायद मैंने कहीं "पायथन" शब्द रखा होगा। दूसरा प्रोग्रामिंग से संबंधित है, लेकिन व्यापार के अंत में थोड़ा और है। एक बार यह प्रोग्रामिंग के लिए विशिष्ट कुछ भी उल्लेख नहीं करता है, हालांकि। अंतिम भी प्रोग्रामिंग से संबंधित है, लेकिन प्रोग्रामिंग की कला में अधिक संबंध रखता है, जो कोडिंग करते समय डबल-बाइंड प्रोग्रामर का सामना करते हैं। यह दूसरा, फीचर-वार जितना मुश्किल है।
पिछले दो उदाहरणों में, क्या मैं एक माइक्रोब्लॉग पोस्ट नहीं लिख रहा था, इन्हें तत्काल उदाहरणों के साथ पालन किया गया होगा जो क्लासिफायर के लिए बहुत उपयोगी होते थे, या स्वयं में अधिक डेटा शामिल होता था। ट्विटर के पास उस तरह की चीजें नहीं हैं, हालांकि, और ऐसी सामग्री जो शैली को टाइप करेगी, एक ट्वीट संबंधित है।
तो, अंत में, हमें दो समस्याएं हैं। लंबाई एलडीए के लिए एक समस्या है, क्योंकि विषय स्वतंत्रता की एक अतिरिक्त, अनावश्यक डिग्री जोड़ते हैं, और ट्वीट्स किसी भी वर्गीकृत के लिए एक समस्या है, क्योंकि आमतौर पर वर्गीकरण में उपयोगी विशेषताएं लेखकों द्वारा चुनिंदा रूप से हटा दी जाती हैं।
अपने विचार से सहमत हैं कि एलडीए की दस्तावेज़-विषय परत लघु ग्रंथों के लिए अनावश्यक है। अभी भी और स्पष्टीकरण चाहते हैं, शायद एलडीए की प्रक्रिया कम पाठ में गलत हो रही है, या इसे सैद्धांतिक रूप से समझाती है? –