2010-05-04 18 views
14

मैंने पहले ही similar question से पहले ही पूछा है, लेकिन मुझे लगता है कि मेरे पास बड़ी बाधा है: मैं टैग (कीवर्ड) उत्पन्न करने के लिए उपयोगकर्ता ट्वीट्स जैसे छोटे टेक्स्ट सेट पर काम कर रहा हूं।टैग की पीढ़ी एक छोटी पाठ सामग्री (जैसे ट्वीट्स) से

और ऐसा लगता है कि स्वीकृत सुझाव (बिंदु-वार पारस्परिक सूचना एल्गोरिदम) बड़े दस्तावेज़ों पर काम करने के लिए है।

इस बाधा के साथ (ग्रंथों के छोटे सेट पर काम करना), मैं टैग कैसे उत्पन्न कर सकता हूं? के लिए बहु-शब्दों टैग

सादर

+0

दूसरे शब्दों में, आप एक्स श्रेणियों की संख्या में ट्वीट्स वर्गीकृत करना चाहते हैं? –

+0

जो काम भी कर सकता है, साथ ही उनसे कीवर्ड निकालने के लिए भी काम कर सकता है। – Hellnar

उत्तर

14

दो स्टेज दृष्टिकोण

आप कर सकते थे पूल सभी ट्वीट्स एक भी बड़ा दस्तावेज़ में और फिर n पूरे संग्रह से सबसे दिलचस्प collocations निकालने ट्वीट्स का। फिर आप वापस जा सकते हैं और प्रत्येक ट्वीट को उस कॉलोकेशन के साथ टैग कर सकते हैं जो इसमें होता है। इस दृष्टिकोण का उपयोग करते हुए, n पूरे डेटासेट के लिए जेनरेट किए जाने वाले मल्टीवर्ड टैग की कुल संख्या होगी।

पहले चरण के लिए, आप here पोस्ट किए गए एनएलटीके कोड का उपयोग कर सकते हैं। दूसरा चरण सभी ट्वीट्स पर लूप के लिए बस एक साधारण के साथ पूरा किया जा सकता है। हालांकि, यदि गति चिंता का विषय है, तो आप प्रत्येक कॉलोलेशन वाले ट्वीट्स को तुरंत ढूंढने के लिए pylucene का उपयोग कर सकते हैं।

के लिए ट्वीट स्तर पीएमआई एकल पद टैग

के रूप में भी here का सुझाव दिया, एक शब्द टैग के लिए, आप प्रत्येक व्यक्ति के शब्द और ट्वीट में ही की point-wise mutual information गणना कर सकते हैं, यानी

PMI(term, tweet) = log [ P(term, tweet)/(P(term)*P(tweet)) 

फिर , यह आपको मोटे तौर पर बताएगा कि आप कितने कम (या अधिक) आश्चर्यचकित हैं कि आप इस शब्द को पूरे दस्तावेज़ में आने के लिए बड़े संग्रह में आने के लिए तैयार हैं। फिर आप ट्वीट के साथ ट्वीट को उच्चतम PMI वाले कुछ शब्दों के साथ टैग कर सकते हैं।

जनरल परिवर्तन ट्वीट

के लिए कुछ परिवर्तन आप जब ट्वीट्स साथ टैगिंग बनाने के लिए चाहते हो सकता है शामिल हैं:

  • केवल, ट्वीट के लिए एक शब्द या एक टैग के रूप में मोरचा का उपयोग करता है, तो यह तब होता है के भीतर कुछ संख्या या अन्य ट्वीट्स का प्रतिशत। अन्यथा, पीएमआई केवल एक ट्वीट में होने वाली विषम शर्तों के साथ ट्वीट्स टैग करने के लिए प्रवृत्त होगा लेकिन यह कहीं और नहीं देखा जाता है, उदा। गलत वर्तनी और कीबोर्ड शोर # @ $ # @ $%!

  • प्रत्येक ट्वीट की लंबाई के साथ उपयोग किए गए टैग की संख्या स्केल करें। आप लंबे ट्वीट्स के लिए 2 या 3 रोचक टैग निकालने में सक्षम हो सकते हैं। लेकिन, एक छोटे से 2 शब्द ट्वीट के लिए, शायद आप टैग करने के लिए प्रत्येक शब्द और कॉलोकेशन का उपयोग नहीं करना चाहते हैं। ट्वीट की लंबाई के बाद आप कितने टैग निकालना चाहते हैं, इसके लिए अलग-अलग कट ऑफ के साथ प्रयोग करना संभवतः संभव है।

+0

आपके महान उत्तर dmcer के लिए बहुत बहुत धन्यवाद, यह वास्तव में मेरी मदद की! – Hellnar

+0

n जबाब ऊपर, मेरे सवाल का, मान लेते हैं कि अगर अवधि केवल हर ट्वीट में एक बार दिखाई देते हैं और कोई रीट्वीट है कि वहाँ चलो है होगा पी (शब्द, ट्वीट) = 1 पी (ट्वीट) = 1 और माप बस लॉग (1/पी (टर्म)) बन जाएगा? सम्मान, एंडी। – cherhan

0

मैंने एसएमएस की तरह छोटी टेक्स्ट सामग्री के लिए पहले एक विधि का उपयोग किया है, जहां मैं दो बार एक ही पंक्ति दोहरा दूंगा। आश्चर्य की बात है, यह ऐसी सामग्री के लिए अच्छी तरह से काम करता है जहां एक संज्ञा विषय हो सकता है। मेरा मतलब है, इस विषय के लिए इसे दोहराने के लिए आपको इसकी आवश्यकता नहीं है।

संबंधित मुद्दे