2011-01-05 9 views
5

मैं डेटा खनन और थोड़ा प्रयोग करने के लिए नया हूँ।अनुयायियों की संख्या द्वारा क्रमबद्ध ट्वीट्स में थीम खोजने के लिए अच्छा एल्गोरिदम?

मान लें कि मेरे पास एन ट्विटर उपयोगकर्ता हैं और मैं को जो विषय ढूंढना चाहता हूं वह है (ट्वीट्स के आधार पर)।
फिर यदि मैं उपयोगकर्ता के उच्च अनुयायियों के पास प्रत्येक विषय को उच्च वजन देना चाहता हूं।

तब मैं सभी विषयों को मर्ज करना चाहता हूं यदि पर्याप्त समान हैं लेकिन अभी भी ट्विटर गणना द्वारा वज़न बनाए रखें।

तो मूल रूप से प्राधिकारी द्वारा स्थान पर रहीं "महत्वपूर्ण" विषयों (उपयोगकर्ता के चहचहाना गिनती)

उदाहरण के लिए, news.google.com की तरह लेकिन रैंकिंग की एक सूची चहचहाना अनुयायियों कि विषय के लिए जिम्मेदार हैं के आधार पर किया जाएगा।

मैं अजगर में कुछ पसंद करूंगा क्योंकि यह वह भाषा है जिसे मैं सबसे ज्यादा परिचित हूं।

कोई विचार?

धन्यवाद

संपादित करें: यहाँ मैं क्या (लेकिन diff डेटा के साथ) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

मूल रूप से विभिन्न डेटा और एक दूसरे के लिए अपने सह-संबंध का विश्लेषण करने के लिए कोशिश कर रहा हूँ का एक अच्छा उदाहरण है: काम श्रेणियों और इस उदाहरण में प्रत्येक व्यक्ति उम्र या शब्द श्रेणियां और मित्र गणना करते हैं।

मैं इसे हल करने और ऐसे ग्राफ उत्पन्न करने के लिए कहां से शुरू करूंगा?

+0

मैंने पायथन टैग जोड़ा - किसी भी विशेष कारण से आपने इसे 'आर' के साथ टैग क्यों किया? –

+0

केवल इसलिए कि मैंने सोचा था कि आर में किसी भी संभावित समाधान को व्यक्त किया जा सकता है। – Maverick

+0

क्या आप भाषा-अज्ञेयवादी की तलाश नहीं कर रहे हैं, यदि आपके पास काम करने के लिए कोई विशिष्ट भाषा नहीं है? –

उत्तर

4

आम तौर पर बोलते हुए: आर में कुछ पैकेज विशेष रूप से टेक्स्ट खनन और डेटामैनींग पर निर्देशित होते हैं, जो तकनीक की एक विस्तृत श्रृंखला पेश करते हैं। मुझे पाइथन में उस तरह के पैकेजों का कोई ज्ञान नहीं है, लेकिन इसका मतलब यह नहीं है कि वे मौजूद नहीं हैं। मैं बस इसे अपने आप लागू नहीं करूँगा, यह पहली नजर में दिखने से थोड़ा अधिक जटिल है।

कुछ चीजें आप ध्यान में रखना होगा:

  • परिभाषित "विषय": कि टैग वे का उपयोग है? क्या आप टैग समूह करते हैं? क्या आपके पास सीमित सेट के साथ एक छोटी सूची है, या सेट असीमित है?
  • "सामान्य विषय" परिभाषित करें: क्या यह सबसे अधिक उपयोग किया जाने वाला विषय है? आप संबंधों से कैसे निपटते हैं? यदि कोई उपयोगकर्ता लगभग 10 विषयों के बारे में लिखता है, तो फिर क्या?
  • "वजन" परिभाषित करें: क्या यह उपयोगकर्ताओं की संख्या के बराबर है? वर्ग रूट? कुछ श्रेणी?

यदि आपके पास इसके बारे में कोई सामान्य विचार है, तो आप एक व्यावहारिक प्रारूप में सभी जानकारी निकालने के लिए tm package का उपयोग शुरू कर सकते हैं। पैकेज matrices, और मेटाडाटा वस्तुओं पर आधारित है। ये आपको विभिन्न विषयों के लिए भारित आवृत्तियों को प्राप्त करने की अनुमति देता है, बशर्ते आपने परिभाषित किया हो कि आप थीम पर क्या विचार करते हैं। आप जो चाहते हैं उसे प्राप्त करने के लिए आप विभिन्न भारोत्तोलन कार्यों का भी उपयोग कर सकते हैं। मैनुअल here है। लेकिन यदि आप इस बारे में निश्चित नहीं हैं कि आप क्या कर रहे हैं, तो अतिरिक्त मार्गदर्शन के लिए कृपया crossvalidated.com पर जाएं। यह प्रोग्रामिंग के बारे में डेटा खनन के बारे में वास्तव में एक सवाल है।

+3

उल्लेख नहीं है कि प्रत्येक प्रविष्टि में अधिकतम 160 वर्ण होने पर कितना मुश्किल टेक्स्ट खनन हो सकता है। – GWW

0

मेरे पास कोई विशिष्ट कोड नहीं है लेकिन मेरा मानना ​​है कि आप जिस पद्धति को नियोजित करना चाहते हैं वह टीएफ-आईडीएफ है। यह यहां समझाया गया है: http://en.wikipedia.org/wiki/Tf%E2%80%93idf और उद्धरण का उपयोग प्रायः टेक्स्ट वर्गीकृत किया जाता है।

संबंधित मुद्दे