2010-07-27 16 views
15

मैं अपने प्रोजेक्ट के लिए ट्विटर या अन्य सोशल नेटवर्किंग साइट्स डेटासेट ढूंढ रहा हूं। मेरे पास वर्तमान में सीएडब्ल्यू 2.0 ट्विटर डेटासेट है लेकिन इसमें केवल उपयोगकर्ताओं की ट्वीट्स हैं। मुझे एक ऐसा डेटा चाहिए जो दोस्तों, अनुयायियों और इस तरह की संख्या दिखाता है।ट्विटर (सोशल नेटवर्किंग) डेटासेट

यह ट्विटर होना आवश्यक नहीं है लेकिन मैं ट्विटर या फेसबुक पसंद करूंगा। मैंने पहले से ही infochimps की कोशिश की लेकिन जाहिर है कि फ़ाइल अब ट्विटर के लिए डाउनलोड करने योग्य नहीं है।

क्या कोई मुझे इस तरह के डेटासेट खोजने के लिए अच्छी वेबसाइट दे सकता है। मैं डेटासेट को हडूप पर खिलाने जा रहा हूं।

उत्तर

7

निम्नलिखित तीन डेटासेट का प्रयास करें:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

एड टिप्पणी:

करीब 97 milllion ट्वीट्स शामिल : उपरोक्त लिंक किए गए डेटासेट अब ट्विटर से अनुरोध को हटाने के अनुरोध के कारण उपलब्ध नहीं है।

47 लाख उपयोगकर्ताओं के उपयोगकर्ता ग्राफ शामिल है:

http://an.kaist.ac.kr/traces/WWW2010.html

बाद डाटासेट नेटवर्क के साथ-साथ ट्वीट, लेकिन डेटा स्नोबॉल नमूने या कुछ और से एकत्र किया गया था शामिल इसलिए दोस्तों के नेटवर्क एक समान नहीं है। इसमें लगभग 10 मिलियन ट्वीट हैं जो आप शोधकर्ता को और भी डेटा के लिए मेल कर सकते हैं।

http://www.public.asu.edu/~mdechoud/datasets.html

हालांकि लाइसेंस डेटा के तहत वितरित किया जाता है पर एक नजर है।

उम्मीद है कि यह मदद करता है, क्या आप मुझे बता सकते हैं कि इस डेटासेट के साथ किस तरह का काम योजना बना रहा है? मैं डाटासेट के साथ उपयोग करने के लिए कुछ Hadoop/सुअर स्क्रिप्ट

+0

को निश्चित रूप से कैसे नहीं जीता, लेकिन मैं इसे अपने मशीन लर्निंग क्लास के लिए उपयोग करूंगा। – denniss

+1

@ अक्षय भट्ट: उन्होंने आज के रूप में डेटासेट को हटा दिया है। क्या आपको कोई अन्य डेटासेट पता होना चाहिए जो उपलब्ध हो सकता है? धन्यवाद! – Legend

5

100 मिलियन पृष्ठों फेसबुक से निकाला गया: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

मैं नहीं जानता कि वे क्या होते हैं, लेकिन आप एक बार देख सकता था, ऐसा लगता है यह टोरेंट साइटों पर खोजने के लिए आसान है।

आप फेसबुक एपीआई का भी उपयोग कर सकते हैं, लेकिन यदि आप एक डेटासेट को काफी बड़ा करना चाहते हैं, तो आपको फेसबुक से इसे एक्सेस करने के अधिकार पूछना होगा। यह दोस्तों के लिए लिंक शामिल हैं, पसंद, समूहों, ...

+1

रास्ते में एक ट्विटर एपीआई भी है। –

+0

हाँ मैंने यह देखा।धन्यवाद – denniss

+0

अजीब है कि मैंने बकाया –

2

फेसबुक सामाजिक ग्राफ़, आवेदन प्रतिष्ठानों और Last.fm उपयोगकर्ताओं, घटनाओं, UCIrvine में शोधकर्ताओं द्वारा एकत्र समूहों: http://odysseas.calit2.uci.edu/research/

1

मैं चहचहाना डेटा के लिए सबसे अच्छा उपकरण लगता है सभा http://www.followthehashtag.com है, यह और उन्नत डेटा सुविधाओं

निर्यात एक वर्ग जहां हम एक सप्ताह में एक बार बड़े डेटासेट (200000 पर ट्वीट) जोड़ने के साथ साथ ऐतिहासिक या भविष्य डेटा प्राप्त कर सकते

http://followthehashtag.com/datasets/

संबंधित मुद्दे