2011-09-25 24 views
5

मैं अजगर में एक प्रोजेक्ट का निर्माण कर रहा हूं जिसे ट्विटर डेटा की विशाल और बड़ी मात्रा में स्क्रैप करने की आवश्यकता है। कुछ मिलियन उपयोगकर्ताओं और उनकी सभी ट्वीट्स को स्क्रैप करने की आवश्यकता है।ट्वीट्स की एक बड़ी मात्रा को कैसे स्क्रैप करें

पहले मैंने ट्वीपी और ट्विथन का उपयोग किया है, लेकिन ट्विटर की सीमा को बहुत तेजी से मारा है।

भाव विश्लेषण कंपनियों आदि कैसे अपना डेटा प्राप्त करते हैं? वे उन सभी ट्वीट्स कैसे प्राप्त करते हैं? क्या आप इसे कहीं खरीदते हैं या कुछ ऐसा बनाते हैं जो अलग-अलग प्रॉक्सी या कुछ के माध्यम से पुनरावृत्त होता है?

इन्फोकिम्प्स जैसी कंपनियां उदाहरण के लिए ट्रस्ट रैंक कैसे अपना डेटा प्राप्त करती हैं? * http://www.infochimps.com/datasets/twitter-census-trst-rank

+1

यदि आप सीमा को बहुत तेजी से हिट करते हैं, तो आपको अपने काम को कई दिनों में वितरित करना चाहिए, और अपना डेटाबेस अधिक धीरे-धीरे बनाना चाहिए। मुझे लगता है कि कंपनियां यह कैसे करती हैं। – heltonbiker

उत्तर

7

आप विशिष्ट उपयोगकर्ताओं से नवीनतम ट्वीट्स चाहते हैं, ट्विटर Streaming API प्रदान करता है।

स्ट्रीमिंग एपीआई ट्विटर फ़ायरहोज का वास्तविक समय नमूना है। यह एपीआई उन डेवलपर्स के लिए डेटा गहन जरूरतों के साथ है। यदि आप डेटा खनन उत्पाद बनाने में रुचि रखते हैं या विश्लेषिकी अनुसंधान में रुचि रखते हैं, तो स्ट्रीमिंग API ऐसी चीजों के लिए सबसे उपयुक्त है।

आप वर्ष जानकारी का उपयोग करने की कोशिश कर रहे हैं, तो इसके गंभीर अनुरोध सीमा के साथ REST API जाना एकमात्र रास्ता है।

7

मैं अगर यह तुम क्या करने की कोशिश कर रहे हैं क्या के लिए काम करेगा पता नहीं है, लेकिन Tweets2011 डाटासेट हाल ही में जारी किया गया था।

वर्णन से:

TREC 2011 माइक्रोब्लॉग ट्रैक के हिस्से के रूप में ट्विटर पहचानकर्ता 23 वें जनवरी और फरवरी 8 वीं के बीच नमूना लगभग 1.6 करोड़ ट्वीट्स के लिए प्रदान की, 2011 कोष एक डिज़ाइन किया गया है पुन: प्रयोज्य, twittersphere का प्रतिनिधि नमूना - यानी दोनों महत्वपूर्ण और स्पैम ट्वीट शामिल हैं।

+0

धन्यवाद, यह देखने के लिए मेरे लिए एक दिलचस्प बात है। हालांकि, मैं कुछ तरीकों से विशिष्ट उपयोगकर्ताओं का डेटा प्राप्त करने में सक्षम होना चाहता हूं। इसके अलावा मैं दैनिक आधार पर लगभग 1 मिलियन उपयोगकर्ताओं से नवीनतम ट्वीट्स को स्क्रैप करने में सक्षम होना चाहता हूं। उस पर कोई विचार? – Javaaaa

+0

बहुत यकीन है कि आप ऐसा करने में सक्षम नहीं होंगे। ट्विटर एपीआई दर सीमा आपको बहुत ज्यादा परेशान करेगी। – jterrace

संबंधित मुद्दे