2013-12-14 23 views
6

यहाँ मेरे वर्तमान कोडपाइथन का उपयोग करके अकेले अंग्रेजी ट्वीट कैसे प्राप्त करें?

from twitter import * 

t = Twitter(auth=OAuth(TWITTER_CONSUMER_KEY, TWITTER_CONSUMER_SECRET, 
     ACCESS_TOKEN, ACCESS_TOKEN_SECRET)) 

t.statuses.home_timeline() 
query=raw_input("enter the query \n") 
data = t.search.tweets(q=query) 

for i in range (0,1000):  
    print data['statuses'][i]['text'] 
    print '\n' 

यहाँ है, मैं सभी भाषाओं से ट्वीट्स लाने। क्या अंग्रेजी में केवल ट्वीट लाने के लिए खुद को प्रतिबंधित करने का कोई तरीका है?

+2

हे भगवान! अर्धविराम क्यों? – inspectorG4dget

+0

यह [लिंक] (http://stackoverflow.com/questions/18031393/how-to-restrict-the-language-of-results-in-twitter4j-to-english) सही दिशा में इंगित कर सकता है; सबसे खराब स्थिति परिदृश्य, यह देखने के लिए कि क्या वे 'lang' पैरामीटर का पर्दाफाश करते हैं, ट्विटर मॉड्यूल के स्रोत में देखें। –

+0

क्या यह 'ओथ' स्टैक ओवरफ्लो पर पोस्ट करने के लिए असुरक्षित नहीं है? मैं सकारात्मक नहीं हूं, लेकिन ऐसा लगता है कि यह किसी को इस प्रश्न के पोस्टर के रूप में प्रमाणीकृत करने के लिए इसे पढ़ने की अनुमति दे सकता है .. – johannestaas

उत्तर

4

कम से कम 4 तरीके हैं ... मैंने उन्हें सादगी के क्रम में रखा है।

  1. ट्वीट्स एकत्र करने के बाद, जेसन आउटपुट में एक कुंजी/मूल्य जोड़ी होती है जो भाषा की पहचान करती है। तो आप सभी भाषा ट्वीट्स लेने के लिए इस तरह कुछ उपयोग कर सकते हैं और केवल अंग्रेज़ी खातों से चुन सकते हैं।

    for i in range (0,1000): 
        if data['statuses'][i][u'lang']==u'en': 
         print data['statuses'][i]['text'] 
         print '\n' 
    
  2. एक और तरीका है केवल ट्विट्स कि अंग्रेजी में पहचाने जाते हैं इकट्ठा करने के लिए, आप केवल API अंग्रेजी (स्वयं idenfitied) ट्वीट्स से अनुरोध करने के लिए वैकल्पिक 'लैंग' पैरामीटर का उपयोग कर सकते हैं। विवरण देखें here। यदि आप python-twitter लाइब्रेरी का उपयोग कर रहे हैं, तो आप twitter.py में 'lang' पैरामीटर सेट कर सकते हैं।

  3. guess-language जैसी भाषा पहचान पैकेज का उपयोग करें।

  4. या यदि आप स्व-पहचान वाले ट्विटर डेटा (यानी एक चीनी खाता जो अंग्रेजी में लिख रहे हैं) का उपयोग किए बिना अंग्रेजी पाठ को पहचानना चाहते हैं, तो आपको प्राकृतिक भाषा प्रसंस्करण करना होगा। One option। यह विधि सामान्य अंग्रेजी शब्दों को पहचान लेगी और फिर पाठ को अंग्रेजी के रूप में चिह्नित करेगी।

संबंधित मुद्दे

 संबंधित मुद्दे