मेरे पास एन अलग-अलग कीवर्ड हैं जिन्हें मैं ट्रैक कर रहा हूं (सादगी के लिए, एन = 3 दें)। तो स्थिति/फ़िल्टर प्राप्त करने में, मैं "ट्रैक" तर्क में 3 कीवर्ड दूंगा।स्थिति/फ़िल्टर (स्ट्रीमिंग एपीआई) से प्राप्त ट्वीट्स का फ़िल्टरिंग
अब जो ट्वीट्स मैं प्राप्त कर रहा हूं वह मेरे द्वारा वर्णित 3 कीवर्ड में से किसी एक से हो सकता है। समस्या यह है कि मैं यह हल करना चाहता हूं कि कौन सा ट्वीट किस कीवर्ड से मेल खाता है। यानी ट्वीट्स और कीवर्ड (जैसे "ट्रैक" तर्क में उल्लिखित) के बीच मैपिंग।
जाहिर है, प्राप्त ट्वीट्स पर कोई प्रसंस्करण किए बिना ऐसा करने का कोई तरीका नहीं है।
तो मैं सोच रहा था कि इस प्रसंस्करण को करने का सबसे अच्छा तरीका क्या है? ट्वीट के टेक्स्ट में कीवर्ड खोजें? केस-असंवेदनशील के बारे में क्या? एक ही कीवर्ड में कई शब्द कब होते हैं, उदाहरण के लिए: "कैटरीना कैफ"?
मैं वर्तमान में कुछ नियमित अभिव्यक्ति तैयार करने के लिए कोशिश कर रहा हूँ ...
मैं सबसे अच्छा तरीका के रूप में मूल रूप से स्थितियों/फिल्टर एपीआई होना प्रयोग किया जाता है एक ही तर्क (नियमित अभिव्यक्ति आदि) का उपयोग करने के लिए सोच रहा था। कैसे पता चलेगा कि ट्विटर एपीआई स्टेटस द्वारा तर्क का उपयोग किस प्रकार किया जाता है/कीवर्ड पर ट्वीट्स से मिलान करने के लिए खुद को फ़िल्टर करता है?
सलाह? मदद?
पुनश्च: मैं अजगर, Tweepy, Regex, MongoDB/अपाचे एस 4 का उपयोग कर रहा (वितरित कंप्यूटिंग के लिए)
बड़े एन नियमित अभिव्यक्ति के लिए काफी दर्द हो सकता है। सबसे आसान तरीका टेक्स्ट को लोअर-केस में बदलना होगा और प्रत्येक कीवर्ड के लिए अपने अस्तित्व के लिए ट्वीट ट्वीट करना होगा। यदि आप सटीक मिलान की जांच करना चाहते हैं तो आप अपनी ट्वीट्स को टोकननाइज़ कर सकते हैं और अपने कीवर्ड सेट और टोकन सेट का चौराहे प्राप्त कर सकते हैं। छेड़छाड़ ट्वीट से मेल खाने वाले कीवर्ड होंगे। – cubbuk
@cubbuk: वर्तमान में, मेरे पास एन = 100 है। ट्वीट के केवल "टेक्स्ट" भाग में कीवर्ड खोजना बेहतर है, है ना? – user1599964
हाँ जहां तक मुझे पता है कि ट्विटर केवल ट्वीट के टेक्स्ट हिस्से से मेल खाता है, इसलिए टेक्स्ट भाग की जांच करना आपके लिए अधिक उपयुक्त होगा। – cubbuk