2010-07-22 14 views
5

मैं हमेशा जीमेल स्पैम फ़िल्टर की उच्च गुणवत्ता से आश्चर्यचकित हूं। पिछले साल, इसने स्पैम का 99.9 5% फ़िल्टर किया था, और केवल एक मेल गलती से अवरुद्ध कर दिया था। तुलनात्मक रूप से, मैंने उपयोग की जाने वाली किसी अन्य मेल सेवा को हर 50 मेल के लिए कम से कम एक गलती की है।जीमेल स्पैम फ़िल्टर कैसे काम करता है?

कैसे, आंतरिक रूप से, जीमेल गुणवत्ता के इस स्तर तक पहुंचने के लिए करता है? क्या यह ग्राहकों की प्रतिक्रिया पर आधारित है (यानी एन ग्राहक स्पैम के रूप में मेल ब्लॉक करते हैं, इसे हर दूसरे ग्राहक के लिए स्पैम के रूप में सॉर्ट किया जाता है)? या कुछ चाल है? हो सकता है कि एक मूल फ़िल्टर एल्गोरिदम सबसे स्पष्ट स्पैम फ़िल्टर करता है, और कुछ कठिन मामलों का वास्तविक मनुष्यों द्वारा विश्लेषण किया जाता है?

+4

हाहाहा। अजीब बात है. हमें पूछना कि कैसे Googles स्वामित्व, व्यापार-गुप्त एल्गोरिदम काम करता है। उनसे क्यों नहीं पूछें? –

उत्तर

8

संक्षेप में यह समुदाय प्रतिक्रिया पर आधारित है। यहां आधिकारिक स्पष्टीकरण से उद्धरण दिया गया है:

जीमेल उपयोगकर्ता लाखों इनबॉक्सों से स्पैममी संदेशों को रखने में महत्वपूर्ण भूमिका निभाते हैं। जब जीमेल समुदाय स्पैम के रूप में किसी विशेष ईमेल की रिपोर्ट करने के लिए अपने क्लिक के साथ वोट देता है, तो हमारी प्रणाली जल्दी ही संदेशों को अवरुद्ध करना शुरू कर देती है। जितना अधिक स्पैम समुदाय चिन्हित करता है, उतना ही स्मार्ट हमारी प्रणाली बन जाती है।

आप इसके बारे में Spam Explained पृष्ठ पर इसके बारे में कुछ और पढ़ सकते हैं।

7

यह मिलियन डॉलर का सवाल है, और यदि इसे स्टैक ओवरफ्लो पर उत्तर देने में सक्षम थे, तो हर कोई स्पैम फ़िल्टर प्रभावी होगा।

+0

यह इतना स्पष्ट नहीं है। जैसे मैंने कहा, शायद Google मुश्किल मामलों को फ़िल्टर करने के लिए मनुष्यों को किराए पर लेते हैं, या फ़िल्टर उपयोगकर्ता प्रतिक्रिया पर आधारित है। इस मामले में, हां, जो लोग इस सामान को करने के लिए लोगों को किराए पर ले सकते हैं या बड़े पैमाने पर समुदाय पर भरोसा कर सकते हैं वे एक प्रभावी स्पैम फ़िल्टर कर पाएंगे। –

+0

नहीं, ऐसा नहीं होगा क्योंकि उनके स्पैम फ़िल्टर की उच्च गुणवत्ता उनके पास बड़ी मात्रा में डेटा की वजह से है। पीटर नॉरविग की बात "डेटा की अनुचित प्रभावशीलता" देखें – Wes

2

मुझे सच में नहीं पता कि Google वास्तव में स्पैम फ़िल्टरिंग कैसे करता है (लेकिन मुझे लगता है कि यह सब के बाद एक व्यवसाय रहस्य है)। यदि आप रुचि रखते हैं कि स्पैम फ़िल्टरिंग कैसे काम करती है, तो मैं बेयसियन स्पैम फ़िल्टरिंग (http://en.wikipedia.org/wiki/Bayesian_spam_filtering) को देखने की सलाह दूंगा। यह विधि समझने के लिए एक आसान है।

-1

Google लॉजिस्टिक रीग्रेशन या न्यूरल नेटवर्क जैसे क्लासिफायर सिस्टम का उपयोग करने की सबसे अधिक संभावना है। कला स्पैम पहचान राज्य अक्सर इस तरह मशीन लर्निंग एल्गोरिदम को नियोजित करता है।

आउटपुट वर्गीकरण "स्पैम" या "स्पैम नहीं है" और इनपुट, मुझे यकीन है कि Google पर शीर्ष रहस्य हैं, लेकिन मुझे यकीन है कि कुछ ईमेल टेक्स्ट वाक्यांश जैसे "अभी खरीदें," "ऑन बिक्री, "" वियाग्रा, "या" पुरुष संवर्द्धन "उनके मॉडल में सभी कारक हैं।

संबंधित मुद्दे