मुझे लगता है कि आपके द्वारा उल्लेख किए जाने वाले स्पैम हमले को हराने के लिए, महत्वपूर्ण बात यह सीखने की विधि नहीं है बल्कि आप किन सुविधाओं पर ट्रेन करते हैं। मैं फिडेलिस असिस के OSBF-Lua का उपयोग करता हूं जो एक बहुत ही सफल फ़िल्टर है: यह स्पैम फ़िल्टर के लिए प्रतियोगिता जीतता रहता है। यह बायेसियन सीखने का उपयोग करता है लेकिन मुझे लगता है इसकी सफलता के लिए असली कारण तीन सिद्धांतों है:
यह एक शब्द पर नहीं बल्कि विरल Bigrams पर गाड़ियों: 0 से 4 "द्वारा अलग किए शब्द की एक जोड़ी नहीं है देखभाल "शब्द। स्पैमर को अपना संदेश में कहीं में रखना होगा और स्पैस बिग्राम उन्हें बाहर निकालने में बहुत अच्छे हैं। यह अटैचमेंट स्पैम भी पाता है!
यह संदेश शीर्षकों पर अतिरिक्त प्रशिक्षण करता है, क्योंकि स्पैमर को छिपाने के लिए ये कठिन हैं। उदाहरण: एक संदेश जो आपके नेटवर्क पर उत्पन्न होता है और ऑफ-नेटवर्क रिले होस्ट के माध्यम से कभी भी गुजरता नहीं है, शायद स्पैम नहीं है।
यदि स्पैम फ़िल्टर को इसके वर्गीकरण के बारे में कम विश्वास है, तो यह मानव से इनपुट का अनुरोध करता है। (प्रैक्टिस में यह एक हेडर फ़ील्ड जोड़ता है, "कृपया मुझे इस संदेश पर प्रशिक्षित करें"; मानव अनुरोध को अनदेखा कर सकता है।) इसका मतलब है कि स्पैमर नई तकनीकों का विकास करते हैं, इसलिए आपका फ़िल्टर मिलान करने के लिए विकसित होता है।
तकनीकों का यह संयोजन बेहद प्रभावी है।
अस्वीकरण: मैंने कुछ सॉफ़्टवेयर को दोबारा करने पर फिडेलिस के साथ काम किया है ताकि इसका उपयोग अन्य उद्देश्यों के लिए किया जा सके जैसे समूहों में नियमित मेल वर्गीकृत करना या संभवतः एक दिन ब्लॉग टिप्पणियों और अन्य स्थानों में स्पैम का पता लगाने की कोशिश कर रहा है।
स्रोत
2008-12-12 06:06:19
Google का यह लाभ है कि वे प्राप्त होने के बाद लोगों के इनबॉक्स से ईमेल खींच सकते हैं।वे बहुत सारे डेटा देखने के लिए जाते हैं और जब स्पैमर Google के फ़िल्टर को पिछली ईमेल ट्रिगर करता है तो उन्हें भी हटाया जा सकता है। एक छोटे से ईमेल सर्वर पर करना बहुत मुश्किल है। – jcoffland