2008-12-12 32 views
7

स्पैम फ़िल्टर करने के लिए बेईसियन फ़िल्टरिंग कितना प्रभावी है?बेवकूफ बेयसियन स्पैम फ़िल्टरिंग प्रभावशीलता

मैंने सुना है कि स्पैमर आसानी से अतिरिक्त गैर-स्पैम से संबंधित शब्दों को भरकर उन्हें बाईपास करते हैं। इसे रोकने के लिए बेयसियन फ़िल्टर के साथ आप किस प्रोग्रामिंग तकनीकों का उपयोग कर सकते हैं?

उत्तर

7

पॉल ग्राहम वास्तव में अगस्त 2002 में अपने मूल लेख A Plan for Spam के साथ वेब पर बेयसियन स्पैम फ़िल्टरिंग का उपयोग करने का विचार पेश करने वाला व्यक्ति था। फिर, his follow-up एक वर्ष या बाद में कई समस्याओं को शुरू किया जो तेजी से पैदा हुई। ये विषय पर अभी भी बहुत बढ़िया काम हैं।

दूसरे लेख में, ग्राहम CRM114 का उपयोग करने का उल्लेख करता है, जो केवल अंतरिक्ष-सीमित शब्दों की तुलना में पैटर्न के बहुत व्यापक सेट पर काम करता है। सीआरएम 114 अच्छा है, लेकिन स्पैम फ़िल्टरिंग सिस्टम के लिए बहुत अधिक कार्यान्वयन सहायता के बिना आता है।

बेयसियन स्पैम फ़िल्टरिंग के लिए ओपन-सोर्स पावरटोल Death2Spam और SpamProbe जैसे हैं।

मुझे लगता है कि जीमेल खाते के माध्यम से मेल फ़िल्टर करने की तरह कुछ भी काम नहीं करता है। हैप्पी हंटिंग।

+0

Google का यह लाभ है कि वे प्राप्त होने के बाद लोगों के इनबॉक्स से ईमेल खींच सकते हैं।वे बहुत सारे डेटा देखने के लिए जाते हैं और जब स्पैमर Google के फ़िल्टर को पिछली ईमेल ट्रिगर करता है तो उन्हें भी हटाया जा सकता है। एक छोटे से ईमेल सर्वर पर करना बहुत मुश्किल है। – jcoffland

5

मुझे लगता है कि आपके द्वारा उल्लेख किए जाने वाले स्पैम हमले को हराने के लिए, महत्वपूर्ण बात यह सीखने की विधि नहीं है बल्कि आप किन सुविधाओं पर ट्रेन करते हैं। मैं फिडेलिस असिस के OSBF-Lua का उपयोग करता हूं जो एक बहुत ही सफल फ़िल्टर है: यह स्पैम फ़िल्टर के लिए प्रतियोगिता जीतता रहता है। यह बायेसियन सीखने का उपयोग करता है लेकिन मुझे लगता है इसकी सफलता के लिए असली कारण तीन सिद्धांतों है:

  • यह एक शब्द पर नहीं बल्कि विरल Bigrams पर गाड़ियों: 0 से 4 "द्वारा अलग किए शब्द की एक जोड़ी नहीं है देखभाल "शब्द। स्पैमर को अपना संदेश में कहीं में रखना होगा और स्पैस बिग्राम उन्हें बाहर निकालने में बहुत अच्छे हैं। यह अटैचमेंट स्पैम भी पाता है!

  • यह संदेश शीर्षकों पर अतिरिक्त प्रशिक्षण करता है, क्योंकि स्पैमर को छिपाने के लिए ये कठिन हैं। उदाहरण: एक संदेश जो आपके नेटवर्क पर उत्पन्न होता है और ऑफ-नेटवर्क रिले होस्ट के माध्यम से कभी भी गुजरता नहीं है, शायद स्पैम नहीं है।

  • यदि स्पैम फ़िल्टर को इसके वर्गीकरण के बारे में कम विश्वास है, तो यह मानव से इनपुट का अनुरोध करता है। (प्रैक्टिस में यह एक हेडर फ़ील्ड जोड़ता है, "कृपया मुझे इस संदेश पर प्रशिक्षित करें"; मानव अनुरोध को अनदेखा कर सकता है।) इसका मतलब है कि स्पैमर नई तकनीकों का विकास करते हैं, इसलिए आपका फ़िल्टर मिलान करने के लिए विकसित होता है।

तकनीकों का यह संयोजन बेहद प्रभावी है।

अस्वीकरण: मैंने कुछ सॉफ़्टवेयर को दोबारा करने पर फिडेलिस के साथ काम किया है ताकि इसका उपयोग अन्य उद्देश्यों के लिए किया जा सके जैसे समूहों में नियमित मेल वर्गीकृत करना या संभवतः एक दिन ब्लॉग टिप्पणियों और अन्य स्थानों में स्पैम का पता लगाने की कोशिश कर रहा है।

1

आप सही हैं, बेवकूफ बेयसियन फ़िल्टर Bayesian poisoning के लिए अतिसंवेदनशील हैं।

1

मैं न केवल स्पैम को दूर करने के लिए Popfile का उपयोग करता हूं बल्कि मेरी ईमेल को श्रेणियों में भी सॉर्ट करता हूं और मुझे यह बेहद प्रभावी लगता है। यह बेवकूफ Bayesian फिल्टर का उपयोग करता है।

संबंधित मुद्दे