2008-11-17 14 views
7

मैं एक साधारण स्पैम फ़िल्टर लिखने में फंस गया हूं, मुझे सच में यकीन नहीं है कि मैं इसे कैसे करने जा रहा हूं।स्पैम फ़िल्टर कैसे लिखें

अब तक मैं वर्डलिस्ट और डोमेन फ़िल्टरिंग के साथ आया हूं, जो एक निश्चित दहलीज तक अंक देगा या हटा देगा।

उदाहरण के लिए, यदि आप ब्लैकलिस्टेड डोमेन से "v1agr4" के बारे में लिख रहे हैं, तो आपको स्पैम के लिए 2 अंक मिलेंगे, लेकिन यदि आप hotmail.com खाते से "v1agr4" के बारे में लिख रहे हैं, तो आप ' आपको केवल 1 "स्पैम प्वाइंट" मिलेगा।

क्या आपके पास कोई अन्य सुझाव/संसाधन हैं?

यह कुछ उद्यम ग्रेड

उत्तर

1

Bayesian Spam Filtering में देखो:

बस K9 डाउनलोड करें।

मुझे पता है कि पर्ल के लिए एक पुस्तकालय है, इसलिए मुझे लगता है कि जावा के पास भी एक होगा।

3

कुछ खुला स्रोत जावा (कि LFSR परामर्श से उल्लेख किया गया था) बायेसियन स्पैम फ़िल्टर से संबंधित परियोजनाओं:

और एक सी ++ के लिए अतिरिक्त:

0

आप इसे वितरित सेवा में भेज सकते हैं। Akismet एक बहुत अच्छा समाधान है।

0

स्पैम फ़िल्टर लिखना स्केलेबिलिटी के लिए आपकी मांगों पर निर्भर करता है।

यदि आप स्केलेबल समाधान चाहते हैं, तो सामग्री-फ़िल्टरिंग संभवतः स्मार्ट सीपीयू और मेमोरी उपभोग करने के लिए स्मार्ट विकल्प नहीं है, और इसके बजाय आप या तो प्रतिष्ठा आधारित फ़िल्टरिंग या ब्लैकलिस्ट आधारित फ़िल्टरिंग का चयन करेंगे, जो होगा अपने सर्वर पर और अधिक सीपीयू अनुकूल तरीका के साथ-साथ लिखना बहुत आसान है।

मैंने a post on my blog लिखा है जो एक प्रोग्रामर के दृष्टिकोण से स्पैम फ़िल्टर लिखने के पीछे विचार बताता है और सामग्री आधारित फ़िल्टरिंग से ब्लैक लिस्ट आधारित फ़िल्टरिंग के सभी विकल्पों को कवर करता है।

संबंधित मुद्दे