1、训练垃圾邮件样本

shell

# cd /root/rpm
# tar xvfj 20050311_spam_2.tar.bz2
# tar xvfj 20030228_easy_ham_2.tar.bz2
# dspam_train extmail spam_2/ easy_ham_2/

训练完成后会显示:

TRAINING COMPLETE
Training Snapshot:
dspam
    TP:  1314 TN:  1401 FP:     0 FN:    83 SC:     8 NC:     0
    SHR:   94.06%       HSR:    0.00%       OCA:   97.03%
Overall Statistics:
dspam
    TP:  1314 TN:  1401 FP:     0 FN:    83 SC:     8 NC:     0
    SHR:   94.06%       HSR:    0.00%       OCA:   97.03%

2、不训练的办法 (建议使用)

为了进一步降低管理员的工作量,我们进行了大量的测试和摸索工作,目前提供一个简单的缩减训练周期和工作量的方法。我们提供一个已经预先训练好的dspam数据库文件(mysql only),该库是由3000封ham+3000封spam训练而成,用户只要在新的dspam系统里导入该数据库,原理上就可免除初期搜集最新spam及最新ham并进行训练的痛苦。

  • 备注:导入Dspam数据库后,在Dspam-web的History界面并不会有历史记录。这个数据库文件只包含Dspam的特征库。

安装方法:

shell

# cd /root/rpm
# tar zxvf dspam-trained-sql.tar.gz
# cd /var/lib/mysql
# rm -rf dspam/ (备注:如果没有dspam的库,可以不用执行)
# mysql -u root -p -e "create database dspam"
# mysql -u root -p -e "grant all on dspam.* to dspam@localhost identified by 'dspam'"
# mysql -u dspam -pdspam dspam < /root/rpm/dspam-trained-data.sql
 
六、训练dspam.txt · 最后更改: 2010/11/23 11:10 由 shaobo
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki