日本語対応SpamAssassinインストール

概要

日本語対応SpamAssassinのインストール手順です。

こちらのサイトを参考にさせていただきました。日本語対応パッチもこちらで公開されています。
Taki Internet Mail Private Lab. - SpamAssassin関連実験場

インストール

mecab

日本語は英語のように単語毎には分かち書きされていない言語なので、単語毎に解析するには分かち書きプログラムが必要になります。日本語対応SpamAssassinでは分かち書きプログラムとして形態素解析エンジンmecabを使用します。 mecabはUTF-8版としてコンパイルします。

libiconv

http://www.sunfreeware.com/ でパッケージが提供されているのでこれを使用します。

$ gzip -d libiconv-1.xx-sol10-x86-local.gz
# pkgadd -d libiconv-1.xx-sol10-x86-local

mecab本体

http://mecab.sourceforge.net/ からソースをダウンロードします。 ipadicもここからダウンロードします。
charsetをutf8にしてコンパイルします。

$ tar zxvf mecab-0.93.tar.gz
$ cd mecab-0.93
$ ./configure --with-charset=utf-8 --with-libiconv-prefix=/usr/local \
  LDFLAGS='-L/usr/local/lib -liconv'
$ make
# make install

configureのとき--with-libiconv-prefixだけだとlibiconvをうまく見つけてくれないのでLDFLAGSを指定しました。

ipadic

mecabが使う辞書です。

$ tar zxvf mecab-ipadic-2.7.0-20060707.tar.gz
$ cd mecab-ipadic-2.7.0-20060707

char.defのASCIIのところを以下のように変更します。

# ASCII
0x0021..0x002F ALPHA
0x0030..0x0039 ALPHA
0x003A..0x0040 ALPHA
0x0041..0x005A ALPHA
0x005B..0x0060 ALPHA
0x0061..0x007A ALPHA
0x007B..0x007E ALPHA

mecab本体と同じくcharsetをutf8にします。私の環境では、"utf8"ではなくて"utf-8"とハイフンを入れないとiconvが動きませんでした。

$ ./configure --with-charset=utf-8
$ make
# make install

Text::Mecab

mecabをPerlから使うためのモジュールです。mecabの公式サイトにあるmecab-perlとは違うものなのでご注意ください。
CPANではうまくインストールできなかったのでhttp://search.cpan.org/~dmaki/Text-MeCab/からダウンロードしてコンパイルしました。

$ tar zxvf Text-MeCab-0.13.tar.gz
$ cd  Text-MeCab-0.13

Makefile.PLに以下の行を追記します。

CC         => 'gcc',
CCCDLFLAGS => '-fPIC',
LDDLFLAGS  => '-G -L/usr/lib -L/lib -L/usr/sfw/lib -L/usr/local/lib \\
 -R/usr/sfw/lib  -R/usr/local/lib -lstdc++ -lmecab',
LDFLAGS    => '-L/usr/lib -L/lib -L/usr/sfw/lib -L/usr/local/lib \\
 -R/usr/sfw/lib -R/usr/local/lib -lstdc++ -lmecab',

$ perl Makefile.PL
$ make
$ make test
# make install

文字コードを尋ねられたら"utf-8"にします。そのほかはデフォルトで大丈夫だと思います。

なんだかやたらとはまりましたがようやくUTF-8版のmecabをインストールできました。

SpamAssassin

通常版のSpamAssassinはCPANでインストールできますが、今回は日本語対応パッチを当てるので手動でコンパイルします。

Encode::Detect

日本語対応版ではEncode::Detectが必要になります。 CPANでインストールできるはずがふつうにやってもまずインストールできません。（そんなんばっかり...）

http://mm.apache.jp/pipermail/spamassassin-jp/2006-July/000318.html より引用
--------------------------------------------------------------------
cpan を使って
install Bundle::CPAN
でCPANモジュール＆関連モジュールを最新版にする
cpan の再設定(reload cpan では有効にならないモジュールがある模様）
（上記で BuildやYAMLが入ります）
install Module::Build
install ExtUtils::CBuilder
install Data::Dump
そして最後に
install Encode::Detect
を実行してやると入りました

だそうです。でも私の環境ではやっぱりCPANではインストールできなかったので、依存モジュールをインストール後、以下の手順でインストールしました。

$ tar zxvf Encode-Detect-1.00.tar.gz
$ cd Encode-Detect-1.00
$ perl Build.PL --config cc=gcc \
  --config extra_linker_flags='-L/usr/sfw/lib -lstdc++'
$ ./Build
$ ./Build test
# ./Build install

Mail::SpamAssassin

http://spamassassin.apache.org/ から本体をダウンロードします。

$ tar zxvf Mail-SpamAssassin-3.1.7.tar.gz
$ cd Mail-SpamAssassin

http://www.emaillab.org/spamassassin/ から日本語対応パッチをダウンロードします。

パッチを当てます

$ patch -p1 < spamassassin-3.1.7-normalize-test7.patch

INSTALLを参考に依存モジュールをインストールします。重要そうなものを挙げておきます。そのほかのものは好みでインストールしてください。

Digest::SHA1 (必須)
HTML::Parser (必須)
MIME::Base64 (強く推奨)
DB_File (ベイジアンフィルタを使うなら必要)
Net::DNS (RBLを使うなら必要)

インストール

$ perl Makefile.PL
$ make
$ make test
# make install

ユーザ・グループ作成

# groupadd spamd
# useradd -g spamd -s /bin/false -d /var/spool/spamassassin spamd

ベイジアンフィルタ用のデータを置くためのディレクトリを作っておきます。

# mkdir /var/spool/spamassassin
# chown spamd:spamd /var/spool/spamassassin

rcスクリプト

SpamAssassinの使い方は、スタンドアロンで動かす方法(spamassassinコマンド)と、クライアントサーバ方式で動かす方法(spamd/spamc)があります。今回はクライアントサーバ方式で動かします。 rcスクリプトのサンプルがspamd/solaris-rc-script.shにありますので少し修正して以下のようにしました。

/etc/init.d/spamd
--------------------------------------------------------------------
#!/sbin/sh
 
LOGFILE=/var/log/spamd.log
PIDFILE=/var/run/spamd.pid
USER=spamd
GROUP=spamd

ECHO=/usr/ucb/echo

case "$1" in
start)
       $ECHO -n "starting spamd ... "
       spamd -d -s $LOGFILE -r $PIDFILE -u $USER -g $GROUP &&
               $ECHO "[ OK ]" || $ECHO "[ NG ]"
       ;;
stop)
       $ECHO -n "stopping spamd ... "
       kill `cat $PIDFILE` && $ECHO "[ OK ]" || $ECHO "[ NG ]"
       ;;
restart)
       $0 stop
       sleep 3
       $0 start
       ;;
reload|refresh)
       $ECHO -n "refreshing spamd ... "
       kill -HUP `cat $PIDFILE` && $ECHO "[ OK ]" || $ECHO "[ NG ]"
       ;;
*)
       echo "Usage: $0 { start | stop | restart | refresh }"
       exit 1
       ;;
esac
exit 0

設定

設定ファイル

設定ファイルはデフォルトでは/etc/mail/spamassassin以下に置かれます。

local.cfを編集する。

#   Add *****SPAM***** to the Subject header of spam e-mails
#
rewrite_header Subject *****SPAM*****

#   Save spam messages as a message/rfc822 MIME attachment instead of
#   modifying the original message (0: off, 2: use text/plain instead)
#
report_safe 0

#   Set the threshold at which a message is considered spam (default: 5.0)
#
required_score 5.0

# ベイズ学習オプション
bayes_path /var/spool/spamassassin/bayes
bayes_file_mode 0644

# 自動ホワイトリストオプション
auto_whitelist_path /var/spool/spamassassin/auto-whitelist
auto_whitelist_file_mode 0644

分かち書きプログラムの設定

tokenizer.pre
--------------------------------------------------------------------
# Tokenizer::SimpleJA
#
#loadplugin Mail::SpamAssassin::Plugin::Tokenizer::SimpleJA

# Tokenizer::MeCab
#
loadplugin Mail::SpamAssassin::Plugin::Tokenizer::MeCab

サイト独自の設定ファイルはsite/以下に作成しsite.cfというファイルからincludeすることにします。

site.cf
--------------------------------------------------------------------
include site/japanese.cf
include site/rbl.cf

site/japanese.cf
--------------------------------------------------------------------
# 文字コード正規化
normalize_charset 1

## 20_body_tests.cfの再定義
score SUBJECT_EXCESS_BASE64 0
score WEIRD_QUOTING 0

## 20_head_tests.cfの再定義
score FROM_EXCESS_BASE64 0
score GAPPY_SUBJECT 0
score SUBJECT_ENCODED_TWICE 0
score SUBJ_ILLEGAL_CHARS 0

## 20_html_tests.cfの再定義
score HTML_COMMENT_8BITS 0
score OBFUSCATING_COMMENT 0

## 20_meta_tests.cfの再定義
score UPPERCASE_25_50 0
score UPPERCASE_50_75 0

## 20_phrases.cfの再定義
score OBSCURED_EMAIL 0

site/rbl.cf
--------------------------------------------------------------------
# RBL.jp(http://www.rbl.jp/)の設定を追加する
# all.rbl.jp
header    RCVD_IN_ALL_RBL_JP eval:check_rbl_txt('rbl.jp', 'all.rbl.jp.')
describe  RCVD_IN_ALL_RBL_JP Received via a relay in all.rbl.jp
tflags    RCVD_IN_ALL_RBL_JP net
score     RCVD_IN_ALL_RBL_JP 2.0

# url.rbl.jp
urirhssub URLBL_RBLJP url.rbl.jp. A 2
body      URLBL_RBLJP eval:check_uridnsbl('URLBL_RBLJP')
describe  URLBL_RBLJP Has URI in url.rbl.jp
tflags    URLBL_RBLJP net
score     URLBL_RBLJP 4.0

uridnsbl  URLBL_IP_RBLJP url.rbl.jp. TXT
body      URLBL_IP_RBLJP eval:check_uridnsbl('URLBL_IP_RBLJP')
describe  URLBL_IP_RBLJP Has IP URL in url.rbl.jp
tflags    URLBL_IP_RBLJP net
score     URLBL_IP_RBLJP 4.0

# dyndns.rbl.jp
urirhssub URLBL_DYNDNS_RBLJP  dyndns.rbl.jp.    A   4
body      URLBL_DYNDNS_RBLJP  eval:check_uridnsbl('URLBL_DYNDNS_RBLJP')
describe  URLBL_DYNDNS_RBLJP  URL uses Dynamic DNS service
tflags    URLBL_DYNDNS_RBLJP  net
score     URLBL_DYNDNS_RBLJP  4.0

# 日本からのメールをSPAMと誤検知することが多いRBLを使わない
score RCVD_IN_SORBS_BLOCK 0
score RCVD_IN_SORBS_DUL 0
score RCVD_IN_SORBS_HTTP 0
score RCVD_IN_SORBS_MISC 0
score RCVD_IN_SORBS_SMTP 0
score RCVD_IN_SORBS_SOCKS 0
score RCVD_IN_SORBS_WEB 0
score RCVD_IN_SORBS_ZOMBIE 0

ベイジアンフィルタ学習

SpamAssassinの真骨頂とも言えるベイジアンフィルタの学習を行います。判定精度を良くするには継続的に学習を行う必要があります。

集めたスパムメールを1メール1ファイル形式で/tmp/spam/に置き、スパムでないメールを/tmp/ham/に置きます。 1000通ほどあると理想的のようです。
sa-learnコマンドで学習を行います。

$ sa-learn --spam /tmp/spam/*
$ sa-learn --ham /tmp/ham/*

/var/spool/spamassassin以下にデータベースが作成されます。かなり時間がかかりますので気長に待ちましょう。

追加学習

スパムと判定されるべきメールをスパムでないと誤判定(false negative)されたときは以下のように学習します。

$ sa-learn --spam file

また、スパムでないメール(ham)をスパムと誤判定されたとき(false positive)は以下のように学習します。

$ sa-learn --ham file

使ってみる

動作テスト

お疲れさまでした。ようやくSpamAssasssinを実際に使えるところまで来ました。 spamassassinコマンドおよびspamcコマンドは標準入力からメールを読み込んで、X-Spam-Flagなどのヘッダを付けて標準出力に書き出します。なのでいろいろなプログラムと組み合わせて使うことができます。

とりあえずコマンドラインから起動してみましょう。

$ spamc < メールファイル

としてメールファイルを読み込み、ヘッダが追加されて出力されることを確認してください。 X-Spam-Flag, X-Spam-Level, X-Spam-Statusなどのヘッダでスパムと判定されたかどうかが分かります。

fetchmail + procmail

fetchmailでPOP3サーバから受信したメールをSpamAssassinでチェックする設定の例です。

.fetchmailrc の例

# configuration for fetchmail

set postmaster [USER]
set nobouncemail
#set logfile /export/home/[USER]/Maildir/fetchmail.log

defaults
protocol pop3
no mimedecode
mda "/opt/sfw/bin/procmail"

poll pop3server
port 995
uidl
user [POP USER]
password [POP PASSWORD]
is [USER] here
ssl
no keep

.procmailrc の例

# configuration for procmail

MAILDIR=$HOME/Maildir
DEFAULT=$MAILDIR/
#LOGFILE=$MAILDIR/procmail.log
LOCKFILE=$MAILDIR/procmail.lock

# すべてのメールをspamcに通す
:0fw
|spamc

POP3 Proxy

以下のページでDeleGateと組み合わせてスパムフィルタ付きのPOP3プロキシを構築する手順を紹介しています。
DeleGate POP3 Proxy with SpamAssassin

リンク

The Apache SpamAssassin Project
Taki Internet Mail Private Lab. - SpamAssassin関連実験場
日本SpamAssassinユーザ会
MeCab

最終更新時間：2007年05月18日 15時00分45秒

日本語対応SpamAssassinインストール

概要

インストール

mecab

libiconv

mecab本体

ipadic

Text::Mecab

SpamAssassin

Encode::Detect

Mail::SpamAssassin

rcスクリプト

設定

設定ファイル

ベイジアンフィルタ学習

追加学習

使ってみる

動作テスト

fetchmail + procmail

POP3 Proxy

リンク

Menu

Solarisメモ

DeleGateレシピ

etc

検索

最新