ホワイトリスト/ブラックリスト
ブラックリストで迷惑メールをシャットアウト |
まずは「ホワイトリスト/ブラックリスト」で判断します。ホワイトリストに掲載されているサイトやアドレスから送られてきたメールはスパムメールとせず通します。
ブラックリストは反対に遮断するサイトやアドレスを掲載したリストです。迷惑メールなのにフィルタを素通りしたメールをブラックリストに登録することで次回からスパムメール扱いになります。反対に間違えてスパムメール扱いとなったメールはホワイトリストに登録します。
皆がスパムメールにするとスパムメールに
プロバイダーによってはユーザーが登録するブラックリストを集め、皆がブラックリストに載せている相手先はスパムメールだと判断する場合があります。気をつけないといけないのが皆がスパムメールだと判断すると普通のメールもスパムメールになってしまいます。しょちゅうメルマガが届き、ユーザーにうっとおしいと思われると、ユーザーはメール解約の行動を取らずにクリック一つでスパムメールに登録してしまうかもしれません。これで普通のメールがスパムメール扱いになってしまいます。時々、メルマガが迷惑メール・フォルダーに入っているのはこれが原因かもしれません。
またメールが送られてくるサイトの信頼情報も重要です。スパムメールがよく送られてくるサイトの信頼情報は当然、低くなります。
246年前に亡くなった牧師の確率理論が大活躍
次に行われるのが「ワード・フィルタ」です。これはワイセツ用語などのNGキーワードがメールの題名や本文に含まれているとスパムメールと判断します。牧師の確率理論からベイジアン・フィルタが生まれた |
ただし、用語の一部などを伏字にされてしまうとフィルタを素通りすることになります。それに対応できるのが「ベイジアン・フィルタ」です。
ベイジアン・フィルタはスパムメールと普通のメールの特徴を確率統計的な手法を用いて分析し、設定した単語、語句の出現頻度などを比較して判断します。判断は題名や本文だけでなくスパムらしき相関性のある単語の使われ方や組み合わせ、ヘッダ情報など細かく分析をします。
伏字を多用するとスパムメールの特徴となってしまいフィルタに引っかかります。反対にアダルトという言葉だけではスパムメールかどうか分かりませんので特徴を調べて判断します。また再学習することで学習量が増えるとスパムメールと判断する精度が上昇します。
ベイジアン・フィルタは246年前に亡くなった牧師トーマス・ベイズの確率理論(ベイズ理論)が使われています。ベイズ理論は、過去に起きた事象の発生頻度から未来の発生頻度を予測するという確率論です。まさかIT分野でこんなにも自分の理論が使われるようになるとは想像していなかったでしょう。