Der bayessche Filter (auch als bayesischer Filter bezeichnet) rechnet mit bedingten Wahrscheinlichkeiten: Von charakteristischen Wörtern in einer E-Mail (Ereignis) wird auf die Eigenschaft, Spam zu sein (Ursache), geschlossen; der Name leitet sich vom englischen Mathematiker Thomas Bayes (etwa 1702 - 1761) ab.
Dieses statistische Filtern, zuerst vorgeschlagen 1998 am AAAI-98 Workshop on Learning for Text Categorization und weiter bekanntgemacht durch einen einflussreichen Artikel von Paul Graham, soll vorhersagen, ob eine E-Mail Spam ist oder nicht. Der Filter wird von vielen Antispam-Programmen benutzt und ist beispielsweise im E-Mail-Client Mozilla Thunderbird implementiert.
Statistische Gegenmaßnahmen basieren auf Wahrscheinlichkeits-Methoden, abgeleitet vom Bayes-Theorem. Bayes'sche Filter sind oft "lernend" (auch "selbstlernend") organisiert und setzen auf Worthäufigkeiten in bereits vom Benutzer erhaltenen und klassifizierten E-Mails. Ein bayesscher Filter wird durch seinen Benutzer trainiert, indem dieser seine E-Mails in erwünschte (Ham) und unerwünschte (Spam) einteilt. Der bayessche Filter stellt nun eine Liste mit Wörtern zusammen, die in unerwünschten E-Mails vorkommen. Hat der Benutzer E-Mails mit den Begriffen "Sex" und "Viagra" als Spam gekennzeichnet, haben alle E-Mails mit diesen Begriffen eine hohe Spamwahrscheinlichkeit. Begriffe aus erwünschten E-Mails wie "Verabredung" oder "Bericht" führen dann zu geringer Spamwahrscheinlichkeit. Allerdings reichen einzelne Schlüsselwörter nicht aus, sondern die Gesamtsumme der Bewertungen der einzelnen Wörter macht es aus.
Der Filter schafft bereits nach kurzem Training mit zirka 30 E-Mails erstaunlich hohe Trefferquoten - auch wenn für die produktive Nutzung mindestens ein paar hundert Mails beider Kategorien empfohlen wird. Er wird von vielen Providern zum Abfangen von Spam verwendet.
Das entscheidende Risiko besteht für den User, dass ihm eine reguläre Mail durch die Lappen geht, also die falsch-positiven Fälle. Für einen Privatmann, der zusätzlich mit Whitelists arbeitet, kann dies noch hinnehmbar sein, jedoch riskieren Firmen demgegenüber, dass wichtige Anfragen von Neukunden verlorengehen. Diese Gefahr ist jedoch bei richtigem Training des Filters wesentlich geringer als die Gefahr, daß eine Mail bei einer manuellen Filterung oder aus anderen Gründen übersehen, versehentlich gelöscht oder einfach nur vergessen wird. Wichtig ist nur, daß man vor allem in der Anfangsphase des Trainings nicht nur die unerwünschten Mails als solche markiert, sondern umgekehrt auch die regulären.
Die Versender von Spam sehen aber auch nicht tatenlos zu. Werbebotschaften werden z.B. in Bildern untergebracht, damit sie der Filter nicht findet, und verdächtige Begriffe werden bewußt falsch (z.B. "V|agra" oder "Va1ium") oder mit eingestreuten Leerzeichen geschrieben. Allerdings bewertet der Filter auch HTML-Tags wie "img" und "src" negativ, so dass Bilder in E-Mails ein recht guter Hinweis auf Spam sind, ebenso wie die falsch geschriebenen Wörter, die vom Filter ja ebenfalls gelernt und natürlich mit einer extrem hohen Spamwahrscheinlichkeit bewertet werden.
In jüngerer Zeit ebenfalls häufig zu beobachten ist eine Methode, bei der zufällige Zitate oder ganze Kapitel aus der Weltliteratur (evtl. in weißer Schrift oder als Meta-Tag unlesbar) eingefügt werden, um die statistischen Maßnahmen auszutricksen. Dies ist aber ebenfalls keine sehr erfolgreiche Strategie, weil zufällig ausgewählte 'harmlose' Begriffe oder Sätze weder eine besonders hohe noch eine besonders niedrige Spamwahrscheinlichkeit haben, so dass sie in der Gesamtbewertung aller in der Mail vorkommenden Begriffe keine Rolle spielen.
Eine Besonderheit in nicht englischsprachigen Ländern entsteht daraus, dass Spam überwiegend in englischer Sprache verfasst ist. Die Trefferwahrscheinlichkeit eines bayesschen Filters dürfte daher in diesen Ländern höher liegen, aber auch die Gefahr, daß eine erwünschte englischsprachige Mail fälschlicherweise als Spam erkannt wird.
Das Filtern auf statistischen Grundlagen ist im Grunde eine Art Text-Klassifikation. Eine Anzahl von Forschern der angewandten Linguistik, die sich mit dem "Lernen von Maschinen" befassen, haben sich bereits diesem Problem gewidmet.
Siehe auch: bayesscher Wahrscheinlichkeitsbegriff
Programme mit bayesschem Filter
- Surfcontrol EMail Filter
- Spamihilator
- POPFile
- SpamBayes
- Bogofilter
- SpamAssassin
- CRM114
- K9
- DSpam
- ASSP (Anti Spam SMTP Proxy)
- Mozilla Thunderbird
- Bayesian Plugin (Erweiterung für SpamPal)
- plog (PHP-Weblog mit bayesschem Kommentarspam-Filter)
- GFi MailEssentials (kommerzielle Software mit lernendem bayesschem Filter)
Weblinks
- Spam-Vermeidung - Artikel zur Vermeidung von Spam
- A Plan for Spam (Englisch)