S'abonner :  Newsletters    Magazines
PC Portables Moniteurs Photo/Vidéo TV Téléphones Audio GPS Stockage Pilotes Autres catégories

écrire à l'auteur imprimer
envoyer par mail
Cet article est extrait de : L'Ordinateur Individuel

Aide les utilisateurs avertis à mieux choisir et mieux utiliser les nouvelles technologies. Nouvelle formule depuis mars 2008. Existe aussi en petit format.

Découvrez le magazine
Contactez la rédaction
Abonnez vous
[ TECHNOLOGIE ]
Quand les maths combattent le spam
Pour détecter les messages non sollicités dans le courriel, les logiciels spécialisés effectuent plus de trente contrôles. Le plus infaillible est basé sur une théorie statistique mise au point par un révérend anglais, il y a plus de deux siècles.

Alain Steinmann , L'Ordinateur Individuel, le 04/08/2004 à 07h00

Des photos érotiques de Britney Spears, du Viagra ou des prêts bancaires à des taux défiant toute concurrence : chaque internaute, ou presque, a reçu des propositions de ce genre par courriel. Ce type de courrier non sollicité, appelé spam, représente aujourd'hui entre 50 et 70 % des messages transitant sur le réseau selon les mesures effectuées par plusieurs sociétés spécialisées.

Le nombre de spams augmente régulièrement depuis deux ans et l'installation de logiciels capables de trier le bon grain de l'ivraie devient parfois indispensable. Pourtant, si un être humain est capable de reconnaître un message non sollicité en quelques dixièmes de secondes, il n'en va pas de même pour un programme informatique. Le défi est double : il faut à la fois repérer une grande partie des spams mais aussi éviter les erreurs en ne supprimant pas des messages légitimes.

Les premières tentatives d'automatisation du traitement du spam, relativement basiques, se basaient sur la présence de mots particuliers, comme « sex » pour effectuer un tri. Une méthode qui a vite montré ses limites : il est impossible de cette manière de filtrer un pourcentage élevé de messages non sollicités tout en conservant un taux d'erreur faible.

Aujourd'hui, pour déterminer la nature d'un courrier électronique, les logiciels les plus perfectionnés effectuent une trentaine d'analyses différentes. Lorsqu'un contrôle est positif, l'antispam incrémente une « jauge » qui, lorsqu'elle dépasse une certaine valeur, déclenche le classement du message comme un spam.

La précision et la pertinence du logiciel sont directement liées à l'importance de chaque contrôle. Certains, provoquant souvent des erreurs, sont minorés tandis que d'autres, plus sûrs, font très vite augmenter la présomption de spam. Aux dires des spécialistes, le contrôle le plus fiable est basé sur les mathématiques. Et en particulier sur le théorème de Thomas Bayes, un révérend anglais du XVIII e siècle. Pour mettre en pratique cette théorie, il faut tout d'abord paramétrer le système antispam en lui faisant ingurgiter des mails dont l'origine est connue : légitime ou non sollicitée.

Quelques millièmes de seconde de traitement pour chaque mail

Chaque message est alors décomposé en éléments aussi petits que possibles appelés tokens. Un token peut être constitué par le nom de l'expéditeur, un mot présent dans le corps du mail, une image ou un morceau de code HTML. Le système relève le nombre d'occurrences de chaque token dans les messages légitimes et le nombre d'occurrences du même token dans des spams.

Ces données sont inscrites dans une base de données qui sert de référence. Elle est le plus souvent constituée par les éditeurs des logiciels antispam. Lorsque l'utilisateur relève ses mails, chaque message est ainsi découpé en tokens et le théorème de Bayes est appliqué à chacun d'entre eux. Il stipule «   Si l'on connaît la probabilité qu'un token " A " soit présent dans un e-mail (spam ou non) et la probabilité que le même token " A " soit présent dans un spam, alors on peut calculer la probabilité pour que le message contenant le token "A" soit un spam.   »

Cette théorie mathématique, base de tous les calculs « bayésiens », ne nécessite que quelques millièmes de secondes de traitement. Si la probabilité que le mail ne soit pas sollicité dépasse 90 %, il peut être supprimé sans problème car le pourcentage d'erreurs est proche de zéro. Si elle se situe entre 70 % et 90 %, il faut demander à l'utilisateur de trancher. En fonction de sa réponse, la base de données des tokens sera remise à jour et enrichie, ce qui permet d'affiner la pertinence du système au fur et à mesure.

Très puissante, cette technique présente toutefois un inconvénient : elle considère chaque token comme indépendant des autres. Alors que certains mots sont souvent associés, comme « buy » (acheter) et « Viagra » . Le théorème de Bayes a donc été perfectionné par la création de « réseaux bayésiens». Dans ce cas, lors de l'analyse d'un message, chaque token est positionné sur une « grille » par rapport aux autres tokens. On obtient alors une représentation graphique du mail, où le point symbolisant « buy» est proche de celui symbolisant « Viagra » . Le calcul de probabilité est alors bien plus complexe mais aussi beaucoup plus pertinent. Certains logiciels, bien paramétrés, permettent alors de supprimer plus de 99 % de spams, sans éliminer de « bons » messages par erreur !

Glossaire
Serveur SMTP

Machine chargée de réceptionner les e-mails envoyés par des internautes et de les transmettre au destinataire. Elle utilise le protocole de communication SMTP, Simple Mail Transfert Protocol.

Adresse IP

Adresse unique, composée de quatre nombres (0 à 255) séparés par des points, identifiant chaque équipement informatique sur un réseau.

Token

Elément de base constituant un message (tel le nom de l'expéditeur, le texte présent dans le corps du mail, une image ou un morceau de code HTML). Il sert de matière première pour les calculs de probabilités bayésiens.



> Logiciel : Audials One
Enregistrez les vidéos et les MP3 du Web que vous désirez.

publicité
la rédaction vous répond
Comment marchent les mouchards de la route ? Pour contrer les multiples radars qui envahissent nos bords de routes, certaines entreprises commercialisent des...
-
> Jeu en ligne :
01men Poker
Actualités, tournois, conseils, statistiques...

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.