|
|||||||||||||||
Quand les maths combattent le spam
Pour détecter les messages non sollicités dans le courriel, les logiciels spécialisés effectuent plus de trente contrôles. Le plus infaillible est basé sur une théorie statistique mise au point par un révérend anglais, il y a plus de deux siècles.
Alain Steinmann , L'Ordinateur Individuel, le 04/08/2004 à 07h00
Des photos érotiques de Britney Spears, du Viagra ou des prêts bancaires à des taux défiant toute concurrence : chaque internaute, ou presque, a reçu des propositions de ce genre par courriel. Ce type de courrier non sollicité, appelé spam, représente aujourd'hui entre 50 et 70 % des messages transitant sur le réseau selon les mesures effectuées par plusieurs sociétés spécialisées. Le nombre de spams augmente régulièrement depuis deux ans et l'installation de logiciels capables de trier le bon grain de l'ivraie devient parfois indispensable. Pourtant, si un être humain est capable de reconnaître un message non sollicité en quelques dixièmes de secondes, il n'en va pas de même pour un programme informatique. Le défi est double : il faut à la fois repérer une grande partie des spams mais aussi éviter les erreurs en ne supprimant pas des messages légitimes. Les premières tentatives d'automatisation du traitement du spam, relativement basiques, se basaient sur la présence de mots particuliers, comme « sex » pour effectuer un tri. Une méthode qui a vite montré ses limites : il est impossible de cette manière de filtrer un pourcentage élevé de messages non sollicités tout en conservant un taux d'erreur faible. Aujourd'hui, pour déterminer la nature d'un courrier électronique, les logiciels les plus perfectionnés effectuent une trentaine d'analyses différentes. Lorsqu'un contrôle est positif, l'antispam incrémente une « jauge » qui, lorsqu'elle dépasse une certaine valeur, déclenche le classement du message comme un spam. La précision et la pertinence du logiciel sont directement liées à l'importance de chaque contrôle. Certains, provoquant souvent des erreurs, sont minorés tandis que d'autres, plus sûrs, font très vite augmenter la présomption de spam. Aux dires des spécialistes, le contrôle le plus fiable est basé sur les mathématiques. Et en particulier sur le théorème de Thomas Bayes, un révérend anglais du XVIII e siècle. Pour mettre en pratique cette théorie, il faut tout d'abord paramétrer le système antispam en lui faisant ingurgiter des mails dont l'origine est connue : légitime ou non sollicitée.
Quelques millièmes de seconde de traitement pour chaque mail
Chaque message est alors décomposé en éléments aussi petits que possibles appelés tokens. Un token peut être constitué par le nom de l'expéditeur, un mot présent dans le corps du mail, une image ou un morceau de code HTML. Le système relève le nombre d'occurrences de chaque token dans les messages légitimes et le nombre d'occurrences du même token dans des spams. Ces données sont inscrites dans une base de données qui sert de référence. Elle est le plus souvent constituée par les éditeurs des logiciels antispam. Lorsque l'utilisateur relève ses mails, chaque message est ainsi découpé en tokens et le théorème de Bayes est appliqué à chacun d'entre eux. Il stipule « Si l'on connaît la probabilité qu'un token " A " soit présent dans un e-mail (spam ou non) et la probabilité que le même token " A " soit présent dans un spam, alors on peut calculer la probabilité pour que le message contenant le token "A" soit un spam. » Cette théorie mathématique, base de tous les calculs « bayésiens », ne nécessite que quelques millièmes de secondes de traitement. Si la probabilité que le mail ne soit pas sollicité dépasse 90 %, il peut être supprimé sans problème car le pourcentage d'erreurs est proche de zéro. Si elle se situe entre 70 % et 90 %, il faut demander à l'utilisateur de trancher. En fonction de sa réponse, la base de données des tokens sera remise à jour et enrichie, ce qui permet d'affiner la pertinence du système au fur et à mesure. Très puissante, cette technique présente toutefois un inconvénient : elle considère chaque token comme indépendant des autres. Alors que certains mots sont souvent associés, comme « buy » (acheter) et « Viagra » . Le théorème de Bayes a donc été perfectionné par la création de « réseaux bayésiens». Dans ce cas, lors de l'analyse d'un message, chaque token est positionné sur une « grille » par rapport aux autres tokens. On obtient alors une représentation graphique du mail, où le point symbolisant « buy» est proche de celui symbolisant « Viagra » . Le calcul de probabilité est alors bien plus complexe mais aussi beaucoup plus pertinent. Certains logiciels, bien paramétrés, permettent alors de supprimer plus de 99 % de spams, sans éliminer de « bons » messages par erreur !Machine chargée de réceptionner les e-mails envoyés par des internautes et de les transmettre au destinataire. Elle utilise le protocole de communication SMTP, Simple Mail Transfert Protocol.
Adresse IPAdresse unique, composée de quatre nombres (0 à 255) séparés par des points, identifiant chaque équipement informatique sur un réseau.
TokenElément de base constituant un message (tel le nom de l'expéditeur, le texte présent dans le corps du mail, une image ou un morceau de code HTML). Il sert de matière première pour les calculs de probabilités bayésiens.
Le choix duLabo 01Net.
-
Hero 2 Divers
-
Z Series 3 128 Go SSD
-
Lumia 710 Smartphones
-
Lumia 800 Smartphones
-
Purity HD Stereo Headset by Monster (WH-930) Casques
Derniers avisutilisateurs
-
Nokia Lumia 710
« Dommage que ce soit du WIndows ! Un OS libre fonctionne aussi bien et aurait peut-être encore baissé le prix. Si une version avec... »
Odapi
-
Canon Selphy CP810
« A y regarder de près, à part l'écran orientable elle est identique à la 800. Je ne suis pas vraiment d'accord avec votre... »
domlas
-
Huawei G6600
« il me demande le code NP c'est ce code? ... »
Laddyntabula
Forumsderniers sujets
58029 sujets - 420746 messages
-
PC portables
Bureau vide sans aucune icone ni barre d'état
grand schtroumf[Non connecté]
10/02/2012 19h22
-
Stockage
samsung auto backup
r2e2p4[Non connecté]
10/02/2012 19h16
-
PC
Problème de carte graphique.
kelarian[Non connecté]
10/02/2012 19h06

nos newsletters












