Passer au contenu

Antispam : “ séparer le bon grain de l’ivraie ”

Les logiciels de lutte contre le spam tentent de détecter les mails non sollicités avant leur arrivée dans nos boîtes électroniques. L’un d’eux nous explique comment.

Bonjour logiciel antispam, quel est…(Coupant la parole et visiblement suspicieux.) Je peux voir votre carte de presse ? Simple vérification. (Il l’examine attentivement, relève le numéro de la carte.) C’est parfait, maintenant, nous pouvons commencer l’entretien.Bien… Quel est donc votre rôle ?Que je sois installé sur l’ordinateur d’un particulier, sur les serveurs d’une entreprise, ou directement chez le fournisseur de messagerie, mon rôle est de trier les messages. De séparer le bon grain de l’ivraie : le courrier normal d’un côté, le courrier non sollicité ? ou spam si vous préférez ? de l’autre. Avec une proportion de spams qui varie de 80 à 95 % de la totalité des messages envoyés selon les périodes, je ne chôme pas ! Mon objectif est de réussir à détecter le maximum de spams sans me tromper. La plus grosse erreur, pour moi, ce n’est pas de laisser passer un pourriel, c’est de classer un message légitime comme spam.Quelle est donc la technique que vous utilisez pour repérer les spams ?Ce n’est pas une, mais plusieurs techniques que je mets en oeuvre pour venir à bout du spam ! Spammeurs et éditeurs de logiciels de sécurité se livrent une bataille permanente. Quand les premiers découvrent une nouvelle astuce pour contourner les filtres, les seconds s’efforcent de trouver la parade. Au fil des années et des inventions des spammeurs, ce sont plusieurs méthodes de filtrage qui ont vu le jour. Avec un principe fondamental : pour déterminer si un courriel est un spam, les éditeurs ont besoin de modèles, c’est-à-dire d’une collection de pourriels qui va servir à établir des règles de détection.Comment les éditeurs récupèrent-ils des modèles de spam ?Eh bien ! Très simplement. Ils se lancent dans la création d’un bataillon de boîtes mails qui servent d’appât et collectent parallèlement les remontées des utilisateurs des logiciels antispam. Vous avez sûrement déjà remarqué le bouton Signaler comme spam dans votre messagerie ?A propos des techniques de détection, commençons par la plus simple, s’il vous plaît.On met en place des listes noires. On recense les adresses des spammeurs et les noms de domaine qu’ils affectionnent (la partie de l’adresse électronique après l’arobase). Dès qu’un mail comprend un élément inscrit sur une liste noire, il est purement et simplement banni. Mais les spammeurs sont capables de créer de fausses adresses électroniques à chaque envoi, ce qui rend le filtrage peu efficace. De la même manière, on peut établir des listes noires des serveurs de messagerie (les ordinateurs qui relaient les courriels) que les spammeurs emploient. Si le courriel reçu provient de l’un d’eux, il s’agit probablement d’un spam. Les informations relatives à l’expéditeur, au nom de domaine, au serveur, sont accessibles dans l’en-tête du message, sans même avoir besoin de lire le contenu du mail.En quelque sorte, vous commencez par inspecter l’enveloppe du message.Exactement. Ensuite, plusieurs filtres s’attaquent au contenu du message. Quand le spam n’en était qu’à ses débuts, les éditeurs établissaient des listes de mots-clés en fonction de ceux trouvés dans les pourriels, comme le classique mot “ Viagra ”. Mais rapidement, les mots indésirables se sont multipliés. On a donc cherché à les définir automatiquement.De quelle manière, y parvenez-vous ?Grâce à ce que l’on appelle le filtre bayésien, qui repose sur des calculs statistiques. Il apprend à reconnaître le spam au fur et à mesure de la réception des mails. L’utilisateur lui signale les messages bienvenus et les pourriels. A partir des textes des uns et des autres, le filtre calcule la probabilité que chaque mot qui apparaît appartient soit à un spam, soit à un mail. Ensuite, dès l’arrivée d’un nouveau message, il évalue sa probabilité d’être un spam en fonction de son contenu. Par exemple, si le mot “ viagra ” est suspect, l’expression “ buy viagra ” l’est encore plus.Cette méthode a l’air plutôt efficace…Elle l’était ! Jusqu’à ce que les spammeurs parviennent à tromper le filtre. Ils ont noyé leur message publicitaire dans un flot de textes anodins. Résultat, la proportion de mots suspects dans un spam chutait. Puis les spammeurs ont pris le parti inverse : écrire très peu de mots, rendant une fois de plus le filtre bayésien inefficace.Et les éditeurs ont dû ajuster leur méthode…Oui. Outre le contenu, ils se sont intéressés à la forme des spams. Par exemple, le texte insignifiant visant à contourner le filtrage bayésien est souvent écrit en blanc sur fond blanc, devenant invisible pour le destinataire. Pour que le mot “ viagra ” ne soit pas détecté comme mot-clé, on insère du code invisible entre chacune de ses lettres. Une étude approfondie de la structure du courriel permet de le savoir. Certains spammeurs maquillent les informations dans l’en-tête du courriel, son enveloppe comme vous dites, en laissant des traces de leur forfait. C’est le principe du filtre heuristique antispam : il utilise un ensemble de règles reposant sur les ruses et erreurs des spammeurs pour donner une probabilité de dangerosité du message.Et pour les spams sous forme d’images ?Les spammeurs sont inventifs. Plutôt que de livrer leur message sous forme de texte, ils l’écrivent sur des images. Mais comment faire pour détecter un texte sous la forme d’une image ? La solution qui vient à l’esprit, c’est la reconnaissance de caractères (OCR). Certains éditeurs sont à la pointe dans ce domaine. Mais les spammeurs s’ingénient à compliquer la tâche : le texte est penché, sur un fond coloré, avec des ajouts de caractères de couleurs pour perturber l’OCR. Les éditeurs se sont adaptés. Ils ont mis en place un système de signatures d’images : des informations (comme la taille du fichier, les dimensions et la résolution de l’image, mais aussi le nombre de pixels de telle couleur) sont récupérées, puis comparées avec celles déjà en stock.Cela fait beaucoup de techniques. Au travers de combien de filtres passe ainsi un courriel ?Oh, on peut dire qu’un courriel passe au moins par une douzaine de filtres ; je vous ai cité les principaux. Au risque de me répéter, aucune technique, à elle seule, n’est suffisante pour contrer le spam. Chaque éditeur concocte son cocktail de filtres. Une fois passé au travers de chacun, le mail se voit attribuer un score. C’est ensuite le réglage de la sensibilité du logiciel qui décide si c’est un spam ou non. Le courriel peut alors être supprimé, étiqueté “ spam ”, ou rangé dans un dossier intitulé Courrier indésirable.Mais cela semble une tâche titanesque…Pendant plusieurs années, tout cela s’est fait à la main. Des chercheurs étudiaient les spams, déterminaient leurs traits de caractère, formalisaient les règles. Mais, face au volume de spams toujours plus élevé, l’Homme devenait impuissant. On a aujourd’hui recours à l’intelligence artificielle, pour “ digèrer ” les spams et en extraire automatiquement des règles. Celles-ci sont ensuite envoyées aux logiciels installés sur les ordinateurs, lors des mises à jour. C’est pourquoi il est impératif de les faire régulièrement !Il existe donc un décalage entre l’apparition d’un spam et sa prise en compte par le logiciel antispam ?Vous avez raison. Les éditeurs tentent de le réduire au maximum. D’où la généralisation de la méthode des signatures de spams. Quand un nouveau message arrive dans la boîte, le logiciel anti-spam lui applique une série de calculs. Le résultat est une suite de chiffres inhérente au contenu du mail, sa signature numérique. Le logiciel l’envoie aux serveurs de l’éditeur, qui, eux, la comparent avec les signatures des pourriels connus. L’avantage est double. Le logiciel sait en retour s’il s’agit d’un spam recensé, alors même qu’il n’a peut-être pas encore été ajouté à la liste de règles. Quant à l’éditeur, il peut suivre la propagation d’un courriel sur les machines de ses clients et détecter plus vite un nouveau spam.Quelles sont les dernières tendances des spammeurs ?Sur le type de spam, rien de bien nouveau. On a vu apparaître, l’an dernier, quelques tentatives de spam par pièce jointe. C’était un fichier PDF, un fichier Excel ou un morceau MP3 qui contenait le vrai texte du message. Mais la technique n’a pas duré. Certainement parce que de nombreuses entreprises interdisent les pièces jointes. De plus, comme le destinataire doit ouvrir le fichier, c’est plus contraignant. Je suppose que les taux de retours n’ont pas été à la hauteur des investissements des spammeurs. En revanche, la vraie nouvelle tendance, c’est le spam ciblé géographiquement.Qu’est-ce que vous entendez par là?Auparavant, les spams étaient rédigés en anglais et envoyés sans distinction. Aujourd’hui, ils le sont dans la langue du pays visé. L’autre tendance, c’est le spam publié directement sur les blogs et les forums. Une vraie plaie. La détection de la nature du message est la même, ce qui pose problème, c’est de choisir à quel moment filtrer : au moment de la validation du commentaire, ou après, une fois le texte publié ? C’est un choix délicat.Je vous remercie pour vos explications.Attendez, on me signale que de fausses cartes de presse circulent en ce moment. Vous voulez bien me remontrer la vôtre ?

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Olivier Lapirot