|
|||||||||||||||
Quelques millièmes de seconde de traitement pour chaque mail
Chaque message est alors décomposé en éléments aussi petits que possibles appelés tokens. Un token peut être constitué par le nom de l'expéditeur, un mot présent dans le corps du mail, une image ou un morceau de code HTML. Le système relève le nombre d'occurrences de chaque token dans les messages légitimes et le nombre d'occurrences du même token dans des spams. Ces données sont inscrites dans une base de données qui sert de référence. Elle est le plus souvent constituée par les éditeurs des logiciels antispam. Lorsque l'utilisateur relève ses mails, chaque message est ainsi découpé en tokens et le théorème de Bayes est appliqué à chacun d'entre eux. Il stipule « Si l'on connaît la probabilité qu'un token " A " soit présent dans un e-mail (spam ou non) et la probabilité que le même token " A " soit présent dans un spam, alors on peut calculer la probabilité pour que le message contenant le token "A" soit un spam. » Cette théorie mathématique, base de tous les calculs « bayésiens », ne nécessite que quelques millièmes de secondes de traitement. Si la probabilité que le mail ne soit pas sollicité dépasse 90 %, il peut être supprimé sans problème car le pourcentage d'erreurs est proche de zéro. Si elle se situe entre 70 % et 90 %, il faut demander à l'utilisateur de trancher. En fonction de sa réponse, la base de données des tokens sera remise à jour et enrichie, ce qui permet d'affiner la pertinence du système au fur et à mesure. Très puissante, cette technique présente toutefois un inconvénient : elle considère chaque token comme indépendant des autres. Alors que certains mots sont souvent associés, comme « buy » (acheter) et « Viagra » . Le théorème de Bayes a donc été perfectionné par la création de « réseaux bayésiens». Dans ce cas, lors de l'analyse d'un message, chaque token est positionné sur une « grille » par rapport aux autres tokens. On obtient alors une représentation graphique du mail, où le point symbolisant « buy» est proche de celui symbolisant « Viagra » . Le calcul de probabilité est alors bien plus complexe mais aussi beaucoup plus pertinent. Certains logiciels, bien paramétrés, permettent alors de supprimer plus de 99 % de spams, sans éliminer de « bons » messages par erreur !Machine chargée de réceptionner les e-mails envoyés par des internautes et de les transmettre au destinataire. Elle utilise le protocole de communication SMTP, Simple Mail Transfert Protocol.
Adresse IPAdresse unique, composée de quatre nombres (0 à 255) séparés par des points, identifiant chaque équipement informatique sur un réseau.
TokenElément de base constituant un message (tel le nom de l'expéditeur, le texte présent dans le corps du mail, une image ou un morceau de code HTML). Il sert de matière première pour les calculs de probabilités bayésiens.
![]() |
> Logiciel : Audials One
Enregistrez les vidéos et les MP3 du Web que vous désirez.
|
|

![]() |
> Jeu en ligne :
01men Poker Actualités, tournois, conseils, statistiques...
|
|
