Les probabilités au c?"ur de l'intelligence artificielle

‘ Sans Thomas Bayes, l’antispam d’Outlook, les fonctions de détourage de Photo Suite et le compagnon d’Office n’auraient peut-être jamais vu le jour ‘, s’amuse Chris Bishop, directeur
adjoint du centre de recherches de Microsoft à Cambridge. Pour comprendre cette plaisanterie, il faut savoir que Thomas Bayes est anglais, pasteur de l’église presbytérienne, et qu’il est né… il y a plus de 300 ans ! Et si Thomas Bayes a
joué ?” à titre posthume ?” un rôle aussi important dans le développement de centaines de programmes, c’est pour un théorème mathématique. Jusqu’à Bayes, les probabilités étaient essentiellement perçues sous l’angle de la
fréquence : il pleut en moyenne 10 jours durant le mois de novembre, la probabilité qu’il pleuve le 1^er novembre 2005 est donc de 10 sur 30, soit 33 %. La théorie de Bayes peut être réduite à un principe :
pour prévoir le futur, il faut étudier les données du passé et prendre en compte beaucoup plus d’éléments, même incertains.Pour savoir s’il va pleuvoir le 1^er novembre, les ‘ bayésiens ‘ vont s’intéresser, en plus, aux prévisions météo : celles-ci annoncent de la pluie mais
elles ne sont fiables que dans 75 % des cas. Les formules mathématiques de Bayes permettent alors d’estimer qu’il y a 59,6 % de chances qu’il pleuve le 1^er novembre si le bulletin météo indique de la pluie,
sachant qu’il pleut en moyenne 10 jours dans le mois.Dédaignées il y a encore une dizaine d’années, les théories de Bayes ont aujourd’hui les faveurs des développeurs de logiciels et fabricants de matériels. Chez Microsoft, par exemple, plusieurs laboratoires ont pour mission d’intégrer
les théorèmes du pasteur anglais aux programmes de la firme, tandis que Google embauche des chercheurs spécialisés en théorèmes bayésiens. Rien d’étonnant, la plupart des logiciels reposent désormais sur des statistiques : quelle est la
probabilité qu’un mail soit un spam, qu’un client d’Amazon achète le livre B s’il a lu le livre A, qu’une page Web corresponde aux mots clés entrés par un utilisateur dans un moteur de recherche ? On n’attend plus seulement de l’ordinateur
qu’il fasse office de supercalculatrice, on veut aussi qu’il soit ‘ intelligent ‘. Et, pour cela, il n’y a que deux solutions. La première consiste à lui faire apprendre ‘ par
c?”ur ‘ des quantités colossales d’informations qu’il exploitera mécaniquement : il n’apprendra alors rien de lui-même et pourra uniquement gérer les situations qu’on lui aura appris à gérer. La seconde consiste à
doter l’ordinateur d’un schéma d’apprentissage qui lui permet, à chaque fois qu’on lui soumet une question, de l’analyser à partir de ses expériences antérieures pour aboutir à un résultat qui sera lui-même mémorisé. Le système bayésien, qui
s’inscrit dans ce second cadre, analyse les données selon des critères statistiques. L’intérêt, c’est son efficacité croissante : plus les informations passées sont nombreuses, plus la réponse est fiable. Et si l’on modifie les données de
départ, le résultat est ajusté automatiquement. L’inconvénient majeur, c’est que ce modèle ne peut traiter les situations exceptionnelles (un accident, par exemple), et qu’il peut s’enfermer dans ses erreurs…

Elles retrouvent des photos

Des centaines de photos, et moi, et moi… Ceux qui possèdent un appareil photo numérique le savent bien : les clichés s’entassent sur le disque dur et retrouver l’un d’eux devient mission impossible. Même les plus
minutieux, qui classent leurs photos par date et lieu, et leur associent des mots clés, s’y perdent. Pourquoi ? Parce qu’on se souvient de la composition de l’image (‘ j’ai photographié ma fille portant sa nouvelle jupe
rouge devant la piscine ‘, par exemple) mais pas du moment ou de l’endroit. L’université de Carnegie Mellon et Intel ont développé un algorithme de reconnaissance d’images, Diamond, qui permettra peut-être de retrouver
rapidement ses clichés. Le principe : l’utilisateur décrit au logiciel la photo qu’il cherche en indiquant ce qu’elle contient. Dans notre exemple, il lui suffit de sélectionner n’importe quel cliché de sa fille, puis une photo de la robe rouge
et enfin d’indiquer que l’arrière-plan présente une dominante bleue, pour que le programme affiche toutes les vues correspondantes. Pour cela, Diamond fait appel à de nombreux algorithmes bayésiens qui déterminent la probabilité qu’a chaque image de
la collection de contenir les éléments spécifiés par l’utilisateur.

Elles ordonnent le Web

Chaque jour, des millions de nouvelles pages apparaissent sur le Web, mais s’il est aussi difficile d’y trouver une information précise, c’est avant tout parce que les moteurs de recherche actuels considèrent les mots comme de
simples assemblages de lettres, sans analyser ce qu’ils représentent. Ainsi, si l’on tape ‘ pensions pour chats ‘ dans Google, on n’obtiendra pas les sites se présentant comme
‘ pensions pour animaux ‘, ni ceux ne mentionnant aucun chat sur leur page d’accueil. Tout simplement parce que le moteur n’établit pas de lien entre les termes
‘ chats ‘ et ‘ animaux ‘. La plupart des moteurs obéissent encore aujourd’hui à une logique booléenne qui leur permet juste de filtrer les sites contenant
ou non certains mots. Passer à un système bayésien permettrait aux moteurs de recherche de définir des champs lexicaux sur la base de régularités statistiques (tel mot souvent rencontré avec tel autre, par exemple) puis de les affiner
progressivement, pour finalement être capables de déduire, seuls, que ‘ chats ‘ est un sous-ensemble de ‘ animaux ‘. IBM et Google y travaillent. Google
utilise déjà des règles bayésiennes pour supprimer automatiquement les sites qui trichent pour arriver en tête de liste dans les résultats.

Elles pimentent les jeux

Depuis plus d’une dizaine d’années, les publicités vantant des jeux vidéo promettent de ‘ jouer des dizaines d’heures contre l’ordinateur grâce à un moteur d’intelligence artificielle
révolutionnaire ‘. Malheureusement, de l’intelligence promise, les joueurs n’en voient souvent que le côté artificiel. Et ils observent que l’ordinateur répète sans cesse les mêmes erreurs, sans évoluer ni s’adapter. C’est
pour cela que les chercheurs du laboratoire de Microsoft situé à Cambridge ont essayé d’appliquer les statistiques bayésiennes au jeu vidéo. L’idée : étudier le comportement du joueur ‘ humain ‘ au
fil des parties pour trouver la meilleure tactique. Dans un jeu de course, le programme étudie ainsi la réaction du joueur lorsqu’il se trouve en survirage. Freine-t-il ? Accélère-t-il ? En fonction de quels paramètres ? Quand il doit
contrôler un avatar, le programme établit des probabilités : sachant que la voiture est en survirage et que la vitesse est de 100 km/h, quelle est la probabilité qu’un joueur ‘ humain ‘
freine, et celle qu’il accélère ? Ainsi, au fil des courses, le système reproduit de plus en plus fidèlement une conduite humaine. L’algorithme, déjà utilisé pour le jeu de course Forza sorti sur Xbox, devrait être intégré à de
nombreux jeux à venir.

Faites-vous du bayésien sans le savoir ?

De nombreux algorithmes utilisant les règles de probabilité de Bayes sont déjà intégrés aux programmes que nous utilisons chaque jour.

L’antispam

Comment distinguer une publicité non sollicitée d’un mail professionnel important ? Et surtout, comment éliminer le premier sans risquer de supprimer le second ? La plupart des filtres antispams actuels (comme celui de
la dernière version d’Outlook) ont recours pour cela aux statistiques bayésiennes. Elles permettent de déterminer la probabilité, aussi appelée ‘ score ‘, que chaque élément d’un mail (un mot, un groupe
de mots, une image, etc. ) fasse partie d’un spam, l’utilisateur corrigeant le logiciel à chaque mauvaise estimation (en cliquant par exemple sur ‘ ceci est du spam ‘ ou ‘ ceci
n’est pas du spam ‘). Ensuite, dès qu’un nouveau courrier est reçu, il est décortiqué en éléments dont les scores cumulés déterminent la probabilité qu’il s’agisse d’un spam.

La retouche d’images

Détourer un objet peut demander des heures, surtout s’il s’agit d’une forme complexe (une fleur comprenant de nombreux pétales, par exemple) sur fond multicolore. Les outils automatiques des programmes de retouche d’images
?” comme la baguette magique ?” se révèlent souvent inopérants, car ils autorisent uniquement le détourage d’objets aux couleurs uniformes. En intégrant des algorithmes bayésiens dans son programme Photo Suite (voir nos Tests
nouveautés logiciels), Microsoft propose un nouvel outil qui permet, en quelques secondes, de supprimer un objet à l’intérieur d’une photo. L’algorithme étudie chaque point et détermine sa probabilité de faire partie d’un ensemble de
points plutôt que d’un autre. Il décompose ainsi l’image en plusieurs ensembles de points et peut alors effacer l’un d’eux.

Les compagnons d’Office

Quelle que soit la forme sous laquelle il apparaît ?” trombone, chien, etc. ?” l’assistant d’Office n’est guère apprécié de la plupart des utilisateurs, qui lui reprochent ses apparitions inopportunes. Pourtant,
lorsqu’on lui pose une question, on constate qu’il se révèle plutôt efficace. Rien d’étonnant : il extrait les réponses de sa base de données selon un algorithme bayésien qui détermine la probabilité que chacune réponde correctement à la
question posée.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Alain Steinmann