Algorithmes : le compte n'y est pas !

Paris, le samedi 15 décembre 2018 – « La révolution des Big Data ! ». « Pourquoi les Big Data peuvent-ils sauver le monde ! ». « Tout comprendre grâce aux algorithmes ». Ces slogans sont quelques exemples de titres enthousiastes que l’on peut lire depuis quelques années sur les promesses des algorithmes et du recueil de données volumineuses. Pourtant, tous ne partagent pas la même frénésie. Eventuellement hermétiques à cette nouvelle ère, ils s’inquiètent des dérives de cette puissance offerte aux algorithmes et surtout de leurs limites.

Google is watching us

Le monde de la santé n’est pas plus épargnée que les autres par la déferlante des Big data. Et dans ce monde comme dans les autres, elle suscite la défiance. Va-t-on repenser la prise en charge des patients et/ou le remboursement des soins en fonction des résultats des calculs orchestrés par nos ordinateurs et Google réunis ? Va-t-on vouloir uniquement se fier aux données automatisées, quand bien même elles seraient le résultat d’une recherche d’une précision inaccessible à un homme, pour décider de l’évolution d’une épidémie, de la pertinence d’un soin ou d’une mesure spécifique ?

Des chiffres et des hommes

Cette réticence n’est pas uniquement le symptôme d’une peur classique vis-à-vis du progrès scientifique et de ce que l’on maîtrise mal. C’est surtout que, pour l’heure, ces algorithmes n’ont pas toujours apporté la preuve de leur supériorité et de leur infaillibilité, tandis que d’une manière générale (et qui dépasse la médecine) la mise en équation de nos sociétés apparaît particulièrement complexe, voire illusoire. La crise des gilets jaunes qu'aucun algorithme n'avait prévu en est un bon exemple. Dans un ouvrage intitulé Pourquoi la société ne se laisse pas mettre en équations, Pablo Jensen, directeur de recherche au CNRS, physicien qui aujourd’hui étudie les systèmes sociaux, revient sur ces sujets ardus. Son ouvrage a été l’objet ce printemps de plusieurs commentaires de blogueurs.

Google ne suffit pas pour comprendre les épidémies

Parmi les exemples donnés par le physicien pour signaler la fragilité de certains modèles construits grâce aux Big Data, Jensen évoque « l’échec de GoogleFlu, l’outil de Google permettant de prédire la grippe depuis les recherches effectuées par les utilisateurs du moteur de recherche sur leurs symptômes. Cet échec s’explique à la fois par une confiance naïve dans la puissance des Big data et par l’absence d’une modélisation valable. Les chercheurs de Google ont commis des erreurs élémentaires en corrélant des données qui étaient systématiquement corrélées en hiver par exemple, leur faisant trouver des correspondances sans rapport avec la grippe » résume le journaliste Hubert Guillaud, sur le blog Internet Actu, hébergé par Le Monde. Il poursuit en remarquant : « Pourtant, cette recherche n’a pas été complètement inutile. Une équipe de Columbia spécialiste en épidémiologie a depuis utilisé les données fournies en temps réel par Google pour améliorer leur propre modèle. L’équipe a construit des modèles épidémiques nourris de données réelles et les a comparés à des requêtes Google pour affiner les résultats. En fait, souligne Pablo Jensen, l’échec de GoogleFlu a surtout montré que les modèles en chambre, assez facile à imaginer avec le Big Data, fonctionnent assez mal. C’est le savoir-faire des épidémiologistes et de leurs données qui ont permis d’améliorer les modèles. L’utilisation des données par elles-mêmes ne suffit pas si elles ne se confrontent pas aux savoirs de spécialistes des sujets analysés. Les modèles prédictifs du Big Data ne se suffisent pas seuls », détaille le journaliste.

Les fièvres irrationnelles de Twitter

La spécificité de certaines données explique la difficulté de les résumer à des équations mathématiques. Beaucoup de phénomènes résistent à l’implacabilité des mathématiques et des data de Google. Outre les épidémies, les réactions de la toile à certaines informations apparaissent également difficilement prévisibles, comme on peut le constater fréquemment dans le domaine sanitaire. Là encore, Hubert Guillaud fait référence à un exemple cité par Jensen. « Un article publié par Duncan Watts, directeur de la recherche chez Microsoft, qui en 2016, a tenté de prédire le nombre de retweets d’un tweet pour prédire les conditions de succès. Watts y discute des limites générales de la prédictibilité des phénomènes sociaux complexes. (…) Watts a analysé 1,5 milliard de tweets en cherchant à prédire la réussite des messages d’une semaine l’autre via l’apprentissage automatique. Or, même si on analyse toutes les caractéristiques des messages, le succès reste largement imprévisible. Pire, le niveau de prévisibilité d’un succès peut être doublé depuis une seule variable : à savoir, le succès passé de l’utilisateur c’est-à-dire le nombre moyen de retweets qu’il a connu jusque-là. On a découvert l’eau tiède ! Le succès appelle le succès ! ».

Bien plus facile de prédire le temps qu’il fera

Au-delà de l’analyse de multiples exemples, Jensen détaille longuement et de manière pédagogique ce qui fait obstacle à la modélisation de la société. Il « explique dans un premier temps pourquoi les sciences naturelles contrairement aux sciences humaines sont relativement fiables et robustes, permettant leur modélisation et leur prédictibilité. En physique par exemple, on peut isoler des éléments pour faire des expériences, alors qu’en sciences sociales on ne peut connaître le monde sans agir dessus, sans le transformer. Le monde physique a également la particularité d’être relativement stable. Parmi les exemples qu’évoque Pablo Jensen, il prend celui du climat. On dispose aujourd’hui de modèles planétaires de l’atmosphère, des simulations nourries quotidiennement de milliers d’observations, de plus en plus précises. La simulation s’est peu à peu imposée permettant d’améliorer les deux modèles de prédiction existants à savoir : le fait que demain il fera le même temps qu’aujourd’hui ou le fait que le temps demain sera le temps moyen de ce lieu en ce jour de l’année. En météorologie et climatologie, nos modèles virtuels sont désormais meilleurs que ces deux types de prédictions simples. En la matière, si la modélisation a permis de réaliser de manière routinière des prédictions fiables sur plusieurs jours, c’est d’abord parce que les relations fondamentales pour la prédiction atmosphérique sont bien connues et restent valables à toutes les échelles, comme dans le temps et l’espace. (…) De plus, on cherche à prédire un état moyen et non pas un état précis. Enfin, dernier point qui explique le succès de la modélisation climatique : celle-ci a été un lent et long travail d’organismes mondiaux capable de rassembler les données et de les homogénéiser, permettant de calibrer efficacement les données et les modèles. Autant de caractéristiques qu’on ne retrouve pas dans l’analyse du social par les données ».

Electrons libres

Outre ces différences, Jensen isole « quatre facteurs essentiels qui rendent les simulations de la société qualitativement plus difficiles que celles de la matière : l’hétérogénéité des humains ; le manque de stabilité de quoi que ce soit ; les nombreuses relations à prendre en compte aussi bien au niveau temporel que spatial ; la réflexivité des humains qui réagissent aux modèles qu’on fait de leur activité », cite Hubert Guillaud. Ce dernier explicite : « La forte hétérogénéité des humains rend la simulation difficile. (…) L’instabilité des effets d’une même cause dans des contextes différents semble être la règle dans les systèmes sociaux. (…) À cela s’ajoute donc le troisième facteur : le grand nombre de relations qui doivent être prises en compte qui induit des corrélations multiples dans les comportements des agents sociaux, amplifiant ou réduisant certains phénomènes. Enfin, les humains réagissent aux modèles de leur activité : à la différence d’un électron, assez indifférent à ce qu’on peut dire de lui, les humains réagissent ».

Réductionnisme

Ces différents éléments expliquent qu’un grand nombre de tentatives de modélisation sociale pêchent par leur réductionnisme. « Les modèles du social que nous construisons par la modélisation présupposent des individus avec peu de caractéristiques. Si c’est utile pour comprendre certains phénomènes, ces réductions ne sont pas parvenues à éclairer des phénomènes complexes. Ces modèles éclairent même parfois qu’une part du problème, occultant par leur réductionnisme intrinsèque d’autres aspects de ce qu’ils tentent d’analyser. Leur fiabilité repose sur la diversité d’une communauté scientifique pluraliste, permettant de mettre en doute et corriger les suppositions et calculs » résume Hubert Guillaud.

Vous avez dit objectif(s) ?

Ces interrogations invitent à se poser la question de la valeur que l’on prête aux modélisations et autres utilisations des Big Data. Beaucoup leur accordent une force objective qui serait utile aux décideurs. La réponse de Jensen sur ce point est nuancée : « Dans la dernière partie de son ouvrage, Jensen est plus modéré. Ainsi explique-t-il, "les indicateurs chiffrés cherchent à caractériser une situation de manière impartiale, au-delà des perceptions de chacun. Du coup, ils sont souvent utilisés pour légitimer son point de vue, sous couvert d’objectivité". Malgré les abus, reste que ces indicateurs ne sont pas dépourvus de sens, aussi imparfaits soient-ils. Si les indicateurs sont souvent des constructions complexes et imparfaites, ils permettent d’établir des comparaisons, des classements, des choix et des arbitrages. Les méthodes de calculs utilisées permettent la transparence et la discussion. Tout autant imparfaits que soient les classements par exemple, les indicateurs, ces outils de réduction de réalités sociales complexes, permettent de coordonner des communautés, de standardiser la réalité. Si les indicateurs sont fragiles, leur multiplication est certainement un moyen de les améliorer, de construire des indicateurs alternatifs » résume Hubert Guillaud. De fait, aussi imparfaits soient de nombreux algorithmes et autres classements (par exemple d’universités ou d’hôpital), beaucoup considèrent qu’ils sont le moins mauvais système (et le seul un tantinet fiable) pour prendre des décisions et ajuster différents éléments.

Mais le journaliste Santiago Artozqui qui propose également une lecture du livre du physicien sur le site  En attendant Nadeau tire pour sa part cette conclusion : « Il faut donc, à un moment donné, remettre en question le paradigme selon lequel la modélisation statistique est porteuse d’une vérité objective sur le phénomène qu’elle décrit, dont on pourrait se réclamer objectivement pour justifier l’adoption d’une politique. À notre époque, face au Big Data, face à l’influence des réseaux sociaux, face à l’émergence d’une algorithmisation de la société, mal digérée, mais érigée en dogme, il est essentiel pour tout citoyen de comprendre quels sont les véritables liens entre les modélisations de la société qu’on nous vend et les orientations prises par les politiques. Le livre de Jensen permet d’y voir plus clair et, ne serait-ce que pour cela, il est indispensable », écrit-il. Car toute entreprise de modélisation repose sur des choix, des hypothèses qui ne sont « faits qu’en vertu d’une certaine conception du monde. Ils sont biaisés, ce n’est une nouvelle pour personne, mais à la lecture de Pablo Jensen on comprend qu’ils le sont de façon bien plus subtile qu’on ne pourrait le croire, surtout lorsqu’on pense être informé et bien conscient de l’existence – de l’existence inévitable – d’un biais. Sans entrer dans le détail de la démonstration, disons que la différence entre une corrélation et une relation causale n’est que la partie émergée de l’iceberg, et que cet écueil, bien connu du public, est loin d’être le seul à prendre en considération » analyse Santiago Artozqui.

Ainsi, on le voit, les évolutions de notre monde nous invitent à poursuivre une réflexion qui ne date pas des Big data et qui avait déjà accompagné les travaux sur « l’homme moyen » d’Adolphe Quétet comme le signale Santiago Artozqui. Pour les médecins, comme pour tous ceux qui veulent œuvrer pour une société en meilleure santé, elle est sans doute salutaire.

On pourra s’y initier, avant de lire Pablo Jensen, en découvrant les analyses de :

Hubert Guillaud : http://internetactu.blog.lemonde.fr/2018/04/21/pourquoi-la-societe-ne-se-laisse-pas-mettre-en-equations/

Et Santiago Artozqui : https://www.en-attendant-nadeau.fr/2018/06/16/societe-equations-jensen/

Aurélie Haroche

Copyright © http://www.jim.fr

Réagir

Vos réactions

Soyez le premier à réagir !

Les réactions aux articles sont réservées aux professionnels de santé inscrits
Elles ne seront publiées sur le site qu’après modération par la rédaction (avec un délai de quelques heures à 48 heures). Sauf exception, les réactions sont publiées avec la signature de leur auteur.

Réagir à cet article