Le jury international et indépendant, nommé par la Fondation Roi Baudouin, a choisi le travail révolutionnaire sur le False Discovery Rate (FDR) comme lauréat du prestigieux Prix biennal Rousseeuw de Statistique 2024. Ce prix d’un million de dollars récompense une recherche statistique exceptionnelle ayant un impact profond sur la société. La première édition en 2022 a honoré le travail sur l’inférence causale (la détermination de la cause et de l’effet). Le prix de cette année se concentre sur le False Discovery Rate (FDR) et les méthodes pour le contrôler. L’article de 1995 de Benjamini et Hochberg a introduit le FDR et a offert un cadre pour des développements et publications ultérieurs. Les lauréats du prix sont Yoav Benjamini, Daniel Yekutieli et Ruth Heller de l’Université de Tel Aviv. Yosef Hochberg mérite également beaucoup de reconnaissance, mais il est malheureusement décédé. Leur recherche a conduit à une méthode pour limiter le nombre de fausses découvertes sans étouffer le potentiel de vraies découvertes.
Le travail primé est une méthode qui aide les scientifiques à trouver de véritables découvertes tout en maintenant le nombre de fausses découvertes (False Discoveries) à un niveau bas. Qui n’a jamais lu un article sur une nouvelle découverte scientifique, pour ne plus jamais en entendre parler par la suite ? C’est généralement parce que des expériences ultérieures n’ont pas pu reproduire l’effet. Cela est appelé la crise de la reproductibilité en science. Une cause importante est que les chercheurs originaux avaient revendiqué des découvertes en se basant sur l’examen d’un très grand nombre de résultats. Par exemple, lorsqu’on recherche un marqueur génétique, c’est-à-dire un gène associé à une maladie particulière, on examine souvent plus de 20 000 gènes. Mais il peut arriver qu’un lien apparent soit simplement dû au hasard. Il fallait donc une méthode pour limiter le nombre de ces fausses découvertes.
Lorsque vous examinez de nombreux résultats potentiels, vous avez plus de chances de trouver des fausses découvertes. Une première approche consistait à être plus strict pour chaque gène individuel, mais comme conséquence, très peu de découvertes étaient faites. Les scientifiques se trouvaient souvent face à deux choix désagréables : soit ne rapporter aucune découverte, soit publier des affirmations scientifiques peu fiables.
En quête d’une solution, Benjamini et Hochberg ont réalisé que le rapport entre le nombre de fausses découvertes et le nombre total de découvertes pouvait être utilisé comme critère. Si une étude trouve 60 résultats et que parmi eux, il y a 3 fausses découvertes, ce n’est pas si grave, car le rapport n’est que de 5 %. Mais rapporter 60 résultats dont 40 sont faux n’est pas acceptable. Benjamini et Hochberg ont publié en 1995 une formulation mathématique du critère du False Discovery Rate (FDR), comme le rapport attendu entre le nombre de fausses découvertes et le nombre total de découvertes. Ils ont proposé de maximiser le nombre de découvertes à condition que le FDR reste en dessous d’une certaine valeur seuil. À première vue, cela semble impossible car nous ne savons pas à l’avance combien de fausses découvertes seront mise à jour, mais ils ont trouvé un moyen de le faire. Dans la procédure Benjamini-Hochberg (BH), le seuil pour une découverte s’ajuste automatiquement aux informations contenues dans les données. Il dépend donc des données elles-mêmes si le seuil final est plutôt élevé ou bas. L’article de Benjamini et Hochberg a rencontré beaucoup de résistance car il différait fortement des méthodes précédentes, ce qui a conduit à un délai de cinq ans et à des soumissions à trois revues avant qu’il ne soit finalement publié en 1995. L’article de Benjamini et Hochberg a été cité plus de 100 000 fois à ce jour, un nombre record.
Le travail sur le FDR a été poursuivi par Benjamini avec les deux autres lauréats, Yekutieli et Heller. Ensemble, ils ont obtenu des résultats théoriques sur le comportement de la procédure BH, ont appliqué le critère FDR à de nouveaux défis tels que l’analyse d’images, et ont proposé de nouvelles techniques pour estimer la reproductibilité des résultats scientifiques.
Au début du 21e siècle, la recherche scientifique a connu une révolution industrielle. Les expériences en génomique, protéomique et recherche sur le cerveau sont désormais réalisées avec des machines qui produisent beaucoup de résultats. Ces résultats sont ensuite traités automatiquement, ce qui conduit à de nombreuses découvertes potentielles. Maintenant que des ordinateurs puissants et de grandes bases de données sont disponibles, le FDR est de plus en plus utilisé dans d’autres domaines scientifiques tels que l’agriculture, l’astronomie, les sciences du comportement ou l’économie. La procédure FDR a trouvé une large application et l’importance de la recherche sur le FDR augmente avec la complexité des questions scientifiques posées.
La procédure FDR est très pertinente dans différentes branches de la statistique et d’autres domaines scientifiques, et de nombreux statisticiens dans le monde entier y font des recherches. Les trois lauréats ont poursuivi ce travail, ensemble, séparément et avec d’autres, pour aider la communauté scientifique à extraire des informations fiables à partir de données complexes. Plus d’informations sur ce prix sont disponibles sur le site www.rousseeuwprize.org.