Partenaires

CNRS
UPS



Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > À la une > Interactions entre cultures et les personnalités les plus influentes sur Wikipédia en 24 langues - Interactions of cultures and top people of Wikipedia in 24 language editions

Interactions entre cultures et les personnalités les plus influentes sur Wikipédia en 24 langues - Interactions of cultures and top people of Wikipedia in 24 language editions

par Clément Sire - 5 février 2015

Toutes les versions de cet article : English , français

L’encyclopédie en ligne Wikipédia regroupe un pan extraordinaire de la connaissance humaine, qui peut être exploité afin d’étudier les relations entre cultures. Dans cette optique, deux scientifiques du LPT (Young-Ho Eom, postdoctorant, et Dima Shepelyansky, Directeur de Recherche au CNRS), et leurs collaborateurs à Barcelone et Milan, ont appliqué des méthodes adaptées à l’analyse des réseaux complexes au réseau formé par les hyperliens entre les pages de Wikipédia en 24 langues. Ils ont ainsi classé les articles par « importance/influence » au moyen des algorithmes PageRank de Google, 2DRank, et CheiRank (ces deux derniers, largement développés au LPT).

Après avoir procédé à une extraction automatique des noms propres mentionnés (et de leur date et lieu de naissance) dans Wikipédia, ils ont obtenu la liste des personnes les plus « influentes » pour chacune des 24 éditions de l’encyclopédie, et selon chacun des trois algorithmes. Ils ont pu ainsi analyser la distribution géographique, temporelle, homme/femme, de ces personnalités, en lien avec leur culture d’origine. Cette étude établit non seulement l’existence d’un biais naturel favorisant les personnalités de la culture locale (associée à une langue donnée de Wikipédia), mais révèle aussi un groupe de personnalités ayant une influence véritablement globale. Les chercheurs ont conduit une analyse portant sur des personnes balayant une période de 35 siècles de l’histoire humaine, d’origine et de culture extraordinairement variées, qui leur ont permis de reconstruire les interactions et « l’intrication » de ces cultures au cours du temps. En considérant les personnes apparaissant dans de multiples éditions locales de Wikipédia, les chercheurs ont pu construire un réseau complexe reliant les différentes cultures, ce qui leur a permis de quantifier objectivement le degré d’influence de celles-ci.

PNG - 22.1 ko

L’approche utilisée autorise l’analyse des interactions entre cultures, en se basant sur des critères purement mathématiques et statistiques, et en s’affranchissant donc des biais culturels qu’auraient pu a priori rencontrer les auteurs de l’étude. À noter que les trois algorithmes mentionnés plus haut ont des liens intimes et formels avec la physique d’électrons se déplaçant dans un matériau désordonné (voir le post-scriptum ci-dessous), ce qui avait initialement motivé (dès 2009) le groupe Cohérence Quantique (Quantware) du LPT à s’investir dans les recherches sur les réseaux complexes, et notamment les réseaux issus de sociétés humaines (voir par exemple le communiqué de presse du CNRS d’avril 2012, sur des travaux réalisés au LPT concernant le réseau des positions du jeu de go).

La liste globale obtenue des 100 personnes les plus influentes reproduit 43 % de la liste historique de Hart, et peut être consultée sur la page web du groupe Quantware dédiée à ce travail, avec des cartes interactives de la distribution de ces personnes dans le monde (voir aussi l’article original). Par exemple, pour Wikipédia en français, le trio de tête des personnalités françaises les plus influentes sont : Napoléon, Louis XIV, René Descartes (PageRank) ; Napoléon, Jules Verne, Louis XIV (2DRank). Pour Wikipédia en anglais, les personnalités de langues anglaises les plus influentes sont William Shakespeare, Elizabeth II, Isaac Newton (PageRank), mais Napoléon domine le classement global en langue anglaise ! Globalement, les huit personnalités les plus influentes selon le PageRank sont Carl von Linné, Jésus, Aristote, Napoléon, Adolf Hitler, Jules César, Platon, William Shakespeare, et Albert Einstein. La position a priori étonnante du naturaliste suédois Carl von Linné (respectivement classé 2ième et 3ième par le PageRank dans la version française et anglaise) tient à son rôle de fondateur des bases du système moderne de la nomenclature binominale (et du classement) des espèces vivantes, et au très grand nombre d’articles de Wikipédia consacrées à celles-ci

Référence : Y.-H. Eom (postdoc LPT), P. Aragon (Barcelona), D. Laniado (Barcelona), A. Kaltenbrunner (Barcelona), S. Vigna (Milano), and D. L. Shepelyansky (LPT), Interactions of cultures and top people of Wikipedia from ranking of 24 language editions, PLoS ONE 10(3) : e0114825 (2015) (lien vers l’article téléchargeable gratuitement)

Post-scriptum :

  • Dima Shepelyansky (LPT) est le porteur du contrat européen (impliquant 4 centres européens dont le LPT) FET Open project New tools and algorithms for directed network analysis (NADINE) qui a en partie financé cette étude.
  • Les algorithmes de classement (Rank) : les trois algorithmes PageRank, CheiRank, et 2DRank mentionnés dans le texte permettent de quantifier l’impact d’un nœud d’un réseau complexe quelconque. Partant initialement d’un nœud arbitraire, on se déplace ensuite aléatoirement sur le réseau (d’où le lien étroit avec la physique d’une particule quantique dans un milieu/réseau désordonné) en explorant au hasard ses liens, à chaque pas de temps, tout en s’autorisant aussi parfois à sauter sur n’importe quel autre nœud du réseau (avec une faible probabilité), afin de ne pas rester bloqué sur un nœud sans lien de sortie. Le degré d’influence d’un nœud est alors défini comme étant le pourcentage du temps passé sur ce nœud, qui converge après un très grand nombre de sauts. Dans le contexte de Wikipédia, cela correspondrait à un internaute curieux (et patient ! Il existe environ 1,5 millions de pages, rien que sur l’édition française) qui suivrait un lien sortant au hasard par page, et appuierait avec une faible probabilité sur le bouton « Article au hasard » offert par l’encyclopédie (et qui répéterait ces opérations des milliards de fois !). Au final, cet impact n’est pas simplement conditionné par le nombre de liens sortants ou entrants d’un nœud, mais aussi par l’influence des nœuds auxquels il est connecté, et plus généralement, par la structure globale du réseau. Les trois algorithmes se distinguent par le fait que les sauts autorisés entre nœuds ne peuvent se faire que dans la direction des liens sortants (PageRank) du réseau étudié, ou au contraire, en remontant uniquement les liens entrants (CheiRank), ou encore en combinant les informations données par les deux algorithmes (2DRank). Voir la page... Wikipédia (en anglais) sur le CheiRank.