Du big data et de l’info sont dans un bateau

Le 27/11/2012

Des chercheurs de l'université de Bristol et de l'école de journalisme de l'université de Cardiff ont utilisé des algorithmes basés sur l'intelligence artificielle afin d'analyser 2,5 millions d'articles tirés de 498 médias en ligne en anglais pendant 10 mois. Si les conclusions de cette étude [pdf] très "big data" enfoncent un peu des portes ouvertes, l'initiative est à saluer : on peut se réjouir que la science confirme l'intuition, l'observation et les analyses de ceux qui pratiquent le métier au quotidien.

- Comme attendu, les mesures de lisibilité montrent que les tabloids en ligne sont plus lisibles que les journaux sérieux, et utilisent un langage plus sentimental et affecté. Parmi 15 journaux anglais et états-uniens, The Sun est le plus facile à lire, au niveau des programmes d'actu pour enfants de la BBC (Newsround), tandis que The Guardian est le plus difficile à lire. Au niveau des catégories, ce sont les sports et la culture qui sont le plus aisés à parcourir - à l'inverse de la politique et de l'environnement.

- The Sun est également celui qui utilise le plus volontiers des adjectifs emprunts de sensiblerie, alors que The Wall Street Journal utilise le moins d'adjectifs liés à l'émotion (il n'est malheureusement pas évoqué ici le cas de Forbes qui fait aujourd'hui appel à des "robots" pour rédiger certaines "histoires" financières).

- L'étude a également déterminé que le genre masculin domine l'information. Le classement des catégories basé sur le biais du genre au sein des articles montre que le sport et la finance sont les plus partiaux, notamment au niveau des informations sportives qui mentionnent les hommes huit fois plus souvent que les femmes. La mode et la culture sont les moins partiaux, la mode étant l'un des rares domaines qui mentionnent les hommes et les femmes à part égale.

- Les sujets les plus "attirants" pour les lecteurs en ligne dont les catastrophes, les crimes et l'environnement tandis que les moins "sexy" sont la mode (une bonne droite en passant pour certains préjugés) et la finance. C'est ici le point le plus intéressant de cette litanie d'observation : en se classant parmi les sujets favoris des lecteurs - alors que considéré comme l'un des plus difficiles à appréhender - l'environnement redonne un peu de noblesse au genre humain.

Les chercheurs ont enfin déterminé que les articles populaires tendent à être plus lisibles. Une bien belle leçon de pragmatisme et de courage. Et un espoir que l'intelligence "naturelle" vaut encore quelque chose face à l'intelligence artificielle.

[Adapté du billet "Scientists Analyse Millions of News Articles" sur le site de l'université de Bristol.]


Graphique issu dudit site. Image de clé : photo CC-bynccd MarcelGermain.