Menu

12. Les bases du data-journalisme

A l’instar de la vérification des faits (fact-checking), le journalisme de données (ou datajournalisme) est l’une des pratiques qui a émergé en même temps que les rédactions web se sont développées depuis le milieu des années 2000. Elle a permis d’exploiter la profusion des données désormais disponibles en ligne sur tous les sujets.

Petit historique du datajournalisme

Si l’on parle beaucoup du datajournalisme depuis une dizaine d’années, c’est loin d’être une pratique récente. Les exemples les plus anciens datent du milieu du XIXème siècle. Déjà en 1858, la journaliste et infirmière Florence Nightingale publiait les données de mortalité des soldats anglais lors de la guerre de Crimée.

Ce qui a changé depuis, c’est l’apparition des ordinateurs et la démocratisation de la donnée publique. Chaque journaliste a entre ses mains à la fois un outil qui lui permet d’effectuer des calculs et des recherches de manière extrêmement efficace et de traiter une quantité astronomique de données. Ne reste plus qu’à se mettre les mains dans le cambouis (virtuel bien sûr).

Qu’est-ce qu’une donnée

Souvent lorsqu’on parle de datajournalisme, on pense taux de chômage. Et c’est normal, c’est probablement le graphique que l’on voit le plus souvent dans les journaux. Mais attention, une donnée et une statistique ce n’est pas la même chose. Le taux de chômage en France est par exemple issu de données de Pôle Emploi mais ensuite retravaillé selon des formules particulières par les statisticiens de l’Insee.

Une donnée c’est un élément précis, unique, défini. Elle peut être de quatre types :

  • une donnée peut être du texte : votre prénom est une donnée
  • une donnée peut être un nombre : votre âge est une donnée
  • une donnée pour être quelque chose de vrai ou de faux, dans le milieu on appelle ça un boolean : est-ce que vous êtes français ? Oui ? Non ? La réponse est une donnée.
  • une donnée peut être un amas de plusieurs autres données, on parle alors d’une array : “Clément, 18, Non” c’est une array avec une donnée texte, une donnée nombre et une donnée boolean.

Tableurs et tableaux croisés dynamiques

Au delà de la théorie, le datajournalisme, c’est surtout prendre en main un logiciel que vous connaissez sûrement mais qui fait souvent peur : Excel (ou tout autre type de tableur). C’est l’outil par excellence pour faire du datajournalisme. Si vous apprenez un peu à l’utiliser il vous permettra de faire des calculs très complexes très facilement, de calculer des moyennes, de compter un nombre d’occurrences, des recherches certaines parties de texte, etc.

Si vous vous penchez un peu sur la matière, vous pourrez vous lancer dans les tableaux croisés dynamiques (ce n’est pas si compliqué, on vous promet). Grâce à cet outil vous pourrez trier d’énormes bases de données de plusieurs milliers de lignes et de colonnes pour en tirer la substantifique moelle qui alimentera vos enquêtes.

Et si vraiment vous voulez pousser encore un peu plus, c’est OpenRefine qui sera votre allié. Avec lui vous pourrez naviguer dans des millions de cases en un clin d’oeil.