Méthodologie – La Vox Populi mobilise intelligence artificielle et intelligence humaine en toute transparence

Nous pouvons recueillir, retranscrire et synthétiser quelques avis lors d’une réunion dont le déroulé est déjà cadré et la participation restreinte. Mais comment faire de même avec des dizaines, des centaines, des milliers de pages d’opinions résultant d’une consultation ouverte ?

Au-delà : comment objectiver et traduire les idées sans biais ? Comment faire émerger du sens depuis la complexité d’avis individuels agrégés sans les trahir ? Comment restituer le plus fidèlement possible des valeurs, des opinions, des vues subjectives et des signalements objectifs ?

Nous vous dévoilons dans cet article les partis pris de La Vox Populi.

Une méthodologie rigoureuse et fiable

La solution réside dans le traitement semi-automatique du langage : des applications qui permettent une approche quantitative et qualitative des contenus textuels.

« Semi-automatique » signifie l’alliance entre IA (intelligence artificielle, plus modestement des algorithmes de traitement de données) et IH (intelligence humaine). Dans cette méthode de traitement de données textuelles massives, l’humain n’est jamais absent ni des choix de la meilleure modélisation statistique d’un texte (en fonction de sa problématique) ni des étapes de validation des résultats, de sélection des verbatims les plus représentatifs et bien sûr de formalisation des synthèses. Mais ce travail humain est réalisé sur des bases objectives, traçables, réplicables : il ne doit jamais forcer, orienter ou appauvrir le sens d’un texte, mais le restituer le plus fidèlement possible.

Parmi les outils conceptuels mobilisés pour le traitement semi-automatique du langage par La Vox Populi :

  • la lexicométrie descriptive comptabilise de manière stricte et complète les substantifs, adjectifs, verbes, syntagmes, entités nommées (noms propres) et expressions remarquables présents dans un volume de texte ;
  • les graphes sémantiques et cartes cognitives permettent de représenter des concepts formant des noyaux de sens et de préciser les liens entre ces concepts dans un texte, cela à partir d’algorithmes n’impliquant aucun un cadre de sens « pré-imposé » par l’analyste (la structure profonde du texte s’exprime par la fréquence relative des concepts et l’intensité relative de leurs associations) ;
  • les thésaurus thématiques et des patrons sémantiques, construits de manière transparente selon les sujets abordés dans une consultation, permettent de rassembler les expressions d’un ensemble de texte en catégories complètes, cohérentes et explicites, pour pondérer leur importance ;
  • les analyses factorielles permettent de comparer des ensembles de textes (par exemple, différentes parties prenantes d’une consultation) pour calculer leur proximité ou distance selon leur fréquence d’usage de mots, d’expressions et d’univers de sens, mais aussi de toutes autres variables qualitatives ou quantitatives à condition d’en disposer lors du recueil des avis (par exemple, voir si des avis de citoyens divergent par le genre, l’âge, le revenu, le lieu de résidence, etc.) ;
  • l’apprentissage supervisé, réservé aux corpus très importants, permet de catégoriser des contenus complexes et de prédire leurs attributs (par exemple, sont-ils pour ou contre une idée, ont-ils une tonalité positive ou négative, etc.) en minimisant les taux d’erreur sur des grands nombres ;
  • l’extraction des verbatims représentatifs donnant corps aux univers de sens qui ont été dégagés.

Dans chaque enquête menée, nous garantissons au donneur d’ordre (et au public) une triple transparence :

  • transparence des données
  • transparence des méthodes
  • transparence des résultats

Nous pouvons également accompagner le donneur d’ordre dans la réflexion préalable à sa consultation publique. En effet, la bonne connaissance des outils de traitement du langage permet au décideur de comprendre le champ des possibles, donc de mieux organiser son recueil de données à partir desquelles l’analyse sera faite : ne pas se priver de questions ouvertes dont l’étude sera désormais possible au même titre que des questions fermées, envisager toutes les variables d’intérêt pour la décision, que l’on pourra corréler aux contenus de thèmes et d’opinion, etc. La bonne structuration des recueils de données au départ garantit la pleine restitution des contenus à l’arrivée : on y gagne en précision, en intelligence, en transparence.

La data-analyse est un outil qui peut révolutionner les échanges et débats démocratiques.  Pour l’utiliser pleinement, il faut connaître les forces et faiblesses des données, afin que leur collecte, analyse et restitution soient irréprochables et correspondent aux attentes du public : être entendu, être compris.

Aperçu sur nos technos et nos outils

Les technologies utilisées appartiennent à l’éco-système Python. Elles bénéficient à ce titre d’une large bibliothèque spécialisée dans le traitement automatique du langage (TAL) que nous utilisons de manière très pragmatique en vue d’obtenir des résultats tangibles à partir du traitement ciblé de gros volumes de données textuelles.

Deux opérations distinctes pour l’analyse du Grand Débat National

Une analyse des données collectées. Elle consiste dans le relevé et l’organisation raisonnées de données structurées massives (plusieurs Go d’informations) présentes dans les fichiers CSV remis par le gouvernement :

  • nombre de réponses par thématique, par question, par zone géographique (codes postaux),
  • nombre de répondants par thématique, par question, par zone géographique,
  • data texte par thématique, par question, par zone géographique.

Une analyse sémantique semi-automatique. Cette analyse comporte elle-même deux phases.

  • Une phase « IA ». Nos algorithmes réalisent un parsing des corpus collectés, c’est-à-dire une méta-lecture consistant en une analyse morpho-syntaxique préalable à la lemmatisation du texte (identification des flexions des mots présents dans le texte des réponses). Puis une pré-attribution de valeurs sémantiques (polarité, intensité, axiologie ou encore sentiments) est réalisée par la machine à partir de ressources linguistiques issues des enseignements d’analyses supervisées passées.
  • Une phase « IH » (intelligence humaine). Les opérations de méta-lecture effectuées, le repérage puis l’analyse en contexte des mots et syntagmes d’intérêt est effectuée par nos data analystes qui déterminent de manière objectivée les signaux forts et faibles des corpus en matière de thématiques et de sens, cela depuis une interface utilisateurs aux fonctionnalités adaptées à leurs besoins de catégorisation et d’attribution.

Notre stratégie technique

Pour accélérer le temps de calcul de l’analyse des données massives, nous avons défini autant de modèles de données que de type de recherche (par exemple, comptage du nombre de réponses par codes postaux).

Pour cela, nous avons utilisé un outil de base de données capable d’effectuer des requêtes spécifiques afin d’isoler des petits groupes de données exploitables. Par exemple, isoler la question Qx de la thématique Tx dans la ville Vx.

Nous sommes ainsi en capacité d’échantillonner les données massives du Grand Débat National pour pouvoir intervenir de manière sémantiquement fiable sur un échantillon précis.

Nous obtenons cette précision en procédant à la tokénisation des réponses ; plus cette tokénisation sera « propre », plus l’analyse sera facilitée et efficace. En d’autres termes, nous découpons les corpus en fragments les plus adaptés pour une analyse pertinente des réponses, à savoir les phrases telles qu’elles ont été rédigées par les répondants. Chaque réponse est ainsi structurée par des séries de phrases, ou des listes selon la nature de la question posée.

Notre outil d’analyse sémantique, Opinion Miner®

Notre outil est construit comme une boite à outils pouvant s’adresser à plusieurs types d’utilisateurs :

  • les non-spécialistes (consultants, journalistes, personnes en responsabilité, simple citoyen…) qui peuvent disposer d’une interface utilisateur conviviale pour consulter les données de leur choix mises à leur disposition ;
  • les spécialistes (data analystes) qui peuvent construire eux-mêmes, élaborer les ressources linguistiques et les patrons sémantiques utiles à leur analyse ;
  • les développeurs qui peuvent recomposer les briques de notre outil en fonction de leurs besoins (ce que nous avons fait pour analyser le Grand Débat National) ;
  • des développeur-tiers qui peuvent se « brancher » sur notre API REST et exploiter directement tout ou partie des fonctionnalités de notre outil sans passer par l’interface utilisateur pour les utiliser eux-mêmes dans l’outil de leur choix.

Révélation #4 – Les habitants des villes « macronistes » ont plus contribué au Grand Débat que les autres

Les 22 grandes villes « cœur de métropole » ont davantage participé au Grand Débat que le reste de la population. Nous comparons ici le niveau de participation de chacune de ces métropoles avec le vote Macron au second tour de l’élection de 2017. Résultat : sur ce collège des grandes villes, la « sensibilité macroniste » a plutôt été un prédicteur de participation.

Dans une précédente étude, la Vox Populi avait montré que les grandes villes avaient davantage participé que le reste de la population en proportion de leur démographie (+5 points) et qu’au sein des villes, certaines étaient plus engagées que d’autres.

Nous avons repris cette dernière statistique (niveau relatif de participation de chaque ville) pour la comparer avec le classement des villes selon le vote du second tour de l’élection présidentielle de 2017.

Tableau 1. Les 22 grandes villes classées selon l’importance du vote Macron au second tour de 2017 (à gauche) comparé au niveau relatif de participation de ces villes par rapport à leur population (à droite). Les niveaux de bleu et de rouge sont des incréments indiquant la force de la sur- ou de la sous-participation.

Le gradient de couleur fait apparaître que les villes très participantes au Grand Débat (bleu clair à foncé) ont voté davantage pour E. macron que les villes moins participantes (rouge clair à foncé).

Une régression linéaire simple est une autre manière d’observer ce lien positif :

Graphique 1. Régression linéaire (droite grise de meilleure approximation) entre le vote Macron (variable explicative, abscisses) et le niveau participation des métropoles (ordonnées). La corrélation positive (r2 à 0,355) suggère un lien. Une analyse étendue à toutes les communes selon leur vote 2017 permettrait d’affiner le modèle et de contrôler la robustesse du lien observé ici sur l’échantillon des 22 plus grandes villes de France.

Ces résultats préliminaires suggèrent que le format du Grand Débat dans sa plateforme nationale de recueil d’opinion a pu davantage intéresser, motiver ou engager des populations favorables à la présidence d’Emmanuel Macron. Ces données pourraient être approfondies par les politologues à travers une analyse sur l’ensemble des codes postaux en fonction des préférences partisanes exprimées lors des élections de 2017.

Ces observations amènent à relativiser la représentativité des résultats de la seule plateforme « centrale » du Grand Débat national : les Français ont voulu exprimer leurs opinions, mais tous ne l’ont pas forcément fait à travers le canal numérique proposé par le gouvernement.

La vie démocratique vous intéresse ? Restez connectés à La Vox Populi !

Méthodologie Ces premiers résultats sont donnés à partir des données brutes du GDN tels qu’elles étaient mises à disposition par l’API gouvernementale le 21-03-2019 après clôture des débats (https://granddebat.fr/pages/donnees-ouvertes). L’équipe de La Vox Populi a observé certaines réponses manquantes et les a signalées. Néanmoins, ces résultats sont représentatifs de plus de 95% des contenus. Pour obtenir le nombre de contributions, nous avons additionné le nombre total de réponses présentes dans les fichiers CSV mis à disposition sur le site du GDN (https://granddebat.fr/pages/donnees-ouvertes) pour les quatre thèmes. Pour obtenir le nombre de contributeurs total, nous avons comptabilisé le nombre d’occurrences uniques présentes dans la colonne « authorId » dans l’ensemble des fichiers CSV.

Révélation #3 – Les habitants des grandes villes, Paris en tête, ont davantage contribué sur le web que le reste de la population

L’analyse de la participation des 22 grandes villes « cœur de métropole » révèle que si elles représentent 11% de la population française, elles totalisent plus de 16% des interventions au Grand Débat. Par ailleurs, des villes comme Bordeaux, Nantes, Toulouse, Lyon et surtout Paris ont eu une participation prononcée, quand Brest, Lille, Nice, St Etienne, Strasbourg, Toulon ou Marseille sont restées en retrait.

La géolocalisation des réponses du Grand Débat national (GDN) permet d’analyser leur distribution spatiale, et ainsi de comparer, par exemple, les taux de participation des villes « cœur de métropole » entre elles, d’une part, et avec le reste de la France, d’autre part.

En France, 22 agglomérations urbaines sont considérées administrativement comme des métropoles (ou à statut assimilé).

Les grandes villes au cœur de ces métropoles totalisent 7,4 millions d’habitants, soit 11,01% de la population française.

Au total (données disponibles sur l’API gouvernementale au 21.03.2019), ces grandes villes ont apporté 1 187 039 réponses au GDN, soit 16,61 % des réponses.

Tableau 1 : comparaison des taux de participation avec la démographie des zones ciblées.

On constate que les 22 grandes villes sont légèrement sur-représentées dans les réponses au GrandDébat national, avec un différentiel de 5,5 points entre leur taux de réponse et leur population respective.

Le tableau ci-dessous montre le nombre de réponses de chaque ville cœur de métropole par grand thème. Le pourcentage indique la part de chaque ville par rapport aux autres (par exemple les réponses de Bordeaux au thème Fiscalité représentent 4,24% des réponses totales des 22 grandes villes françaises).

Tableau 2 : nombre de réponses par thème selon les villes-métropoles (et taux de réponse au sein du collège des métropoles).

Tous thèmes confondus, voici la part de chaque ville dans les réponses de l’ensemble des 22 grandes agglomérations :

Tableau 3 : tous thèmes confondus, part des réponses de chaque métropole dans le collège des métropoles.

Paris, Lyon, Toulouse, Marseille et Nantes forment le top 5 des villes répondantes.

Pour aller plus loin dans l’interprétation, il nous a semblé intéressant de comparer le taux de réponse de chaque ville (au sein du collège des grandes villes) avec son poids démographique (au sein de ce même collège).

Si les villes ont répondu en proportion de leur nombre d’habitants, le décalage est proche ou égal à zéro. S’il existe un décalage, cela indique une sur-participation (décalage positif) ou une sous-participation (décalage négatif) par rapport au poids démographique de la ville.

Voici le résultat :

Tableau 4 : différentiel entre le taux de réponse au GDN et la part de population de chaque ville. En bleu des sur-participations, en rouge des sous-participations.

De manière intéressante, on voit apparaître trois collèges

  • des villes qui ont à peu près participé au Grand Débat comme on l’attendait (±0,5% de différentiel entre réponses et populations) : Clermont-Ferrand, Dijon, Grenoble, Metz, Montpellier, Nancy, Orléans, Rennes, Rouen, Tours
  • des villes qui ont sous-participé au Grand Débat (décalage supérieur ou égal à -0,5%) : Marseille, Brest, Lille, Nice, St Etienne, Strasbourg, Toulon
  • des villes qui ont sur-participé au Grand Débat (décalage supérieur ou égal +0,5%) : Bordeaux, Lyon, Nantes, Paris, Toulouse

La forte participation de Paris, ville « riche » du Nord, et la faible participation de Marseille, ville « pauvre » du Sud, est tout un symbole. Au sein du collège des métropoles, ce sont plutôt des villes dynamiques, aisées et à forte démographie qui ont pleinement joué le jeu du Grand Débat ; d’autres plus périphériques ou moins dynamiques sont restées plus en retrait.

Nous reviendrons dans une prochaine étude sur l’analyse politique de la participation des métropoles en comparaison du vote à l’élection présidentielle de 2017.

Au cours de ces prochaines semaines, nous analyserons quelques éléments remarquables des réponses aux questions du Grand Débat national.

Si la vie démocratique vous intéresse, restez connectés à La Vox Populi !

Méthodologie Ces premiers résultats sont donnés à partir des données brutes du GDN tels qu’elles étaient mises à disposition par l’API gouvernementale le 21-03-2019 après clôture des débats (https://granddebat.fr/pages/donnees-ouvertes). L’équipe de La Vox Populi a observé certaines réponses manquantes et les a signalées. Néanmoins, ces résultats sont représentatifs de plus de 95% des contenus. Pour obtenir le nombre de contributions, nous avons additionné le nombre total de réponses présentes dans les fichiers CSV mis à disposition sur le site du GDN (https://granddebat.fr/pages/donnees-ouvertes) pour les quatre thèmes. Pour obtenir le nombre de contributeurs total, nous avons comptabilisé le nombre d’occurrences uniques présentes dans la colonne « authorId » dans l’ensemble des fichiers CSV.

Révélation #2 – Le top 20 des questions qui ont motivé les citoyens

20 questions du Grand Débat ont motivé davantage les citoyens et appelé plus de 100 000 réponses chacune. Fait remarquable : elles se situent toutes dans les thèmes fiscalité (8/20) et écologie (12/20).

Du côté de la fiscalité, c’est la limitation des dépenses sociales (place n°1), la justice et l’efficacité des impôts (n°2), la baisse de ces impôts (n°4) qui ont sollicité le plus de réponses.

Du côté de l’écologie, c’est la définition des problèmes concrets (n°3), la capacité à agir individuellement (n°5) ainsi que l’impact du climat sur le quotidien (n°6) qui ont rencontré la plus forte mobilisation.

Top 20 des questions au plus grand nombre de réponses
(plus de 100 000 réponses)

Au cours de ces prochaines semaines, nous reviendrons régulièrement sur quelques contenus remarquables des réponses aux questions du Grand Débat national.

Si la vie démocratique vous intéresse, restez connectés à La Vox Populi !

La Vox Populi, révéler la parole des citoyens

Révélation #1 – Le thème leader est… la fiscalité !

La Vox Populi commence le décryptage des résultats du Grand Débat national. Première interrogation : quels thèmes ont davantage motivé les Français ? Le gagnant est la fiscalité. Rien d’étonnant pour un mouvement social né en réaction aux taxes sur les carburants et décrit par beaucoup d’observateurs comme une « révolte fiscale ».

Une fois inscrits avec un identifiant unique, les citoyens pouvaient répondre à tout ou partie des questions en ligne proposés par le gouvernement sur la plateforme du Grand Débat national et organisées autour de 4 grandes thématiques : l’organisation de l’Etat et des services publics ; la transition écologique ; la fiscalité et les dépenses publiques ; démocratie et citoyenneté.

Quels thèmes ont motivé les Français ?

La comptabilisation du nombre absolu de contributions (i.e réponse à une question ouverte ou à choix multiples ou encore fermée – oui/non) consacre le thème démocratie et citoyenneté, suivi par transition écologique, organisation de l’Etat et enfin fiscalité.

Mais cette répartition est trompeuse, car chaque thème comportait un nombre inégal de questions. Le thème démocratie et citoyenneté offrant un plus grand nombre de questions, arrive logiquement en tête en raison d’un total mécaniquement plus important de réponses.

Ce choix de poser davantage de questions sur certains thèmes était le fait du gouvernement, pas des citoyens.

Pour connaître le thème ayant réellement motivé le plus de réponses, il faut donc pondérer le nombre de total de réponses par le nombre total de questions. On arrive alors à ce classement :

La fiscalité est le thème qui a suscité le plus fort taux de participation, avec en moyenne 138 K réponses pour chacune de ses questions. Viennent ensuite la transition écologique (116 K/question), la démocratie (75 K/question) et l’organisation de l’Etat (43 K/question).

Ce premier résultat confirme que le Grand Débat matérialise une préoccupation majeure des Français : celle de la fiscalité, son caractère supportable et équitable.

Au cours de ces prochaines semaines, nous reviendrons régulièrement sur quelques contenus remarquables de chacun des thèmes du Grand Débat national.

Si la vie démocratique vous intéresse, restez connectés à La Vox Populi !

Méthodologie

Ces premiers résultats sont donnés à partir des données brutes du GDN tels qu’elles étaient mises à disposition par l’API gouvernementale le 21-03-2019 après clôture des débats (https://granddebat.fr/pages/donnees-ouvertes). L’équipe de La Vox Populi a observé certaines réponses manquantes et les a signalées. Néanmoins, ces résultats sont représentatifs de plus de 95% des contenus. Pour obtenir le nombre de contributions, nous avons additionné le nombre total de réponses présentes dans les fichiers CSV mis à disposition sur le site du GDN (https://granddebat.fr/pages/donnees-ouvertes) pour les quatre thèmes. Pour obtenir le nombre de contributeurs total, nous avons comptabilisé le nombre d’occurrences uniques présentes dans la colonne « authorId » dans l’ensemble des fichiers CSV.

La création d’un outil au service de la démocratie

L’idée de créer un outil indépendant d’analyse des contributions citoyennes est partie d’un constat simple : la concertation publique est une pratique aujourd’hui répandue, elle fait souvent appel à la collecte de contributions, or l’analyse de celles-ci est encore aujourd’hui peu outillée.

Le recours exclusif à des humains pour catégoriser et analyser les contributions est consommateur de ressources et laisse la place à la subjectivité. Nous avons donc souhaité mettre en place un outil qui fournit une analyse sémantique fiable, indépendante et objective des contributions citoyennes.

Derrière la création de cet outil se cachent des motivations profondes :

  • S’engager pour une démocratie plus transparente en restituant plus précisément et plus fidèlement l’expression citoyenne.
  • Contribuer à améliorer l’efficacité des politiques publiques en éclairant davantage la réflexion des dirigeants.
  • Innover en proposant une analyse inédite (et complémentaire des analyses réalisées par ailleurs) de la parole des citoyens recueillie dans le cadre des concertations locales ou nationales via les civic techs notamment.