Nous pouvons recueillir, retranscrire et synthétiser quelques avis lors d’une réunion dont le déroulé est déjà cadré et la participation restreinte. Mais comment faire de même avec des dizaines, des centaines, des milliers de pages d’opinions résultant d’une consultation ouverte ?
Au-delà : comment objectiver et traduire les idées sans biais ? Comment faire émerger du sens depuis la complexité d’avis individuels agrégés sans les trahir ? Comment restituer le plus fidèlement possible des valeurs, des opinions, des vues subjectives et des signalements objectifs ?
Nous vous dévoilons dans cet article les partis pris de La Vox Populi.
Une méthodologie rigoureuse et fiable
La solution réside dans le traitement semi-automatique du langage : des applications qui permettent une approche quantitative et qualitative des contenus textuels.
« Semi-automatique » signifie l’alliance entre IA (intelligence artificielle, plus modestement des algorithmes de traitement de données) et IH (intelligence humaine). Dans cette méthode de traitement de données textuelles massives, l’humain n’est jamais absent ni des choix de la meilleure modélisation statistique d’un texte (en fonction de sa problématique) ni des étapes de validation des résultats, de sélection des verbatims les plus représentatifs et bien sûr de formalisation des synthèses. Mais ce travail humain est réalisé sur des bases objectives, traçables, réplicables : il ne doit jamais forcer, orienter ou appauvrir le sens d’un texte, mais le restituer le plus fidèlement possible.
Parmi les outils conceptuels mobilisés pour le traitement semi-automatique du langage par La Vox Populi :
- la lexicométrie descriptive comptabilise de manière stricte et complète les substantifs, adjectifs, verbes, syntagmes, entités nommées (noms propres) et expressions remarquables présents dans un volume de texte ;
- les graphes sémantiques et cartes cognitives permettent de représenter des concepts formant des noyaux de sens et de préciser les liens entre ces concepts dans un texte, cela à partir d’algorithmes n’impliquant aucun un cadre de sens « pré-imposé » par l’analyste (la structure profonde du texte s’exprime par la fréquence relative des concepts et l’intensité relative de leurs associations) ;
- les thésaurus thématiques et des patrons sémantiques, construits de manière transparente selon les sujets abordés dans une consultation, permettent de rassembler les expressions d’un ensemble de texte en catégories complètes, cohérentes et explicites, pour pondérer leur importance ;
- les analyses factorielles permettent de comparer des ensembles de textes (par exemple, différentes parties prenantes d’une consultation) pour calculer leur proximité ou distance selon leur fréquence d’usage de mots, d’expressions et d’univers de sens, mais aussi de toutes autres variables qualitatives ou quantitatives à condition d’en disposer lors du recueil des avis (par exemple, voir si des avis de citoyens divergent par le genre, l’âge, le revenu, le lieu de résidence, etc.) ;
- l’apprentissage supervisé, réservé aux corpus très importants, permet de catégoriser des contenus complexes et de prédire leurs attributs (par exemple, sont-ils pour ou contre une idée, ont-ils une tonalité positive ou négative, etc.) en minimisant les taux d’erreur sur des grands nombres ;
- l’extraction des verbatims représentatifs donnant corps aux univers de sens qui ont été dégagés.
Dans chaque enquête menée, nous garantissons au donneur d’ordre (et au public) une triple transparence :
- transparence des données
- transparence des méthodes
- transparence des résultats
Nous pouvons également accompagner le donneur d’ordre dans la réflexion préalable à sa consultation publique. En effet, la bonne connaissance des outils de traitement du langage permet au décideur de comprendre le champ des possibles, donc de mieux organiser son recueil de données à partir desquelles l’analyse sera faite : ne pas se priver de questions ouvertes dont l’étude sera désormais possible au même titre que des questions fermées, envisager toutes les variables d’intérêt pour la décision, que l’on pourra corréler aux contenus de thèmes et d’opinion, etc. La bonne structuration des recueils de données au départ garantit la pleine restitution des contenus à l’arrivée : on y gagne en précision, en intelligence, en transparence.
La data-analyse est un outil qui peut révolutionner les échanges et débats démocratiques. Pour l’utiliser pleinement, il faut connaître les forces et faiblesses des données, afin que leur collecte, analyse et restitution soient irréprochables et correspondent aux attentes du public : être entendu, être compris.
Aperçu sur nos technos et nos outils
Les technologies utilisées appartiennent à l’éco-système Python. Elles bénéficient à ce titre d’une large bibliothèque spécialisée dans le traitement automatique du langage (TAL) que nous utilisons de manière très pragmatique en vue d’obtenir des résultats tangibles à partir du traitement ciblé de gros volumes de données textuelles.
Deux opérations distinctes pour l’analyse du Grand Débat National
Une analyse des données collectées. Elle consiste dans le relevé et l’organisation raisonnées de données structurées massives (plusieurs Go d’informations) présentes dans les fichiers CSV remis par le gouvernement :
- nombre de réponses par thématique, par question, par zone géographique (codes postaux),
- nombre de répondants par thématique, par question, par zone géographique,
- data texte par thématique, par question, par zone géographique.
Une analyse sémantique semi-automatique. Cette analyse comporte elle-même deux phases.
- Une phase « IA ». Nos algorithmes réalisent un parsing des corpus collectés, c’est-à-dire une méta-lecture consistant en une analyse morpho-syntaxique préalable à la lemmatisation du texte (identification des flexions des mots présents dans le texte des réponses). Puis une pré-attribution de valeurs sémantiques (polarité, intensité, axiologie ou encore sentiments) est réalisée par la machine à partir de ressources linguistiques issues des enseignements d’analyses supervisées passées.
- Une phase « IH » (intelligence humaine). Les opérations de méta-lecture effectuées, le repérage puis l’analyse en contexte des mots et syntagmes d’intérêt est effectuée par nos data analystes qui déterminent de manière objectivée les signaux forts et faibles des corpus en matière de thématiques et de sens, cela depuis une interface utilisateurs aux fonctionnalités adaptées à leurs besoins de catégorisation et d’attribution.
Notre stratégie technique
Pour accélérer le temps de calcul de l’analyse des données massives, nous avons défini autant de modèles de données que de type de recherche (par exemple, comptage du nombre de réponses par codes postaux).
Pour cela, nous avons utilisé un outil de base de données capable d’effectuer des requêtes spécifiques afin d’isoler des petits groupes de données exploitables. Par exemple, isoler la question Qx de la thématique Tx dans la ville Vx.
Nous sommes ainsi en capacité d’échantillonner les données massives du Grand Débat National pour pouvoir intervenir de manière sémantiquement fiable sur un échantillon précis.
Nous obtenons cette précision en procédant à la tokénisation des réponses ; plus cette tokénisation sera « propre », plus l’analyse sera facilitée et efficace. En d’autres termes, nous découpons les corpus en fragments les plus adaptés pour une analyse pertinente des réponses, à savoir les phrases telles qu’elles ont été rédigées par les répondants. Chaque réponse est ainsi structurée par des séries de phrases, ou des listes selon la nature de la question posée.
Notre outil d’analyse sémantique, Opinion Miner®
Notre outil est construit comme une boite à outils pouvant s’adresser à plusieurs types d’utilisateurs :
- les non-spécialistes (consultants, journalistes, personnes en responsabilité, simple citoyen…) qui peuvent disposer d’une interface utilisateur conviviale pour consulter les données de leur choix mises à leur disposition ;
- les spécialistes (data analystes) qui peuvent construire eux-mêmes, élaborer les ressources linguistiques et les patrons sémantiques utiles à leur analyse ;
- les développeurs qui peuvent recomposer les briques de notre outil en fonction de leurs besoins (ce que nous avons fait pour analyser le Grand Débat National) ;
- des développeur-tiers qui peuvent se « brancher » sur notre API REST et exploiter directement tout ou partie des fonctionnalités de notre outil sans passer par l’interface utilisateur pour les utiliser eux-mêmes dans l’outil de leur choix.