Un des obstacles de la bonne prise en compte de l’importance de la veille d’opinion dans l’entreprise est l’idée que les avis exprimés sur Internet ne seraient pas représentatifs de la population. Pour Opinion Act, la question est moins de savoir si cette opinion est représentative que de connaître son pouvoir d’influence.
La question de la représentativité de la veille
Personne ne se demande si Le Figaro ou Marianne sont représentatifs de l’opinion française. Il est évident que non. Ce sont des vecteurs d’influence de l’opinion, voilà tout. Il en va de même pour ce qui est exprimé sur le web : peu importe que ceux qui fassent l’opinion qui fait loi dans les conversations ne représentent qu’une petite partie des internautes, la question est de savoir si cette opinion est influente ou non.
Une idée peut être exprimée par quelques individus isolés, sur des espaces plus ou moins visibles et ne pas retenir l’attention si on l’apprécie selon sa représentativité. C’est l’erreur fréquente induite par des décennies de sondages et d’échantillons représentatifs de la population. Une idée aura davantage de poids selon l’espace d’où elle est émise, les personnes qui l’expriment et la relaient. Etre influent ce n’est pas forcément être celui qui parle le plus souvent et le plus fort. La dimension sociale d’internet donne la primeur aux phénomènes de prescription, donc à l’influence. Le caractère spontané de l’opinion analysée nous autorise à accorder la même importance aux signaux faibles comme aux mouvements de masse.
De quoi la veille doit-elle être donc représentative ?
Si la veille web ne doit pas être forcément représentative de l’opinion de la populatioLn en général, en revanche il est fondamental qu’une veille d’opinion sur un marché soit représentative de l’ensemble de l’opinion émise sur le web. Quand il s’agit de veiller ce qui se dit sur un secteur d’activité entier, l’échantillonnage est alors indispensable. Celui-ci est rendu complexe dans la mesure où l’on ne peut se baser ni sur les critères habituels socio démographiques ni sur une population mère fixe et connue.
Certains prestataires de « social listening » et même certains travaux de recherche révèlent que les auteurs font confiance aux outils de veille pour l’échantillonnage, sans qu’ils semblent remettre en cause la méthodologie de ces mêmes outils dans l’obtention du bouquet de sources et d’indice de calcul de l’influence d’un site.
Le Lab de Opinion Act est au contraire très vigilant sur la constitution du sourcing et la méthode d’extraction des données. C’est précisément ce qui nous a poussés à renoncer à notre collaboration avec certains outils de veille. Constatant que tous les éditeurs n’étant pas transparents sur le bouquet de sources, nous n’étions pas maître de la méthodologie d’extraction du sourcing, nous prenions le risque d’une non-représentativité de la réalité du web. En l’occurrence, cette non représentativité était flagrante sur les forums.
La quantité de données ne fait pas la représentativité
Dans son livre [Bollier 2010], David Bollier met en garde sur la tendance à penser que parce que les données sont en nombre, elles seraient représentatives :
« Les données peuvent-elles représenter une “vérité objective” ou bien est-ce que toute interprétation est forcément biaisée par une forme de filtrage subjectif, ou encore par la manière dont les données sont “nettoyées” ?”
Au contraire, plus les réseaux sociaux se diversifient, plus la constitution de l’échantillon se complexifie et plus le risque de non représentativité est fort.
Les risques d’interprétation et d’erreurs sont multipliés d’autant que l’on combine de multiples jeux de données, comme l’impose la diversité du web social. Jesper Anderson, le cofondateur du système de stockage de données financières ouvert, FreeRisk, souligne lui aussi que le fait de combiner des données issues de multiples sources confronte à des défis particuliers :
“Chacune de ces sources est sujette à des erreurs… Je pense que nous ne faisons qu’amplifier ce problème.“
Ce n’est qu’avec le phénomène Big Data que les chercheurs commencent à mettre en doute la méthode de collecte des data elle-même : les américaines Danah Boyd et Kate Crawford en septembre 2011 (Six Provocations for Big Data, [Boyd & al 2011]) prennent à ce sujet l’exemple de Twitter :
« On manque donc d’informations permettant de savoir quels tweets sont exactement inclus dans ces différents flux de données et comment est construit leur échantillonnage. Il se peut que l’API n’extraie qu’un échantillon aléatoire de tweets, ou qu’elle ne retienne que les quelques premières centaines de tweets émis chaque heure, ou encore qu’elle ne retienne que les tweets issus d’un segment particulier du graphe du réseau. »
La notion de représentativité de l’opinion sur le web social est complexe mais majeure pour des études de réputation rigoureuses. Le sens commun voudrait que cette opinion soit représentative de la population d’un pays. Mais l’on a vu que c’était davantage le pouvoir d’influence qu’il fallait mesurer. Pour cela, s’assurer de la représentativité des corpus étudiés par rapport à ce qui est émis sur le web est fondamental. Un objectif devenu un défi à l’heure des big data.