Popular Posts

Monday, February 13, 2006

La Blogosphère Politique: FINE

Le TendançologueComment ça marche ?Le Tendançologue © permet de suivre et ceci jusqu'aux élections présidentielles de 2007, le bruit médiatique que font les principaux hommes politiques pressentis pour cette élection.Il s'intéresse à trois "sphères d'information" que sont les sites d'actualités en ligne, les blogs et les newsgroups ou groupes de discussion. Chaque jour à partir des résultats fournis par plusieurs moteurs de recherche spécialisés et généralistes sur le nombre de nouvelles ressources publiées dans les dernières 24 heures, la courbe de bruit médiatique de chaque homme politique est tracée et ceci pour chaque sphère d'information.Ces courbes permettent de suivre les évolutions de visibilité de chaque homme politique dans le temps, de comparer les hommes politiques entre eux à un même moment mais aussi de voir comment le bruit médiatique circule entre les sphères (phénomène de retard ou d'anticipation de l'une sur les autres).
En savoir plus...
En savoir moins...Intérêt et limites du Tendançologue1) Un indicateur quantitatif mais non qualifiéLe Tendançologue apporte un éclairage purement statistique sur la présence des hommes politiques dans les trois sphères d'informations étudiées. Sans recontextualisation ces chiffres ne veulent rien dire et par conséquence immédiate il est possible de leur faire dire n'importe quoi. Par exemple une baisse du bruit généré par un candidat x observée courant juin 2006 pourrait être faussement rattachée à un essouflement de ce candidat ce qui serait trompeur si on ne remettait pas cela en regard de l'effervescence médiatique autour du mondial.Une autre limite de ces indicateurs quantitatifs est que le bruit n'y est pas qualifié, on ne peut savoir si c'est un bruit mélioratif ou péjoratif. Enfin, la méthode de collecte des ressources ne différentie pas le bruit généré par le candidat en campagne présidentielle du bruit généré par d'autres de ses activités relayées médiatiquement. Par exemple l'activité gouvernementale de certains se retrouve comprise dans les courbes, on ne peut alors différentier le bruit généré par un N. S. ministre de l'intérieur, du bruit généré par sa fonction de président de l'UMP ou de candidat à la présidentielle. Ainsi ce sont bien les dynamiques qu'il faut chercher à interpréter et ceci de façon circonstanciée et non les positions absolues car au regard de celles-ci les présidentiables veillés ne sont aucunement comparables. 2) Moteurs de recherche : quelle fiabilité ?Les chiffres présentés sur l'Observatoire Présidentielle sont ceux proposés par différents moteurs de recherche (Yahoo et Google principalement) et la pertinence de ces moteurs a été remise en cause bien des fois et la plupart du temps de façon justifiée. Les critiques à l'encontre de ces technologies peuvent se diviser en deux grandes catégories :
l'exhaustivité de la réponse du moteur sur une requête donnée par rapport au nombre total de réponses existant appelé *rappel* ;
la pertinence des ressources renvoyées aussi appelée *précision*.Les questions de rappel se sont déplacées sur un débat autour du nombre de ressources renvoyé par les moteurs de recherche ; de nombreuses expérimentations ayant montré leur incohérence. Les questions de précision s'intéressent au final plus à la pertinence du classement renvoyé qu'à celle des ressources elles-même car peu importe que 2 000 000 de documents répondent à une requête quand on sait que seuls les deux ou trois premiers seront consultés à chaque fois.Les chiffres utilisés dans le Tendançologue peuvent donc à ce titre être interrogés mais pas au point de le rendre obsolète.3) Des sources d'information restreintes mais fiablesLe Tendançologue ne s'attaque pas au web dans son ensemble mais à trois sphères d'informations bien définies que sont les journaux électroniques, les blogs et les newsgroups. A l'opposé du web pris dans sa totalité grandement hétérogène et extrêmement difficile à sonder même pour les meilleurs moteurs de recherche, ces trois sphères d'information proposent des propriétés contraintes fortes qui en facilitent grandement la préhension. Examinons les pour chacune des sphères :
les actualités en ligne : les moteurs de recherche proposant une section actualité y indexent un corpus fermé de sources d'informations, elles sont en nombre maitrisé et réduit (environ 500 sources pour Yahoo et Google), la masse de données à stocker et à veiller est négligeable au regard de la taille supposée des index de ces moteurs (plusieurs milliards de pages) et le formatage des contenus y est globalement normé, ressources datées, l'article comme unité documentaire commune, titrage systématique des articles
les blogs : le blog est un format éditorial particulier extrêmement contraint facilitant de par la même grandement son indexation et l'interrogation de l'index selon des critères précis. Contrairement aux actualités les corpus proposés par les moteurs de recherche de blogs ne sont pas des corpus fermés mais ils possèdent le même type de formatage des ressources que pour les actualités (articles ou billets datés et titrés). De plus la syndication des contenus des blogs par les flux RSS ou ATOM permet aux moteurs d'indexer automatiquement les mises à jour des blogs et ceci sans avoir à aller explorer les sites entièrement.
les newsgroups : le réseau Usenet propose une collection de groupes de discussion contrôlée et modérée par une communauté d'usagers (leur nombre reste constant aux alentours de 80 000). Les newsgroups utilisent un protocole différent du HTTP (le NNTP) et sont aussi extrêmement contraints : messages datés s'adressant à un ou plusieurs groupes de discussions possédant un sujet, un corps de texte et éventuellement un attachement. Les archiver, les mettre à jour fréquemment et effectuer des requêtes chronologiques sur cette archive n'est pas problématique pour un système d'information correctement conçu.Comme nous venons de le voir, les trois types de ressources web dont le Tendançologue se fait l'écho de par leur formatage particulier et le caractère fermé (en dehors des blogs) des corpus qu'elles constituent représentent pour les moteurs de recherche des sphères offrant une relative homogénéité documentaire. Cette homogénéité leur permet de renvoyer comme résultat à des requêtes contraintes chronologiquement (les dernières 24 heures pour le Tendançologue) des résultats qui autorisent encore la discussion (particulièrement sur la réactivité des moteurs aux mises à jour) mais qui ne peuvent remettre en cause la pertinence de ce type d'outils à une époque où les limites des sondages classiques sont de plus en plus pointées du doigt.
Des outils tels que le Tendançologue proposent un nouvel éclairage sur des questions complexes de *résonnance médiatique* qu'il est inenvisageable de pouvoir comprendre et décrypter sans une multiplication d'éclairages complémentaires. Ces outils doivent être saisis par des experts capables d'expliciter et d'analyser ce qu'ils manifestent de dynamiques, de mouvements autrement imperceptibles mais aussi de différentier ce qui relève du phénomène mesuré et ce qui relève de l'artefact produit par l'instrument de mesure.Perspectives d'évolutionLe Tendançologue © est ici présenté sous sa première version, d'autres devront rapidement voir le jour et permettre dans un premier lieu de mieux contextualiser les résultats puis de les affiner. Des bornes contextuelles vont apparaître sur les courbes, bornes qui permettront de recontextualiser nos chiffres en fonction d'évènements d'actualités. Les données seront affinées en permettant de croiser les indices de bruit médiatique avec des thèmes de campagne tels que par exemple le chômage, l'insécurité, les retraites ou l'immigration.
La BlogopoleLa blogosphère politiqueLa Blogopole © (contraction de blogosphère politique) c'est l'ensemble des blogs de citoyens qui alimentent le débat politique en France c'est à dire tant les hommes politiques, les militants que les commentateurs et analystes. Ce que nous tenterons de faire ici c'est d'en dessiner les contours à mesure que l'échéance des présidentielles approchera. La première cartographie que nous proposons est celle des blogs d'hommes politiques à laquelle vient s'ajouter quelques blogs d'analystes et commentateurs du débat politique sur le web.
En savoir plus...
En savoir moins...1) Collection Versac (automne hiver ?)Pour construire cette carte nous sommes partis du répertoire constitué par Versac dans sa sociologie des blogs politiques. Les presque trois cents blogs répertoriés ont été explorés en intégralité par nos robots le 27 janvier 2006. Les robots parcourent les blogs en passant de lien hypertexte en lien hypertexte et stockent le résultat de leur exploration dans une base de données. A partir de cette base, il est possible de manifester la structure hypertextuelle de l'ensemble du corpus indexé en représentant dans un graphe l'ensemble des sites (les noeuds) et des liens hypertextes qui tissent le réseau (les arcs orientés).2) Interface et navigationLa carte proposée est zoomable à l'aide du curseur de zoom et il est possible de s'y déplacer soit en cliquant sur les flèches se trouvant sur les bords de la carte principale, soit en déplaçant la fenêtre de zoom présente sur la mini-carte en bas à gauche (la mini-carte permet de constamment avoir une vue d'ensemble de la carte pour s'y repérer lorsque l'on zoome sur la vue d'ensemble).3) Conventions graphiquesComme l'indique la légende de la carte, la couleur des noeuds représente l'appartenance politique du blog et la taille des noeuds est en rapport avec le nombre de liens hypertexte entrant sur le blog. Ainsi plus un blog possèdera de liens pointant vers lui et venant d'autres blogs présents sur la carte, plus grande sera la taille de son noeud. Cet indicateur permet de mesurer de façon grossière le niveau d'autorité d'un blog. Grossière car le blog est un format d'édition ouvert aux contributions extérieures et un blogueur peut par exemple abuser du splog (spam sur les blogs : consiste à laisser sur un maximum de blogs des commentaires inutiles invitant uniquement à se rendre sur son propre blog) et ainsi se constituer une forte connectivité entrante. Sur la Blogopole ici présentée, le site d'Energies Démocrates par exemple profite de nombreux liens entrants principalement dus à une activité soutenue de commentaires de la part de l'auteur de ce blog sur les autres blogs de la blogosphère politique française.Le positionnement des noeuds les uns par rapport aux autres résulte d'un algorithme de placement purement topologique. Cela signifie que chaque noeud n'est placé qu'en fonction des liens qu'il possède en ne prenant aucunement compte de l'appartenance politique du blog et de son contenu. Il existe de nombreux algorithmes qui permettent de générer une spatialisation en 2 dimensions d'une matrice d'adjacence (matrice décrivant tout graphe). Nous avons ici utilisé un Futcherman Rheingold mais tous répondent au même principe de base : tenter de minimiser l'énergie du système et de maximiser l'occupation de l'espace délimité pour la représentation. Ainsi pour minimiser l'énergie du système on peut par exemple poser que les noeuds non liés se repoussent, que ceux liés s'attirent et que par itérations successives l'algorithme essaye de trouver le placement des noeuds présentant le moins de chevauchements de liens possible. Par maximiser l'occupation de l'espace délimité on entend étaler le graphe au mieux pour qu'il occupe la quasi totalité de la surface qui a été dévolue à sa projection.Ces principes de placement amènent à des conventions de lecture de la carte qui peuvent paraître à première vue contre-intuitive :
tout noeud ne possède pas de position a priori, son placement n'est que le résultat des relations qu'il entretient avec les autres noeuds. Ainsi un noeud ne possédant aucun lien ne peut être positionné, c'est pour cela que les blogs qui n'étaient reliés à aucun autre blog du corpus n'apparaissent pas sur la Blogopole ;
l'espace généré ne possède pas d'axe nord-sud est-ouest signifiant. Il est par contre polarisé dans une tension centre-périphérie, les noeuds se trouvant au centre sont ceux qui sont le plus tiraillés entre des noeuds ne partageant que très peu de liens entre eux (noeuds exogames) et ceux en périphérie ceux qui possèdent des liens peu nombreux et vers des ressources similaires (liens endogames). On voit parfaitement sur la Blogopole comment les blogs des analystes, malgré le petit échantillon présenté ici, assurent parfaitement un rôle central de relais, de ventilation de l'information entre des blogs regroupés en chapelles politiques, échangeant de nombreux liens entre eux mais peu avec le reste du corpus ;
la carte peut être interprétée facilement au regard des densités qu'elle présente selon les zones mais pas au regard des surfaces. Par exemple les blogs du mouvement CAP21 de Corinne Lepage occupent une surface à peu près égale à celle des blogs de l'UMP ce qui ne signifie aucunement que ces deux partis politiques occupent avec la même intensité le territoire numérique politique. En effet si on regarde plus précisément on remarque que sur une même surface, les blogs de l'UMP sont plus nombreux que les sites de CAP21 et développent un plus grand nombre de liens. Ainsi sur ce type de carte les forces en présence sont fonctions des densités et de l'épaisseur du maillage entre les noeuds. Une zone présentant une faible densité et un maillage lâche sur une surface importante se décrypte tel un ensemble de sites ne possédant quasiment aucun lien avec les autres sites et développant leur connectivité uniquement entre eux, leur endogamie hypertextuelle (pratique consistant à ne tisser des liens qu'entre sites d'une même catégorie ou communauté) les éloigne de tous les autres sites et leur faible densité de lien les fait se répartir sur une surface importante.
Exhaustivité du corpus et perspectives futuresCette cartographie s'appuie sur un corpus fermé qui a été constitué à la main. Ce dernier présente forcément quelques imperfections (blogs manquants, blogs morts, blogs non explorés par nos robots). De plus, les blogs d'analystes et commentateurs qu'il est possible de faire apparaître sur la carte ne sont là en fait que pour montrer la direction que nous souhaitons prendre pour la suite de notre exploration de la blogosphère politique. Nous allons en effet compléter ce répertoire et ceci en partant des sites déjà connus et en explorant à l'aide de nos robots la totalité des sites voisins de ces sites, puis des voisins des voisins et ainsi de suite jusqu'à reconstituer le plus précisément possible la localité hypertextuelle dans laquelle est situé notre corpus. Nous pourrons alors nous focaliser sur le *terreau hypertextuel* dans lequel la blogosphère politique prend ses racines, autrement dit les communautés qui investissent cette thématique particulière et lui permettent d'exister et de se développer sur le web. Ces travaux donneront lieux à de nouvelles cartographies qui devraient proposer de nombreuses améliorations en terme de manipulabilité et de navigation.
Crédits
Antonin Rohmer [ARDesign] - Designer, développeur et consultant Flash
Camille Maussang [RTGI] - Intégration PHP, génération XML
Hugo Zanghi [RTGI] - Perl Data-mining
Thomas Drugeon [INA] - Perl Anet
Stéphane Coville - Conseil politique et médias

3 comments:

Anonymous said...

Thank you!
[url=http://qhmirkbr.com/qpgq/fflm.html]My homepage[/url] | [url=http://gskhyszc.com/jnbh/wuhb.html]Cool site[/url]

Anonymous said...

Good design!
My homepage | Please visit

Anonymous said...

Well done!
http://qhmirkbr.com/qpgq/fflm.html | http://xsbtfapb.com/bitp/kehk.html

My Google Profile