Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, décembre 16, 2008

Blogs: Que fait Google ?

Vous avez sans doute remarqué que le petit widget « Ils en parlent » en colonne de gauche de ce blog dysfonctionne depuis quelque temps.


Je m’étais fabriqué ce widget il y a bien longtemps déjà, à l’aide de l’opérateur link de Google Blogsearch (link:aixtal.blogspot.com). Cet opérateur permettait d’obtenir tous les billets d’autres blogs qui citaient un de mes billets. La sortie est disponible au format RSS, ce qui permet une intégration facile. C’est d’ailleurs le même mécanisme, basé sur Google Blogsearch) qui se trouve sous chacun des billets (l’appel billet par billet est fourni en standard par Blogger, contrairement au widget que j’ai fabriqué). Je trouvais cette fonctionnalité assez intéressante, puisqu’elle permettait de rebondir de blog en blog et de suivre les « conversations » que déclenche un post.

Malheureusement, le comportement a changé. Il y a eu quelques alertes en septembre, le comportement se modifiait, puis revenait à la normale, mais depuis le début octobre, c’est fini, Google Blogsearch est passé dans un autre mode de fonctionnement. Si vous suivez les liens qui apparaissent sur ce widget, ou directement sur Google Blogsearch, vous verrez que les billets listés, pour la plupart d’entre eux, n’ont pas de lien vers un des miens. Dans la plupart des cas, ce sont des blogrolls qui pointent vers ma home, « http://aixtal.blogspot.com ».

Et après, me direz-vous ? Eh bien cela enlève à peu près tout l’intérêt de cette fonction. Plus possible de suivre les « conversations » de billet à billet. Chaque fois que Pierre Assouline ou Language Log publient un nouveau billet, Google Blogsearch y voit un nouveau lien... L’intérêt est médiocre. Et évidemment, il ne faudrait pas s’appuyer sur les résultats chiffrés que retourne Google Blogsearch pour essayer de déterminer si votre blog a été beaucoup lié, car ces résultats n’ont rien à voir avec le vrai nombre de citations (2803 par exemple avait fait cette erreur – j’avais laissé un commentaire à l’époque).

Les effets de bord sont même encore plus désagréables. Je constate par exemple ce matin que le serpent se mord la queue. Ainsi, mon dernier billet « Déshabillons les communistes » semble avoir été cité par tout un tas de billets de French Politics. Ce n’est pas le cas... Le cercle est vicieux : un de ses widgets reprend les liens de mon widget, et ça tourne gentiment en rond.


Que s’est-il passé ? L’explication technique est simple. Auparavant, Google utilisait les flux RSS dans son service Blogsearch, ce qui lui permettait d’avoir une notion de billet. Désormais, il utilise simplement le mécanisme de crawl général ("full-text") de Google. Cela a été confirmé par Jeremy Hylton de l’équipe officielle de Google Blogsearch.

Quelles peuvent être les raisons de ce changement ? La raison avancée par Jeremy Hylton est tout à fait sérieuse : un certain nombre de blogs ne publient pas des flux complets, mais des résumés sans liens, et dans ce cas, Blogsearch devait donc faire face à du « silence ». Mais avec le nouveau comportement, le diable chassé par la porte est rentré par la fenêtre. C’est désormais un « bruit » important qui affecte les requêtes sur Blogsearch. Mon impression est d’ailleurs que le bruit introduit est largement plus grand que le silence qui a pu être réduit. Jeremy Hylton explique que le problème sera corrigé, en faisant d’abord une capture complète de la page, puis en ne retenant que la partie qui ne fait pas partie du billet.
We do expect to fix the problem you're seeing. We'll use the full page content, but exclude the content that isn't really part of the post.
Nous verrons. J’ai de gros doutes, connaissant bien le problème, que j’ai analysé en détail pour Wikio. La difficulté de la tâche est immense.

Le jeu valait-il alors la chandelle ? Il me semble qu’il y a une autre raison sous-jacente : la réduction des coûts liés à Blogsearch (ce qui me rend pessimiste sur l’amélioration promise). Fusionner Blogsearch (du moins du point de vue de la capture) avec le moteur de recherche Web classique permet de n’avoir plus qu’un service à maintenir au lieu de deux. Car la maintenance d’un vrai moteur de blogs est extrêmement difficile. Le problème des flux partiels n’est qu’une toute petite partie de l’iceberg. Parmi les problèmes d’une très grande difficulté, je n’en citerai qu’un : l’identification des sources... Qu’est-ce qu’un blog ? Je doute que nous soyons deux à répondre de la même manière à cette question. Mais en tout cas, à peu près tout le monde se trouvera sans doute d’accord pour exclure les médias classiques (Le Monde, Le Figaro) ou les agrégateurs qui fleurissent un peu partout sur la Toile. Comme faire, à part recruter une armée (coûteuse) de documentalistes qui filtrent les sources à l’échelle planétaire ? Google ne peut pas se le permettre.

Un autre indice montre que Google est en train d’opérer une convergence de ses services. Début octobre également (tiens ?), le blog officiel de Google présentait une nouvelle fonctionnalité, le groupage (clustering) des billets apparentés sur sa home page, du moins aux US. La technologie est directement reprise du groupage que fait Google News. La nouvelle a été reprise en boucle sur la blogosphère, et généralement perçue comme une innovation positive.

Je n’ai pas la même analyse. Si vous examinez de façon détaillée ce qui apparaît dans les groupes en question, vous verrez que ce sont des informations qui sont fortement apparentées du point de vue thématique, et fortement cohérentes du point de vue temporel (généralement une durée de quelques heures). Ce n’est pas le tempo des blogs. Ce type de groupage favorise les pics d’articles nombreux, très proches dans leur contenu, et quasi simultanés – c’est-à-dire, typiquement la reprise en boucle des infos des agences de presse. On y retrouve donc soit des blogs sans grande originalité, qui se contentent de copiés-collés rapides, soit des agrégateurs, soit des médias purs et simples. Les blogueurs qui apportent une véritable valeur ajoutée réagissent plus lentement, et forcément dans des termes moins proches de l’original. Trop tard, trop différents pour être groupés...

Là aussi, j’ai étudié de près le problème, puisque c’est le mode fonctionnement de la partie supérieure de la page d’accueil de Wikio. Il n’y a rien dans l’algorithme actuel qui favorise explicitement les médias par rapport aux blogs, et pourtant on n’y trouve guère que des médias, pour les raisons que je viens d’expliquer. C’est d’ailleurs un problème sur lequel Wikio va travailler (et ce n’est pas facile), car la première partie de la home ressemble à l’AFP ou à France Info, ce qui est d’un intérêt modéré...



Nous verrons bien comment Google Blogsearch évolue. Mais j’ai bien peur que la fusion en cours s’accompagne d’une perte assez forte de la spécificité de la recherche blogs. Est-ce que Google aurait lu en détail le rapport Technorati, et en aurait conclu que les blogs étaient en déclin et que l’investissement ne valait plus le coup ? Il est vrai qu’il est peut-être plus à la mode de mettre des billes dans les réseaux sociaux (où Google avait peut-être un petit cran de retard)...

A suivre. En tout cas, je suis bon pour refaire mes widgets. Ce sera l’occasion de tester si un tel service peut-être greffé sur Wikio...

Mise à jour


Ca y est, j'ai implémenté une petite maquette d'outil, que vous pouvez voir en colonne de gauche et sous les posts. Enfin, pas sous celui-ci, hélas, il s'est fait blacklister par Wikio sous prétexte qu'il contient "AFP". Pas bon, ça. Ca fait partie des choses à arranger...

Libellés : ,


19 Commentaires:

Blogger Jérôme Charron a écrit...

Pouvoir identifier uniquement le contenu informationnel d'une page : Voila le saint Graal d'un moteur de recherche, non ?

Certes pas facile pour les petits, mais pour Google qui a une base de données gigantesque, un framework de calcul parallèle robuste (map-reduce), des ingénieurs astucieux et une puissance de calcul importante, je ne comprends pas pourquoi ils ne se sont pas frottés à ce problème plus sérieusement (il le fait plus ou moins pour les news).

Tu ne penses pas qu'on pourrait par ce biais améliorer de manière très significative la pertinence des moteurs ? (je n'ai pas souvenir d'avoir lu quoi que ce soit sur le sujet)

16 décembre, 2008 19:03  
Anonymous henri a écrit...

La confirmation de google est datée du 12 novembre et ma tentative de classement par Google Blog Search du 3 novembre, on peut donc parler d'erreur par méconnaissance ;) Cela n'est quand même pas de bol de tenter de faire une expérience de ce type en pleine période de changement de leur algo...

Sinon très bon article jean!

16 décembre, 2008 19:05  
Anonymous Olivier SC a écrit...

Une seconde déception au sujet des choix de Google après le changement commercial du calcul du PR. Mais celui-ci est plus important dans le sens où le moteur sort du principe basique des liens hypertexte, du Web, de l'Internet ... Du coup - si je puis dire - un seul moyen : les commentaires ? ... [PS : je commente en préparant la Revue où figurera cet article et qui n'est donc pas encore postée]

16 décembre, 2008 19:08  
Anonymous tionsion a écrit...

L'outil Rollsense (http://www.rollsense.com/) me semble intéressant - mais je ne l'ai pas testé.

17 décembre, 2008 00:08  
Blogger Jean Véronis a écrit...

Jérôme> identifier uniquement le contenu informationnel d'une page -- Je pense quand même que ça reste très difficile, voire impossible, même avec de gros moyens de calcul. La situation était peut-être (un peu) plus simple quand le "contenu informationnel" était le seul élément mobile de la page, tout le reste étant soit fixe, soit caché dans des javascripts. Mais avec les widgets qui réécrivent du HTML en dur, tout bouge désormais...

17 décembre, 2008 10:17  
Blogger Jean Véronis a écrit...

Henri> Bah... Les erreurs permettent de progresser, n'est-ce pas? J'en fait moi-même un paquet, comme tout scientifique qui se respecte. La publication et la discussion servent justement à faire avancer la connaissance...

17 décembre, 2008 10:19  
Blogger Jean Véronis a écrit...

Olivier> Ah les commentaires... Voilà encore un sujet intéressant. Dans le nouveau système, Blogsearch les indexe. Ca peut-être un avantage, ou un inconvénient. L'idéal serait d'avoir une option : "chercher dans les posts seuls / chercher aussi dans les commentaires". Mais on revient au problème de la détection du contenu informationnel que mentionnait Jerôme.

17 décembre, 2008 10:25  
Blogger Jean Véronis a écrit...

Tionson> Rollsense -- Il s'agit de rapprocher des billets apparentés sur la base de leur contenu (et non pas des liens qu'ils se font). L'idée est bonne, mais pour autant que j'aie pu voir, le résultat est, disons, assez mitigé...

17 décembre, 2008 10:27  
Anonymous Thierry a écrit...

Et ça serait pas plus simple de demander à chaque site de se positionner (avec une balise html, ou dans le flux RSS) en tant que site web "normal", blog, ou autre ?

17 décembre, 2008 15:12  
Blogger Jean Véronis a écrit...

Thierry> Hélas, on parle de dizaines de millions de sites... Quel pourcentage comprendront / joueront le jeu / sauront-le faire ? Combien essaieront de tricher... ?

17 décembre, 2008 15:19  
Anonymous Thierry a écrit...

Oui, je comprends bien.

Surtout que je pensais à une politique "coercitive" de la part de Google en "encourageant" ceux qui jouent le jeu par un coup de pouce sur leur classement (ou en décourageant les autres par une menace de baisse).

Mais est-ce qu'un site "traditionnel" a vraiment intérêt à se faire passer pour un blog ?

Et réciproquement, est-ce qu'un blog a vraiment intérêt à se faire passer pour un site "traditionnel" ?

C'est peut-être des questions peu pertinentes, mais personnellement, dans mes recherches d'infos, la différence entre site web "normal" et blog m'importe peu, du moment que le site est fiable.

17 décembre, 2008 16:59  
OpenID raydacteur a écrit...

Effet de bord minime, mais qui flatte mon ego: les copies d'écran montrent par deux fois mon blog. (Ca y est, Andy, j'ai été célèbre 5 mn !)<<<<<<<;
Signé : un admirateur ;-)

17 décembre, 2008 22:06  
Blogger mtislav a écrit...

Est-ce qu'une solution ne serait pas de laisser à l'auteur d'un billet le soin de compléter la rubrique "lien vers ce message blog" ?

18 décembre, 2008 13:49  
Blogger Jean Véronis a écrit...

Mitslav> C'est à dire que chacun devrait mettre lui-même ses backlinks? Ca ne marchera jamais (d'ailleurs souvent je les découvre grâce à ce système automatique, qui me paraît très utile). Ou alors je n'ai pas bien compris votre proposition?

18 décembre, 2008 15:10  
Blogger Jean Véronis a écrit...

Raydacteur> Mais c'est dommage, le lien renvoie vers une page qui n'existe plus !

18 décembre, 2008 15:32  
Anonymous Une Ville Un Poème a écrit...

Les miracles de la technologie !

18 décembre, 2008 17:35  
OpenID raydacteur a écrit...

Oui, j'avais tenté de récupérer la vidéo pour la mettre sur mon blog, et ça n'a pas marché ...

18 décembre, 2008 22:31  
Anonymous FrédéricLN a écrit...

Excellent, excellent, excellent billet.

Riche et passionnant.

Voilà ! et bonne année !

30 décembre, 2008 00:03  
Blogger Jean Véronis a écrit...

Merci Frédéric, et je te souhaite une bien bonne année aussi !

30 décembre, 2008 00:36  

Enregistrer un commentaire