Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, mai 11, 2005

Google: TrustRank, beaucoup de bruit pour rien?



Le dieu Godgle a remué sur sa couche en haut de Mountainview, et immédiatement les mortels Internautes se sont agités en grand émoi dans l'agorasphère : que se passe-t-il? que signifient les derniers grognements du Dieu ? Godgle va-t-il soudain changer d'humeur ? Va-t-il se fâcher, envoyer les spammeurs et les référenceurs aux Enfers ? Va-t-il au contraire déverser sur nous la Corne d'Abondance qui nous livrera chaque jour des flots de News plus belles que jamais et tout auréolées de fleurs ? Le Google juice se transformera-t-il en un nectar délicieux qui assurera l'immortalité informationnelle aux pauvres Internautes ? Le danger est grand, car si nous nous trompons et offensons le Dieu, nous pourrions passez l'éternité dans le Tartare désert de cybérie, condamnés comme Tantale à mourir de faim et de soif intellectuelles un océan d'information planétaire devenu inaccessible à nos clics...

le dieu godgle

Résumé des faits. Le 16 mars 2005 dépose la marque commerciale TrustRank (voir le site de l'United States Patent and Trademark Office ou USPTO). Des internautes malins s'en aperçoivent (je crois que c'est Gary Price de SearchEngineWatch qui l'a repéré le premier, mais je peux me tromper). Aussitôt, l'agorasphère entre en ébullition[voir Slashdot a et b]...

Première piste, le site de l'USPTO révèle aussi que Google a déposé un brevet intitulé "Systems and methods for improving the ranking of news articles", qui a été publié le 17 mars 2005. Le lien est alors vite fait : le TrustRank serait cette nouvelle méthode de classement des nouvelles. On sait que Google avait quelques soucis avec des nouvelles pas toujours pertinentes (voire des canulars) qui remontaient en tête de classement, phénomène accentué depuis l'indexation de nombreux blogs dans les News.

Deuxième piste, on s'aperçoit (peut-être avec une petite recherche Godgle ?) qu'un article présentant le TrustRank a été publié par des "chercheurs de Stanford University", d'abord sous forme de rapport technique (mars 2004), puis à la conférence VLDB (août 2004). L'article est ici en format pdf. Les conclusions sont vite tirées : voici la description de ce nouvel algorithme magique, et le lien circule de forum en blog.

Malheureusement, il y a quelque chose, et même plusieurs choses, qui ne collent pas dans tout ça. Tout d'abord, le titre de l'article en question est "Combating Web Spam with TrustRank". Cet article est assez intéressant : il essaie de montrer comment on peut combattre le spam à partir d'un petit nombre de pages contrôlées manuellement, et d'un algorithme permettant ensuite d'utiliser cette connaissance initiale pour séparer le bon grain de l'ivraie. Très bien, mais le rapport avec les News n'est pas immédiat. Le problème des News de Google n'est pas celui du spam. Google choisit ses sources de nouvelles, et si certains blogs, par exemple, s'y retrouvent indexés, c'est parce que Google le veut bien. Les sources de nouvelles ne sont pas des spams, et n'en n'ont pas les caractéristiques formelles et textuelles. Le problème des nouvelles est différent. Les sources ne sont pas indésirables (ou alors il est simple de ne pas les indexer), mais elles peuvent être considérées comme plus ou moins fiables (à supposer qu'on sache ce que cela veut dire dans le domaine de l'actualité...) et on aimerait faire remonter dans les classement les sources fiables.

On peut peut-être néanmoins imaginer d'appliquer une méthode de même type, avec un petit nombre de nouvelles contrôlées manuellement et un algorithme qui permettrait ensuite d'étendre cet "apprentissage" à l'ensemble des nouvelles, et là serait le lien. Manque de chance, quand on lit l'article, on s'aperçoit qu'à part les "chercheurs de Stanford", l'un des co-auteurs est Jan Pedersen, Chief Scientist de Yahoo!, dont je parlais ici-même l'autre jour, et je doute fort que Yahoo! souhaite faire profiter Google de ses avancées technologiques ! Une hypothèse plus plausible est simplement que Google a raflé le mot (qui sonne vraiment bien) à Yahoo! en essayant de le déposer en premier -- la pratique n'est pas nouvelle ! On verra ce qu'en pensent les "attorneys", car pour l'instant la marque n'a pas encore été attribuée à Google : le dossier est simplement en cours d'examen.

Quant au fameux brevet, rien n'indique qu'il soit en rapport avec la marque TrustRank qui intéresse Google. Peut-être. Peut-être pas. Nous n'en savons strictement rien. Le brevet ne mentionne nulle part ce terme. La proximité de dates (16 et 17 mars) me semble être une pure coïncidence, car si on lit bien le dossier de brevet, on s'aperçoit que le 17 mars est la date de publication par l'USPTO (ce qui n'est encore pas l'acceptation, le parcours est long...). Le dossier a été déposé le 16 septembre 2003, et je ne pense pas que Godgle soit maître du calendrier de l'office des brevets... Chronos a ses prérogatives.

le dieu godgle

J'ai lu ce fameux brevet en détail. Il s'agit, comme son nom l'indique, d'améliorer le classement des articles de nouvelles dans un système tel que Google News. Une fois décrypté le verbiage, dans le plus pur et inénarrable style des brevets, le coeur de "l'invention" se résume à mon avis à bien peu de choses... Il consiste en un groupe de 13 "métriques" (bien que ce terme soit ici mathématiquement impropre, l'inégalité triangulaire n'étant certainement pas respectée pour la plupart d'entre elles -- mais peu importe, prenons le mot au sens général d'indice), qui permettent de donner un poids plus ou moins important à chaque source de nouvelles. Les voici :

1. le nombre d'articles produit par la source
2. la longueur moyenne des articles
3. la "couverture" de la source (en gros, combien d'infos ou "stories", la source reprend-elle par rapport à l'ensemble des sources)
4. la réactivité de la source ("breaking score"), c'est-à-dire la capacité de la source à diffuser le plus vite possible sur une info donnée
5. un indice d'utilisation (en nombre de clics sur cette source)
6. une opinion humaine sur la source (tiens...)
7. une statistique extérieure d'audience telle que Media Metrix ou Nielsen Netratings
8. la taille de l'équipe, (qui peut-être déterminée par le nombre de journalistes distincts qui signent les nouvelles (finis les blogs)
9. le nombre de bureaux ou agences différentes de la source (idem)
10. le nombre d'entités nommées originales citées par la source (personnes, organisations, lieux) -- ceci sans doute dans l'idée que les sources secondaire enlèvent des infos mais n'en ajoutent que rarement (cela fait sens: voir exemple)
11. l'étendue (breadth), c'est-à-dire le nombre du sujets couverts par la source
12. la diversité internationale (tant pis pour la Gazette du Périgord)
13. le style de rédaction, en termes a) d'orthographe b) de grammaire (je me demande comment cela va être évalué!) et c) de "niveaux de lecture" (j'imagine que ce sont les notions standards de longueur de phrase, rareté du vocabulaire, etc.).

J'en suis épaté. Très honnêtement, je crois que si on s'était réunis autour de quelques bières avec des étudiants, on aurait sorti à peu près les mêmes idées (et sans doute un paquet d'autres) en une petite après-midi... Il est vrai que "l'invention" ajoute à cela quelques idées pour combiner ces métriques (les spécialistes voient bien que c'est là le problème !), comme par exemple faire la moyenne (si !) ou bien des choses à peine plus compliquées, mais franchement, il n'y a pas de quoi postuler pour le Prix Nobel de la Recherche d'Information...

Au-delà de cette appréciation, qu'on peut ne pas partager, ce que l'agorasphère ne semble pas avoir complètement intégré, c'est la date de soumission de ce brevet, septembre 2003. Les brevets ne constituent pas des permis d'implémenter, et il est bien évident que s'il y a de bonnes idées là-dedans, elles sont depuis longtemps incorporées à Google News (ainsi que sans doute plein d'autres, en cours d'expérimentation, et qui feront --peut-être-- l'objet de brevets ultérieurs). Le rôle d'un brevet est surtout de marquer le terrain pour empêcher les concurrents d'y pénétrer, et celui-ci est assez clair de ce point de vue. Le brevet, comme on l'a vu, ratisse large, en énumérant tout ce à quoi les Googlers ont pu penser en 2003 (sans le détailler, voir la question du style par exemple) et même ce à quoi ils n'ont pas pensé, car on ne compte pas les formulations du genre "par exemple", "dans une implémentation" on pourrait faire ça, ou autre chose... Mais je ne vais pas me lancer une discussion sur le rôle des brevets logiciels, il y a suffisamment de sites sur le sujet (exemple).

le dieu godgle

Rien de nouveau sous le soleil, donc, mais je suis quand même stupéfait par l'incroyable naïveté de ce brevet. Les Googlers réalisent-ils le paradoxe sur lequel il est bâti ? Car si l'on implémente réellement les fameuses métriques proposés, à quoi aboutit-on ? A faire remonter en tête absolue des classements une poignée de sources, qui sont internationales, ont beaucoup d'agences à travers le monde, un "staff" important, écrivent dans un style impeccable, ont une longueur standard, couvrent à peu près tous les sujets, ont une réactivité très forte, ... et sont jugées comme excellentes par des experts humains et par les cabinets appropriés (Nielsen et autres). Eh bien, je peux prédire le résultat. En tête on aura Reuters et AP, peut être quelques équivalents chinois et indiens pour ne vexer personne (je n'ose pas mentionner l'AFP !).

Mais alors, pourquoi se fatiguer à indexer des milliers de sources (ce que prétend actuellement Google) ? Il suffirait grosso modo de s'abonner au flux RSS de Reuters, et on aurait à peu près la même chose. Les mortels Internautes ne s'y sont d'ailleurs pas trompés, et 75% d'entre eux, lorsqu'il s'agit de l'adoration des Nouvelles, du moins aux États-Unis, vénèrent le dieu Yahoo. Celui-ci, sur la version US, a fait un joli travail de refonte de l'interface, et si l'on est intéressé par les nouvelles officielles, offre une sélection de très bonne qualité, faite tout bonnement par des humains (voir la métrique 6 du brevet !). La version française fait ce qu'elle peut, mais elle n'est pas si mal au niveau éditorial, malgré ses moyens plus limités et son équipe beaucoup plus réduite (l'interface relookée ne nous est pas encore arrivée).

Quant aux nouvelles plus pointues, celles qui ne sont pas déjà partout sur le Web, eh bien, ce n'est pas là qu'il faut les chercher... Je vais citer une fois encore Rezo, aggrégateur intelligent et alternatif. Prions les cyberdieux pour qu'il s'en développe d'autres, qu'on ait une pluralité de vues, et qu'on ne soit pas obligé de voir le monde selon Google.

En résumé, much ado about nothing...




Voir aussi


 

Libellés :


3 Commentaires:

Blogger all a écrit...

Les dessous de la technologie Page Rank
Google Mentalplex

Pour les infos je vais sur
http:/www.drudgereport.com/

11 mai, 2005 16:39  
Blogger VinZ a écrit...

Je suis vraiment d'accord avec ce que vous dites : personnellement, j'utilise Yahoo! Actualités pour me tenir au courant de l'information générale, et Google News lorsque je veux rechercher des articles d'actualité (plus que les simples dépêches de Yahoo!) sur un sujet précis : j'apprécie notamment d'y retrouver des liens vers des articles du Monde, du Figaro ou de Libé, mais aussi d'autres sites plus spécialisés, qui ont une touche encore "artisanale".

C'est comme nos petits artisans : ce n'est pas parce qu'ils produisent moins que c'est moins bon ! Je recherche des bons articles, pas des articles écrits par des entreprises renommées (bien que cela puisse avoir un lien)

11 mai, 2005 17:22  
Blogger Loran a écrit...

Merci pour cette mise en perspective claire, des événements et des faits, et cette prise de position corrosive.

Ceci dit, je garde une pensée compréhensive pour tous ces bloggueurs dont le gagne pain est directement indexé sur le bon vouloir de l'entité monopolistique.

Quand aux brevets logiciels (que la constitution -d'un dieu a l'autre ;o)- nous en préserve! Mais c'est une autre histoire)...

12 mai, 2005 17:45  

Enregistrer un commentaire