Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, février 25, 2008

Wikio: Portail d’actualités intelligent



Je vous avais promis (il y a bien longtemps déjà) de vous parler plus en détail du portail d’actualité Wikio. J’avais croisé ce site d’un œil distrait, comme beaucoup d’entre vous sans doute, et n’y avais bêtement vu qu’un agrégateur de plus, avec des boutons de vote façon Digg, certes, mais pas de quoi casser la troisième patte d’un canard. Tragique erreur. Wikio est sans doute le service qui recèle la technologie linguistique la plus poussée à l’heure actuelle sur le Web (et vous avez noté que c’était le thème de ce blog... ça devait obligatoirement m’intéresser !).



J’y reviendrai sans aucun doute dans d’autres billets, mais je voudrais juste vous donner un exemple. Wikio ne se contente pas d’agréger nouvelles et billets en vrac. Lorsque vous allez chez son principal concurrent, Google News, la page d’accueil vous propose les titres du jour regroupés par grandes catégories (Sports, International, France, Economie, etc.). Là s’arrête en gros l’intelligence du service. Il est vrai que lorsque vous tapez un mot-clé, les articles vous sont présentés de façon agrégée, mais cette agrégation est de piètre qualité. Tapez « Yahoo » par exemple, et vous verrez que les groupes sont assez illisibles. De nombreuses « news » (pour parler franglais) ne sont pas groupées du tout, et les groupes existants se marchent sur les pieds : l’affaire de l’offre Microsoft est dispersée sur de multiples groupes, etc. (quand vous taperez la requête, la page aura certainement changé, mais vous voyez l’idée). Je louais pourtant ce service lorsqu’il est apparu en 2002. L’agrégation de documents (et donc de news) est un problème extrêmement difficile, comme vous pouvez l’imaginer, et le système paraissait très prometteur. Las, comme beaucoup de produits Google, il n’a guère évolué depuis sa sortie, bien qu’il ait officiellement quitté la version beta en 2006. Google a plus mis l’accent sur le nombre de sources (4500 pour l’anglais nous dit-on), que sur leur qualité, ou celle des algorithmes... L’accroissement du nombre de sources (facile à faire automatiquement) résulte d’ailleurs logiquement en une dégradation du groupage.

Côté Wikio, ce n’est pas parfait (d’ailleurs le service est clairement annoncé comme une version beta), mais la technologie sous-jacente est infiniment plus prometteuse. Les articles (en provenance de médias ou blogs) ne sont pas simplement regroupés en catégories de haut niveau (Sports, etc.), mais en un véritable « arbre de la connaissance » qui comporte à l’heure plus de 30 000 catégories :



Si vous comptez, vous verrez que les 30 000 catégories n’y sont pas tout à fait. J’ai posé la question chez Wikio : c’est normal, la liste change en permanence et seules figurent les catégories qui ont eu des nouvelles dans une période récente.

A ma connaissance, les catégories ne sont visibles nulle part en tant qu’arbre, mais on peut deviner l’organisation hiérarchique par la forme des URL. Prenons par exemple la catégorie « surdité ». Quand vous tapez ce mot clé sur le moteur, il vous retourne une page contenant les nouvelles sur le thème, avec une URL qui donne la hiérarchie :


Le thème Société contient de nombreux sous-thèmes, dont Handicap, qui contient à son tour Surdité. Cette hiérarchie est également donnée en clair par des liens de navigation en haut à gauche de la page :

Actu > Société > Handicap > Surdité




Le thème Surdité contient à son tour d'autres sous-thèmes : Implant cochléaire, Langue des signes. Mais la navigation vers les sous-catégories est moins facile, et c'est dommage (il y a bien un nuage de tags à droite de l'écran mais il est souvent touffu et ne présente pas que les catégories filles). On pourrait imaginer d'autres solutions plus pratiques (par exemple un petit menu déroulant sous le mot Surdité dans le lien de navigation en haut de la page).

Ne croyez pas qu'il s'agisse, comme dans Google, d'une simple alerte sur le mot clé surdité. La page propose des articles qui ne contiennent pas ce mot, mais qui contiennent des mots apparentés : sourd(e)(s), malentendant, problèmes d'audition, etc. Et, surtout, Wikio ne se laisse pas feinter par des articles (et il y en a dans sa base, je viens de le vérifier) qui parlent de la surdité du pouvoir, de politiques qui font la sourde oreille et ainsi de suite.

Wikio présente donc un fantastique réservoir d'informations structurées, sans équivalent à ma connaissance (même en langue anglaise). La beauté de la chose c'est que chacun peut se créer ses propres pages d'actualité, soit en s'abonnant directement au flux RSS d'une catégorie (par exemple ici pour surdité), soit en combinant des catégories entre elles pour créer ses propres onglets -- qui peuvent à leur tour être exploités par un flux RSS spécifique !

Absolument fascinant. Les potentialités d'un tel système donnent le vertige... Bien entendu, il y a quelques réglages à faire ici et là, vous l'imaginez bien. On est là dans la pointe avancée (et croyez-moi, extrêmement difficile), des technologies du langage. Et il y a des cas pervers. L'un des mes billets, sur Google et le référencement, est parti dans la catégorie Cosmétique parce que j'y citais comme exemple l'expression vernis à ongles. Mais, honnêtement, pour résoudre ça, il n'y aurait que le petit-fils de HAL... et en 3001, sans doute.

Je ne veux pas être trop long... Je sais que nous sommes dans la civilisation du zapping, et que la plupart d'entre vous sont déjà partis sur d'autres chaînes. Alors j'y reviendrai. Je vous expliquerai plus en détail ce que j'ai pu comprendre de la technologie étonnante qui est derrière tout ça. En attendant, j'attends avec impatience la nouvelle version, sur laquelle Wikio commence apparemment à faire du « teasing » ;-)

A suivre, donc !


PS


Ca se confime, une nouvelle version est dans les starting-blocks.

18 Commentaires:

Blogger Jérôme Charron a écrit...

Je suis globalement en accord avec ton analyse Jean, mais il ne faut pas non plus oublier que derrière Wikio, il y a un énorme travail d'analyse effectué "à la main" et non pas par des algorithmes.

25 février, 2008 10:16  
OpenID The Jedi a écrit...

Je regarde aussi Wikio d'un autre œil depuis votre premier article à son sujet. Je ne pensais pas qu'il était aussi pertinent.

Maintenant suite au commentaire de Jérôme Charron, je serais curieux de connaitre la part de traitement manuel et la part d'automatisation derrière tout ça.

Je regrette aussi ce manque de suivi dans certains projets Google :-/

25 février, 2008 11:38  
Blogger Jean Véronis a écrit...

Jérôme> Oui, c'est vrai. Je crois qu'il y a un documentaliste ("infomédiaire") par langue (ce qui n'est pas monstrueux non plus). Ceci étant, je ne crois pas à la possibilité du tout automatique. Google a d'ailleurs aussi des gens pour les News (sélection des sources, etc.).

Ravi qu'on se croise à nouveau sur la toile ;-)

25 février, 2008 11:46  
Anonymous Anonyme a écrit...

En effet, la question est bien de distinguer l'automatique du manuel, l'annuaire du moteur. Le fait que wikio procède par un système de noeuds organisés dans un thesaurus digne de ce nom n'a rien de révolutionnaire il me semble, ce serait juste un système d'indexation redoutable à mettre en œuvre à cause de sa souplesse mais relativement simple à comprendre. En revanche si toute l'indexation est automatique alors oui c'est une vraie prouesse.

25 février, 2008 11:56  
Blogger Jérôme Charron a écrit...

@Jean > D'après mes sources, il y a presque deux ans, Wikio qui n'était disponible qu'en une seule langue utilisait déjà 5 rédacteurs/documentalistes.

25 février, 2008 12:05  
Blogger Jean Véronis a écrit...

Jedi> J'ai vu votre commentaire après. J'ai déjà répondu sur la question manuel/automatique. Wikio confirme: un plein temps de documentaliste par langue (même moins, sans doute, car la même personne fait aussi tout le travail de modération des commentaires, etc.). Ce n'est pas excessif.

Oui, sur Google, c'est vraiment dommage. De très bonnes idées, de très bonnes beta, et puis ça reste comme ça... Comme s'il ne s'agissait que de faire du buzz pour faire monter l'action en bourse et pas vraiment de proposer de bons services. Ca finira par leur jouer des tours.

25 février, 2008 12:13  
Blogger Jean Véronis a écrit...

Anonyme> Non, c'est vrai, ce type d'organisation à l'aide d'un thésaurus hiérarchique et une catégorisation semi-automatique des articles n'est pas révolutionnaire en soi. Il est mis en place dans de grosses entreprises, par exemple. Mais je n'ai encore rien vu de tel sur un service Web d'actu/blogs.

D'ailleurs, les louanges doivent aller à la fois à Wikio pour l'intégration qu'ils ont faite, mais aussi à Sinequa, car c'est le moteur "sémantique" Intuition qui est derrière...

25 février, 2008 12:16  
Blogger Sébastien a écrit...

Bravo pour cet artcle, j'adore ! Je viens de découvrir votre site via son référencement sur tv5.
Je n'utilise que très peu wikio, mais ça me donne envie d'y voir de plus près.
A bientôt

27 février, 2008 19:25  
Blogger Jean Véronis a écrit...

Merci d'être passé, Sébastien. J'espère qu'on aura l'occasion de discuter. A bientôt.

28 février, 2008 07:27  
Blogger stash a écrit...

Joli outil en effet, et au passage merci pour votre site que je lis depuis un bail et que je trouve fort instructif.

Cela dit, je me demande bien pourquoi les moteurs de recherche principaux n'ont pas donné l'impulsion aux microformats qui auraient pu donner à quelques choses près les même possibilités de "recherche" ciblée (et pas que dans l'actualité).

Un microformat jouant le rôle de "micro-thésaurus" à trois niveaux de hiérarchie que je nommerais genre(s)/catégorie(s)/tags remplirait parfaitement ce rôle, avec une recherche booléenne facultative sur chacun des trois niveaux, les mots clés en plus.

Il suffirait d'une impulsion d'un géant comme google dans ce domaine et je ne doute pas que les sites adopteraient rapidement ce genre de microformat.

Ça n'est pas encore du web sémantique, mais donnerait facilement des possibilités très proches de ce que fait wikio, mais de façon décentralisée, et dans un plus large domaine.

M'enfin, peut être que certains aspects m'échappent, et en attendant, vive wikio que je vais approfondir de ce pas !

28 février, 2008 10:52  
Anonymous Anonyme a écrit...

Certes, mais si vous regardez le bilan comptable, l'entreprise affiche une perte de plus de 500.000 euros. L'investissement est conséquent mais l'économie du business repose sur quelle stratégie ? La pub google et les commissions sur les ventes de la rubrique shopping ? Un peu léger, non ? Surtout que cela reste un pillage intégral de contenus protégés par les droits d'auteurs (articles de presse, auteurs de blog, etc). Très très casse-gueule comme esprit visionnaire... Les médias concernés vont finir par réagir et demander des comptes... Comme ce fut le cas pour Google News... Voila aussi pourquoi Google n'a pas perseverer dans ses développements sur ce dossier : commercialement, C'EST INVENDABLE !

06 mai, 2008 10:51  
Blogger Jean Véronis a écrit...

Je ne suis pas financier, et ne saurais guère avoir un raisonnement intelligent sur ce terrain, mais il me paraît tout à fait logique qu'une startup affiche des pertes pendant la première phase de son existence ! C'est le principe même. Le tout est de savoir si la courbe de revenus est croissante, et où se situe le point de "break-even" (début de la rentabilité) dans le temps.

Quant au pillage, je ne vous suis pas sur ce terrain. Ce moteur ne pille pas plus que les autres (Google, Yahoo, etc.), qui vous fournissent tous les résumés et extraits de news, blogs et sites webs variés. C'est le principe même du Web. Si les moteurs ne pouvaient pas reprendre d'extraits, comment vous fourniraient-ils leur service ? Et que serait le Web sans Google (et les autres) ?

06 mai, 2008 12:04  
Anonymous Anonyme a écrit...

Merci pour vos commentaires.

Il ne s'agit pas de remettre en question le principe du moteur de recherche "tradionnel" qui reste incontestable.

Mais pour des produits comme Google News ou Wikio, le respect des droits d'auteurs ne doit pas être balayé impunément. Les documents indexés par ces sites sont le résultat d'un travail journalistique. Un journaliste salarié d'un hebdo, d'un mensuel... est rémunéré par son employeur soit en tant que salarié (avec un salaire fixe) soit en tant que pigiste. Le contrat entre l'employeur et le salarié précise les conditions d'utilisation des éléments produits par le journaliste (texte, video, photo...). Si un intervenant tiers vient piller ce travail sans rémunérer l'éditeur et/ou le journaliste et qu'il exploite commercialement ce contenu, il court-circuite l'économie de la presse déjà bien malade...

Mon propos se limite au respect des éditeurs de presse. A ce sujet, je vous renvoie aux multiples décisions de justice connues dans ce domaine (voir ci dessous)... Impossible pour Google News d'exploiter commercialement le service. Google a depuis négocié avec les éditeurs, dont l'AFP, mais s'interdit de mettre de la pub... Contrairement à Wikio.

Google News condamné en Belgique : http://www.zorgloob.com/2006/09/google-condamn-par-la-justice-belge.asp

Plainte de l'AFP contre Google News : http://www.pcinpact.com/actu/news/LAFP_porte_plainte_contre_Google_News.htm

06 mai, 2008 14:04  
Blogger Jean Véronis a écrit...

Je ne suis pas du tout d'accord avec vous, cher Anonyme. Votre postulat de base est qu'il s'agit de "pillage", ce qui me paraît faux. Lorsqu'un moteur, quel qu'il soit (de news ou pas) propose un résumé, il ne donne accès qu'à une toute petite partie, pas à l'article entier, et il y a toujours le lien vers les médias, ce qui permet d'aller le lire. Les moteurs sont donc en fait des sources importantes de trafic pour les médias, qui dans leur immense majorité l'ont très bien compris et coopèrent avec eux. Sans les moteurs, bien peu survivraient... Les affaires que vous mentionnez sont anciennes (à l'échelle du Web : 2005, 2006) et les même protagonistes ont bien changé de position depuis... Le Web évolue, et de nouveaux équilibres se forment. Ce n'est pas toujours simple, mais allez demander aux grands médias (Le Monde, Libération, Le Figaro ou autre) s'ils veulent cesser d'être indexés !

06 mai, 2008 14:46  
Anonymous Anonyme a écrit...

Cet article explique parfaitement le problème lorsqu'un éditeur est "pillé" par des pseudo moteurs qui se cachent juridiquement derrière la définition du moteur de recherche :

http://www.moteurs-news.com/blog/index.php/2008/03/24/180-j-aime-pas-wikio

Extrait :
"Bref, je ne vois pas bien l'intérêt d'un site qui reprend du contenu dans une frame, sans faire de lien vers la page source et qui, sur ses pages 'en propre', arrive à coller 2 bannières AdSense plus une vingtaine de liens d'affiliation dans la barre latérale, déjà qu'avant cette version, le trafic apporté était quasi nul."

Ce qui reprend ma position exposée plus haut...

Ou encore ce texte :
http://www.gueuledeloup.com/2007/09/03/google-menace-pour-la-culture/

Bien à vous

06 mai, 2008 20:40  
Blogger Jean Véronis a écrit...

Vous remarquerez au passage que Wikio a enlevé son frame (qui d'ailleurs n'indexait pas les sites...), mais bon, je ne suis pas là pour les défendre, et vous me semblez parti sous couvert d'anonymat dans une croisade dont je ne vois pas bien les tenants et aboutissants... Un concurrent peut-être ?

06 mai, 2008 21:37  
Anonymous Anonyme a écrit...

Monsieur VERONIS
Il n'empêche que la pratique qui a consisté à leurrer l'internaute a subsisté un certain temps.
Pour ma part je ne comprends pas votre acharnement à défendre Wikio sur ce point alors que les intentions initiales de Wikio étaient parfaitement claires.
Vous ne l'auriez pas remarqué ?
Un second anonyme (non concurrent).

31 août, 2008 06:30  
Anonymous Anonyme a écrit...

Personne n'a commente la proposition de Stash autour des micro-formats.
je suis preneur de reflexions et experimentations la-dessus; le Web semantique passera sans doute par ce genre d'usage selon moi.

ANONYM-3

05 septembre, 2008 12:05  

Enregistrer un commentaire