Si vous lisez régulièrement ces modestes pages, vous avez sans doute constaté que je cherche depuis plusieurs années de nouveaux modes de
visualisation et de structuration de l'actualité. Vous m'avez sans doute vu expérimenter plus ou moins laborieusement au fil du temps des outils de toutes sortes, des nuages, des arbres, des courbes... Parfois j'en rêve la nuit. L'un des sujets qui me fascine le plus c'est l'
auto-émergence de l'information. Le Web, vous en conviendrez sans doute, est de plus en plus illisible, par sa simple masse. Je ne vais pas vous sortir la tarte à la crème de l'océan d'information, mais vous vous êtes probablement senti au bord de la noyade les jours où votre reader RSS déborde, où votre client Twitter explose, sans parler bien sûr de vos centaines de mails qui vous piquent toutes les minutes comme des hordes de moustiques insatiables, des Skype, GTalk et autres fenêtres démoniaques qui bippent sans relâche dans tous les coins de votre écran. Si ce n'est pas l'enfer 2.0, ça y ressemble : ça blogue, ça commente, ça piaille, ça twitte en tous sens, et celui qui veut suivre toute cette diablerie déchaînée est condamné à un zapping infernal, dont on peut se demander ce qu'il retire. Trop d'info tue l'info. Faire émerger de ce magma les signaux intéressants, voilà le Graal algorithmique que je poursuis, et depuis que Wikio a bien voulu me confier le pilotage de ses Labs, je consacre à cette quête une bonne partie de mon temps et de mon énergie.
Je vous ai parlé il y a quelques mois d'un projet du nom de code
Twikio, en beta sur
Wikio Labs. Après pas mal de recherches, d'expérimentations et de réglages (et pas mal de sueur), le projet a fait son chemin sur la page d'accueil de Wikio, qui présente désormais une sélection d'infos sur des principes radicalement nouveaux.
Les infos sont sélectionnées automatiquement sur la base de critères multiples. Tout d'abord les
backlinks, ou rétroliens si vous préférez du bon français. Mais comme j'ai eu l'occasion de le dire à plusieurs reprises, ils ont tendance à se tarir (plus le temps ?), et de toute façon ils ont un inconvénient notable, leur manque de fraîcheur. Le temps de lire un article, d'écrire un billet qui en parle, d'y coller péniblement un lien (
bordel !), de le publier, puis d'attendre que Wikio le capture et le passe dans sa moulinette, plusieurs heures se sont certainement écoulées. L'élément nouveau est donc la prise en compte de
Twitter, dont l'immédiateté est proprement stupéfiante. Il faut croire que les gens ne sont pas au boulot : même en pleine journée, dans la minute où un article est publié, les premiers twits arrivent... Et ils sont pléthore. Là où on attrape péniblement un maigre backlink ou deux, ce sont souvent des filets pleins de dizaines de twits bien gras que l'on récupère — en France, car aux Etats-Unis, ils se chiffrent par centaines, voire par milliers. Sagesse des foules, ou sagesse des fous, je ne sais pas, mais les internautes nous indiquent collectivement ce qui est important pour eux dans l'overdose d'information quotidienne. En prime, les internautes peuvent aussi
voter sur le site, et j'ai souhaité que ces votes aient une forte influence. Les lecteurs eux-mêmes doivent pouvoir compléter la recommandation des réseaux sociaux, et la "communauté Wikio" doit pouvoir influer collectivement sur ce qu'elle a envie de lire.
L'idée est simple, je crois d'ailleurs que d'autres l'ont essayée. La réalisation est terriblement difficile. Si vous avez regardé quelques services qui ont tenté d'organiser l'actu en utilisant la "recommandation sociale", vous avez sans doute constaté leur caractère quelque peu décevant (et encore la plupart du temps ne s'attaquent-ils qu'à l'anglais). Les difficultés techniques sont immenses. Le Web 2.0 n'est pas du tout un long fleuve tranquille, et les foules ne sont pas aussi parfaites et disciplinées qu'on l'aimerait. J'ai eu l'occasion de décrire (
ici) l'hétérogénéité extrême des comportements face aux outils sociaux, avec en particulier un taux de retwittage variant de 1 à 1000 selon les communautés. Si l'on classait simplement les infos par nombre de retwits (retweets?), la home ne contiendrait que de la high-tech... Autre difficulté, certains médias (et quelques blogs) publient des dizaines, voire des centaines, d'articles par jour. Même si on règle le problème de la high-tech, on n'aura en home que du Monde et du Figaro. Le blogueur normal, avec ses deux ou trois billets hebdos a bien peu de chance d'émerger de la masse. Et pourtant, il a souvent quelque chose à dire qui mérite d'être au moins autant mis en avant que les innombrables et fastidieux copier-coller des dépêches AFP que nous servent hélas copieusement les médias.
Le cœur de la mécanique que j'ai mise au point consiste à déterminer automatiquement quelles pondérations il faut appliquer à tout cet écosystème. La force de la machine Wikio c'est la connaissance fine des sources, que vous avez pu voir construire étape par étape sur les
Labs (en particulier dans les
Pages Sources) : catégorisation, métriques diverses, réseaux de voisinage, etc. Toutes ces informations peuvent être utilisées pour pondérer les différentes composantes de la recommandation (backlinks, retwits, votes). Bien entendu, pas question de fixer des valeurs à la main, ce serait infaisable et impossible à maintenir. Le système auto-apprend, et s'améliore en fonction de son historique (on appelle ça "
machine learning" dans les soirées chic). Le Wikio nouveau est donc comme le dit
Pierre, d'une certaine façon un Digg, mais un Digg bien plus complexe (et espérons-le moins bruité) — un "
Digg social", qui prend en compte d'autres sources de recommandation que les simples votes (la prochaine étape sera Facebook), et surtout qui exploite le trésor de connaissances que Wikio a engrangé sur ses 1,2 M de sources au fil des années.
Le but était de faire émerger le
signal faible, l'actualité insolite, décalée, polémique. Si vous voulez l'actu classique, plus factuelle, façon AFP, elle est toujours disponible
ici, avec un flux RSS correspondant. Le parti pris était aussi de mélanger médias et blogs, parce que chacun apporte sa lumière à sa façon, mais des filtres seront bientôt ajoutés pour ne lire par exemple que la partie blog pour ceux qui le souhaitent. Enfin, si vous pratiquez quelque peu la xénophilie (non ce n'est pas un
gros mot), vous serez sans doute intéressés par les versions
www.wikio.co.uk,
www.wikio.de,
www.wikio.es,
www.wikio.it,
www.wikio.com.
J'ai entendu dire que c'était la plus grosse évolution depuis le lancement de Wikio, je vous en laisse juges. En tout cas, pour moi c'était certainement l'aventure la plus fascinante, même si elle m'a pourri l'été. Et elle est loin d'être terminée ! Cette version n'est pour moi encore qu'une pâle approximation de ce que j'ai en tête. Ne croyez pas à travers mon enthousiasme un peu enfantin que je n'en connaisse pas les défauts et les limites. Il y a encore bien des scories. Mais chaque chose en son temps... Chaque jour montre les imperfections de la veille, et chaque jour est une recherche. Vos remarques et vos commentaires seront comme toujours les plus précieux.
J'adresse enfin un immense merci à l'équipe de R&D qui m'a fait confiance dans ce projet un peu fou, notamment Thomas dont c'est littéralement le bébé (en plus d'un vrai qui vient de naître, ce qui lui a sans doute doublement détruit le sommeil), Alexis, Sébastien, et tous ceux qui ont mouillé leur chemise cet été pour glisser ce nouvel outil dans votre cartable avant la rentrée.
Et maintenant, à vos votes, que l'Actu commence !
10 Commentaires:
Politiques de tous bords... Au moins un d'entre eux a cette phrase de René Char dans son blog,
http://villepinoulenergiedelaction.over-blog.com/article-4348827.html
c'est Villepin, justement.
Au moins Villepin a de la culture, et de la classe. Ca nous changerait de certains si jamais...
Pourquoi parler d'expression anglaise pour glissement de langue ? Lapsus, abréviation de lapsus linguae signifie bien cela.
Ah, oui, c'est vrai en effet ! j'avais en tête le slip of the tongue. Du slip à la fellation, ma foi...
Tiens,c'est curieux : Messieurs Hortefeux et Besson n'ont semble-t-il, dans leur chasse aux Roms, pas pensé à inquiéter nos Bobos, qui sont bien, cependant, des bourgeois-Bohème !
D'où vient qu'on appelle "bohème" un style de vie artiste et pauvre ? Est-ce lié aux "Bohémiens",les Roms, dont un certain nombre exerçaient des professions en rapport avec le spectacle, notamment le cirque ?
Puisque vous parlez du scribe de l'Assemblée, il faut remarquer que son travail est extrêmement difficile : il doit produire un texte proche de celui qui a été prononcé tout en le traduisant dans une langue que je qualifierais volontiers de "oral écrit" qui n'est ni de l'écrit, ni de l'oral. Cela implique souvent de la réécriture mais aussi et surtout l'élimination de scories diverses dont le maintien perturberait le lecteur, comme les heu, les hum et autres onomatopées. On peut éventuellement classer parmi ces scories les lapsus pour autant qu'ils n'aient pas de signification politique (même s'ils en ont une psychanalytique ou humoristique).
Cela donne une tension entre deux devoirs contradictoires pas toujours évidente à résoudre.
Anonyme> Oui, bien sûr c'est lié aux Bohémiens dont le mode de vie libre avait fasciné les Romantiques (voir billet suivant)...
JCD> Oui, je connais bien ces problèmes. L'équipe de recherche que j'ai dirigé il y a quelque temps était spécialisée dans la transcription de corpus oraux. Si l'on transcrit fidèlement (avec les euh, reprises, erreurs, etc.) la parole est quasi incompréhensible. L'interlocuteur humain filtrer toutes ces "scories" d'une manière dont on a rarement idée avant de se pencher sur la question !
Mme Dati, J'adore !
Chassez le naturel il reviens au galop.
j'habite la plupart du temps au Maroc, je sais de quoi je parle :D
Votre équipe avait un objectif différent de celui d'une équipe de compte rendu parlementaire. Les transcripteurs parlementaires ont un rôle de publicité des débats fondamental, sans eux la publicité des débats parlementaires ne serait qu'un leurre. Cela implique de rendre intelligible les propos des parlementaires et des ministres pour un citoyen auquel on ne demande l'exercice d'une seule compétence : savoir lire.
Je dirige un tel service et ce n'est pas de la tarte !
Enregistrer un commentaire