Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter

jeudi, février 25, 2010

Ontologies: Perl est une planète du système solaire

Ces temps-ci je travaille sur Wikipedia, qui constitue à la fois une aventure humaine sans précédent (je n'aurais pas parié deux cents sur sa survie il y a quelques années) et un réservoir de ressources fantastiques pour le traitement automatiques des langues. C'est en particulier une immense ontologie, c'est-à-dire un arbre structuré des connaissances, comme on rêve d'en constituer depuis les siècles des siècles (amen). J'y ai fait allusion dans ma dernière diapo ici : on cherche depuis les Sumériens, en passant par Raymond Lulle, Leibnitz et les Encyclopédistes — et le Web sémantique est la dernière invention en date qui vise à organiser le grand Tout.



L'arbre de connaissances de Wikipedia est navigable en ligne :
Ce sont des URL intéressantes à connaître (je pense aux profs de lycée : quelle source magnifique de travaux pratiques !).

Vous connaissez peut-être le langage de programmation Perl — je suis un big fan, mais ce serait le sujet d'un autre billet. Je me suis servi de la page correspondante sur Wikipedia (en) comme test pour déterminer si j'arrivais correctement à trouver sa place dans l'arbre des connaissances wikipédien avec mes petits programmes entièrement roulés à la main.


Suivons ensemble les liens de catégories en remontant dans l'arbre. Les liens sont donnés en bas de page : la page Perl appartient à toutes ces catégories :

Ah... donc apparemment ce n'est pas un arbre. Ou alors c'est un de ces banians indiens auxquels j'ai déjà fait allusion à plusieurs reprises, dont les branches peuvent se rejoindre, et se fusionner... Mais peu importe, si on n'a pas de boucle (je ne veux pas faire le pédant, mais donc si on a un graphe acyclique dirigé), on peut s'en sortir pour bâtir une ontologie. C'est assez classique :


Mais cela demande quand même un peu de soin dans la construction des liens, et on s'y perd vite.

Suivons donc les liens de notre page Perl. C'est une invention américaine. Ok. Je remonte. Pour ne pas vous la faire trop longue, je vous donne le chemin que j'ai suivi au hasard parmi tous les possibles :

Perl est donc une planète du système solaire. CQFD.


Ne croyez pas que ce soit un exemple isolé. C'est en fait de loin la règle, vu la complexité immense du graphe. Dommage... Cela veut dire qu'il reste un travail gigantesque pour arriver à exploiter Wikipedia. En tout cas, par des moyens automatiques, c'est difficile. Il faut saluer l'effort (sans précédent dans l'histoire de l'Humanité, je le répète), que constitue cette entreprise, mais si l'on veut exploiter correctement les connaissances qui s'y trouvent, il va falloir un peu de structuration...


20 Commentaires:

Anonymous Martin Filliau a écrit...

dbpedia.org constitue un bon départ il me semble pour exploiter la Wikipédia (au moins les encadres thématiques)...

25 février, 2010 14:24  
Blogger Jean Véronis a écrit...

Martin> Oui, bien sûr. mais c'est le serpent qui se mord la queue (aïe!). Pour construire DbPedia, il faut pouvoir reconstituer l'ontologie de Wikipedia... Il est vrai que les infobos aident beaucoup, parce que la connaissance y est justement structurée. Malheureusement ils ne concernent pour l'instant qu'une petite partie du total de pages, mais je suis sûr que c'est l'un des évolutions majeures que va subir l'encyclopédie dans les années qui viennent.

25 février, 2010 14:27  
Anonymous Anonyme a écrit...

Mais mais, Jean Véronis, je pensais que vous aviez conçu que le principe des catégories, ce vieux serpent de mer de la sémantique, était mobile comme le vent, c'est à dire, mettons: mobiles comme les représentations que l'on se fait du monde, ce qui en change constamment la taxonomie. Ne pourrait-on pas simplement dire que perl est dans la classe planète de l'univers dans la mesure où, pour le commun des mortel, perl n'est pas assez différencié pour former ne serait ce qu'un petit satellite de la classe langage? Qu'est ce que ça donne pour "littérature" ? est ce pour wikipédia une invention humaine qui est dans l'univers ?

25 février, 2010 15:00  
Blogger Jean Véronis a écrit...

Oui, vous avez raison... Dans ce cas, c'est une vision surréaliste du monde ;-) La Terre est bleue comme une orange, n'est-ce pas ?

25 février, 2010 15:02  
Anonymous Anonyme a écrit...

Ca n'a en fait rien de pédant. Mais j'aurai mis "orienté".

(Ou alors, c'est un clin d'oeil aux JO ? parce que Graphe dirigé, ça fait 'québécois'. Avec l'accent évidemment. Et là, du coup, j'imagine le commandant du vol DC 132 me faire un cours de Théorie des Graphes, et là, ça n'est plus possible...)

V, Troll.

25 février, 2010 15:10  
Blogger Jean Véronis a écrit...

J'ai toujours dit "dirigé"... Mais je suis irrémédiablement frangliché.

25 février, 2010 15:13  
Blogger Vicnent a écrit...

plus sérieusement, la W n'est pas acyclique malheureusement : en EN, Relations Internationales est une sous catégorie de Géographie Politique et ... vice versa :-(

Sinon, un outil. (Essayez 'Perl' justement)

25 février, 2010 15:30  
Blogger Jean Véronis a écrit...

Ca c'est moins bien... Mais je pense que les Wikipediens pourraient facilement mettre en place une détection des boucles et refuser les créations de catégories qui ferment des chemins...

25 février, 2010 15:51  
Blogger Mortimer a écrit...

il faut noter que DBpedia par example cherche à structurer Wikipedia. Mais ce qui se rapproche le plus de cet article (en particulier sur la partie automatique) est tout le travail fait par YAGO: http://www.mpi-inf.mpg.de/yago-naga/yago/ pour lier Wikipedia et Wordnet pour generer une grosse Upper Ontology.

25 février, 2010 17:30  
Blogger Jean Véronis a écrit...

Oui, tout à fait. Nos amis allemands sont très actifs dans ce secteur. Comme d'hab on est à la traîne...

25 février, 2010 17:39  
Blogger Antoine a écrit...

Bonjour,
J'examine vos raisonnements aussi souvent vous nous le permettez, et à chaque fois je m'en régale silencieusement...

Aujourd'hui, je ne comprends pas très bien pourquoi vous choisissez la catégorie de manière aléatoire dans la liste de catégories auxquelles elle appartient. J'ai l'impression, sur les quelques pages que je viens de regarder que la première est toujours acceptable sémantiquement. (Pas forcément celle que j'aurais choisie à un instant donné, mais qui donne un résultat acceptable.)

Ainsi, dans votre exemple, on obtiendrait :
Perl
Programming language families
Programming language
Computer language
Computing
Information technology
Technology by type
Technology
Main topic classifications
Articles
Contents

Mais peut être n'ai-je pas compris ce que vous souhaitiez faire ! ou sinon, peut-être aussi que cette généralisation à un (quelques) cas est loin de fonctionner de manière homogène sur l'ensemble des connaissances.

Merci pour votre éclairage.
Cordialement,

25 février, 2010 21:03  
Blogger Jean Véronis a écrit...

Oui, la première catégorie est souvent meilleure, mais je n'ai pas vu de méta-règle sur Wikipedia qui impose de mettre les catégories dans un ordre particulier, et les utilisateurs font un peu selon leur feeling.

Un conte-exemple c'est justement la catégorie "categories by country". Sa première catégorie est "Countries", ce qui est erronée (c'est d'ailleurs là la source du rattachement amusant que j'ai signalé).

Par ailleurs, il y a de nombreux cas où non seulement la première catégorie, mais plusieurs sont également légitimes. C'est le cas sur la catégorie Perl d'ailleurs. Donc comment faire ?

Il manque manifestement un typage plus strict des relations entre catégories. Souvent ces relations sont du type "est-un", mais pas toujours (comme dans le cas "Country").

25 février, 2010 22:03  
Blogger Jérôme a écrit...

J'ai remarqué le même phénomène dans le référentiel Rameau. On a principalement deux types de relations : 'est une partie de' (la terre est une partie de l'univers), 'est un' (Perl est une invention américaine). Alors quand on écrase la sémantique voilà ce que ça donne : Perl est une planète du système solaire. Dans le cas Rameau, cela donne 'lundi est une planète'. Après cela, il faut expliquer aux clients pourquoi tel article d'astrophysique remonte lorsque l'utilisateur tape "mercredi"...

25 février, 2010 22:32  
Blogger Jean Véronis a écrit...

Oui, c'est bien cela. On a plusieurs types de relations et quand on les mélange sans les typer c'est extrêmement difficile d'appliquer des algorithmes et surtout de profiter de la transitivité du réseau. Par exemple, il est bien difficile en suivant les catégories de Wikipedia de savoir avec certitude si une entrée est une personne ou pas.

25 février, 2010 23:08  
Blogger ke a écrit...

Le graphe des catégories n'est pas une ontologie, c'est un classement thématique. Evidemment, tous les relations ne sonst pas du type "est-un". Il y a aussi des relations purement thématiques, et là on peut dire que country < categories by country est raisonnable.

http://en.wikipedia.org/wiki/Wikipedia:Categorization#The_category_system

Peut-être qu'il faut donc une méthode pour distinguer automatiquement les "topic categories" et les "set categories"...

25 février, 2010 23:10  
Blogger Jean Véronis a écrit...

Oui, c'est bien de cela qu'il s'agit. Les types sont mélangés. Mais je ne vois pas de procédé automatique permettant de démêler l'écheveau, hélas...

25 février, 2010 23:13  
Blogger Etienne B. a écrit...

On peut déjà filtrer les catégories qui comprennent dans leur nom :
"List", "Categories", voire même " by "

26 février, 2010 04:11  
Blogger ke a écrit...

S.P. Ponzetto et M. Strube (2007, "Deriving a large scale taxonomy from Wikipedia") décrivent comment démêler l'écheveau. ;-)

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.9954&rep=rep1&type=pdf

26 février, 2010 21:32  
Blogger Jean Véronis a écrit...

Ke> Oui, c'est un article très intéressant. Il montre bien la difficulté de la chose : malgré la complexité des traitements mis en oeuvre, les résultats sont loin d'être parfaits !

26 février, 2010 21:37  
Anonymous Anonyme a écrit...

"La Terre est bleu comme une orange".

D'où le curaçao bleu !

03 mars, 2010 00:07  

Enregistrer un commentaire

mercredi, février 17, 2010

TAL: Reconnaissance des entités nommées

Philippe Yonnet m'a invité à parler du problème de la reconnaissance des entités nommées à SEO Campus 2010 (samedi après-midi : j'aurai peut-être le plaisir de rencontrer certains d'entre vous). C'est un des problèmes difficiles, mais très importants du traitement automatique des langues (TAL) : il s'agit en gros de la reconnaissance des noms de personnes, d'entreprises, produits et marques, des toponymes, etc. — toutes choses que vous m'avez vu faire ou commenter sur ce blog (par exemple dans les nuages de buzz).

Je mets mes diapos ci-dessous. Il n'y a pas le son, mais peut-être pourrez-vous en tirer quelque chose quand même... J'en reparlerai certainement un de ces jours plus en détail !


8 Commentaires:

Blogger Jérôme Charron a écrit...

Présentation très complète sur le sujet!
Je ne serai pas là, mais mon spécialiste référencement sera là lui!

17 février, 2010 14:22  
Blogger Jean Véronis a écrit...

Dommage, une petite bière n'aurait pas été de refus : c'est toujours un plaisir de se rencontrer et d'échanger, sur les moteurs et autres !

17 février, 2010 14:31  
Anonymous Jean-Baptiste Ingold a écrit...

Je signale l'outil de Reuter OpenCalais.

Reuter a fait des partenariat divers et notamment des firmes spécialisées en Drupal. Notament OpenPublish une distribution pour les site médias.

Elle offre par exemple la possibilité de créer des hubs par concept. Cela est trés intéressant pour le SEO.

Je l'ai testé sur une source française ca peut fonctionner sur les entités géographiques.

Je pourrai vous faire une démonstration mais je ne suis pas présent ce WE à votre présentation n'étant pas spécialiste SEO.

Par contre nous ferrons un DrupalCamp le 20 mars à Marseille.

17 février, 2010 15:14  
Blogger Jean Véronis a écrit...

Jean-Baptiste> Je le mentionne dans les diapos. Très bel outil en effet, qui s'est bien amélioré récemment !

17 février, 2010 15:17  
Anonymous Anonyme a écrit...

Pas le temps d'aller au Musée de l'Informatique, à La Défense !!
http://www.museeinformatique.fr/
Mais vous povez en parler.. pour la prochaine fois..
Cordialement
Nicole

17 février, 2010 17:42  
Blogger Jean a écrit...

J'avais l'impression de vaguement comprendre les enjeux et difficultés de la démarche jusqu'au 38/39...

Celui-là, sans le commentaire ;-) Ouch

@jmeyran

20 février, 2010 11:14  
Anonymous Olivier o a écrit...

Merci pour partager cette présentation avec les personnes qui n'ont pas pu assister à la conférence. La présentation semble très complète et permet de bien comprendre le domaine.

23 février, 2010 23:34  
Anonymous LYG a écrit...

Je soumet à la communauté "entités nommés" une tempête. Elle se nomme Xynthia mais un prénom ne suffit pas semble t'il pour se faire une place au soleil dans les entités. Le Wikio trends n'est pas tendre non plus avec la tempête 1 VS catastrophes naturelles 134 du 27/02 au 02/03/10

03 mars, 2010 17:31  

Enregistrer un commentaire

mardi, février 16, 2010

Moteurs: Recherche géographique sur Orange

Vous savez que je ne rate jamais une occasion de souligner qu'il n'y pas que Google sur la Terre, fût-elle virtuelle. On fait de la très belle techno du côté de Mountain View, avouons-le (et un très beau marketing), mais cette tendance à la pensée unique 2.0 m'effraie un peu. J'aime bien la diversité. Voici donc des nouvelles d'un petit moteur gaulois, qui résiste encore (et toujours) à l'envahisseur...

Orange vient de mettre en ligne sa fonction de recherche géographique. Tapez "Quelle est la capitale de l'Australie ?", "Quelle est la population du Liechtenstein ?" ou "Quelle est la monnaie de l'Islande ?" dans lemoteur.fr et vous aurez la réponse à vos questions. Vous n'avez pas besoin de taper tout ça, d'ailleurs, tapez seulement "capitale australie", "population liechtenstein", "monnaie islande" et le résultat sera le même.




Oui, j'entends déjà les commentaires. Google le fait... Ok. Mais comme souvent, Google le fait à peu près, et dans ce cas précis notre technologie gauloise le fait mieux, même s'il reste encore et bien sûr de petites améliorations à apporter (c'est un problème difficile).

Cherchez par exemple "prince monaco" sur orange :

 et sur Google :
 

Quand Google n'est pas complètement à côté de la plaque...


Mais surtout, ce qui me paraît intéressant c'est qu'Orange va plus loin au niveau local. Exemples :

Le mécanisme se base d'un côté sur une analyse des requêtes, qui essaie de détecter la conjonction d'un terme déclencheur (maire, population, superficie, monnaie, etc.) et d'une entité géographique (pays, région, département, commune, etc.), et de l'autre côté sur l'analyse des entrées Wikipedia. Vous avez certainement remarqué que, depuis quelque temps, la quasi totalité des entrées géographiques contiennent des encadrés avec de nombreux détails administratifs, démographiques ou autres. Il "suffit" de les analyser pour constituer une base de faits tout à fait impressionnante :


 

Le projet DBPedia, d'ailleurs, vise à analyser de façon systématique les entrées de Wikipedia (pas seulement géographiques !) et à les transformer en une base de données exploitable. Gageons que les moteurs intercepteront une proportion de plus en plus grande de nos requêtes, et que "chansons cabrel", "albums michael jackson" ou "romans victor hugo" nous renverront des résultats structurés. Peut-être que c'est ça le Web sémantique, finalement. Je connais des lycéens qui vont être ravis !


Voir aussi



10 Commentaires:

Blogger Mathieu a écrit...

Un site comme Wolfram Alpha donne aussi d'exellent résultat sur ce type de recherche même si a base est encore assez pauvre hors des US et que seul l'anglais est disponnible.
Le summum étant atteind avec une recherche complexe du type "Weather in Los Angeles when Angela Merkel was born"

16 février, 2010 15:18  
Blogger Jean Véronis a écrit...

Le but de Wolfram Alpha est encore bien plus ambitieux, mais pour l'instant effectivement, restreint à l'anglais. D'ailleurs ça a attiré l'attention de Microsoft (voir ici, qui est évidemment aussi sur ce genre de recherches.

16 février, 2010 15:27  
Anonymous Anonyme a écrit...

euh par contre... mauvaise blague... regardez donc la première suggestion lorsque vous commencez à taper "comment s"
C'est un moteur Orange c'est ça ? :-/

16 février, 2010 15:51  
Blogger Jean Véronis a écrit...

La fonction d'autocomplétion n'est pas bonne, c'est clair - ça fait partie des points à améliorer !

16 février, 2010 16:04  
Blogger Jérôme Charron a écrit...

J'ai déjà eu l'occasion d'en parler qqs fois, mais DBPedia est un formidable projet sur lequel il est possible de construire des services à forte valeur ajoutée.

16 février, 2010 16:05  
Blogger Jean Véronis a écrit...

Oui, au début j'étais unpeu sceptique, mais il y a eu des progrès spectaculaires. C'est tout à fait fascinant de voir une telle auto-organisation de la connaissance émerger - je veux dire par des milliers d'humains qui apportent chacun leur petite brindilles, comme des fourmis... Je crois que c'est unique dans l'histoire de l'humanité.

16 février, 2010 16:08  
Blogger L'autre je a écrit...

Merci pour l'info !

16 février, 2010 18:12  
Blogger Jean a écrit...

2 détails :
1 Si j'ai tout compris (ce qui reste à voir) on passe de l'hégémonie Google à celle de Wikipedia (éminemment plus transparente, j'en conviens)

2 comme suggéré, j'ai tapé "comment s" avide de découverte, franchement je m'attendais à plus grivois et moins glauque ;-)

Bonjour chez vous

16 février, 2010 21:03  
Blogger Jean Véronis a écrit...

Jean>

1) Oui, c'est à surveiller aussi, mais on n'a pas Wikipedia comme filtre de l'accès information et réservoir mondial de données personnells pour l'instant... Ceci étant, il y a là aussi une forme de pensée unique qui me gêne (la soi-disant neutralité qui transforme la pensée en bouillie pour les chats, etc.).

2) Ca reflète ce que tapent les internautes "brut de décoffrage" (ou avec juste un petit filtre anti-porn), donc c'est une reflet de la grandeur et de la misère humaine... Enfin, c'est à améliorer, c'est clair !

16 février, 2010 21:08  
Anonymous Anonyme a écrit...

le moteur tiens aussi compte de faute de frappe sur les noms de ville, et peut même faire parfois dl sémantique

Par exemple essayez :
population bretagne
puis:
population région bretagne
puis:
population ville bretagne
et enfin
population bretagne dans l'indre

pas mal non , merci la linguistique ;-)

04 mars, 2010 18:10  

Enregistrer un commentaire