Web: L'API Yahoo, enfin !
Yahoo! vient enfin de mettre une API (Application Programming Interface) à disposition des programmeurs. Voir le site de Yahoo! :
Cette API était très attendue, car, comme j'ai eu l'occasion de l'indiquer (voir ici, ici et ici), l'exploitation des résultats quantitatifs de Google est quasi impossible. Yahoo, au contraire, fournit des résultats qui semblent honnêtes et cohérents (jusqu'à preuve du contraire, bien sûr...). De plus, bien des programmeurs ont sans doute noté que l'API de Google ne donne pas, et de loin, les mêmes résultats que l'interface Web. Sur des mots de fréquence moyenne, l'API Google ne sort qu'environ un cinquième des nombres de résultats de l'interface Web... Par contre sur les fréquences très faibles, les résultats sont identiques. Personne n'a d'explication. Encore une bizzarerie de Google.
De plus, l'API Yahoo! autorise une limite journalière de 5000 requêtes contre 1000 pour Google (pour les recherches Web), et chaque requête peut retourner 50 résultats (contre 10 pour Google). On peut donc au total récupérer 25 fois plus de résultats qu'avec l'API Google.
Plus de résultats, meilleure qualité... Il y a gros à parier que la communauté des développeurs va vite comprendre son intérêt (à moins que Google n'ait une riposte rapide ;-). A suivre !
Cette API était très attendue, car, comme j'ai eu l'occasion de l'indiquer (voir ici, ici et ici), l'exploitation des résultats quantitatifs de Google est quasi impossible. Yahoo, au contraire, fournit des résultats qui semblent honnêtes et cohérents (jusqu'à preuve du contraire, bien sûr...). De plus, bien des programmeurs ont sans doute noté que l'API de Google ne donne pas, et de loin, les mêmes résultats que l'interface Web. Sur des mots de fréquence moyenne, l'API Google ne sort qu'environ un cinquième des nombres de résultats de l'interface Web... Par contre sur les fréquences très faibles, les résultats sont identiques. Personne n'a d'explication. Encore une bizzarerie de Google.
De plus, l'API Yahoo! autorise une limite journalière de 5000 requêtes contre 1000 pour Google (pour les recherches Web), et chaque requête peut retourner 50 résultats (contre 10 pour Google). On peut donc au total récupérer 25 fois plus de résultats qu'avec l'API Google.
Plus de résultats, meilleure qualité... Il y a gros à parier que la communauté des développeurs va vite comprendre son intérêt (à moins que Google n'ait une riposte rapide ;-). A suivre !
2 Commentaires:
Je soumets à votre sagacité, et à celle de vos lecteurs que le sujet intéresse, que l'API Yahoo! ne donne pas tout à fait les mêmes résultats que le site Yahoo! lui-même.
J'ai repéré quelques différences dans les premiers résultats, mais surtout, le nombre estimé de résultats change complètement. Quelques exemples avec des musiciens plus ou moins populaires :
"Michael Jackson" (avec les guillemets)
- Site : 32 800 000
- API : 24 684 298 (75%)
"Alain Souchon"
- Site : 651 000
- API : 207 009 (31%)
"Marc Ducret"
- Site : 51 300
- API : 42 916 (83%)
"Adama Brame"
- Site : 2
- API : 2 (100%)
On peut se demander si j'utilise correctement l'API, pour simuler parfaitement le comportement du site - un biais pourrait se glisser là ; néanmoins je n'ai pas joué avec les options, et c'est pourquoi on pourrait s'attendre à des résultats identiques sinon proches.
Attente bien vaine : on remarquera en effet que les estimations du site sont des nombres arrondis, alors que ceux de l'API ne le sont pas. Et cela, aucune option de l'API ne le contrôle. On a donc bien deux yahoo différents.
PS : le module d'inscription à l'API de Google est complètement buggué, et j'étais bien coincé pour lancer des requêtes en rafale. Et... vous m'avez rappelé que Yahoo! existait encore... Mon dernier mot sera donc : merci !
Encore un commentaire :
Un article très intéressant, accessible à http://www.arxiv.org/pdf/cs.CL/0412098, décrit la "distance Google" entre deux mots/expressions/...
Elle est positive, et d'autant plus petite que les mots sont fréquemment trouvés ensemble. Elle est infinie si ce n'est jamais le cas, et non définie si aucun des mots n'est trouvé.
Elle est basée sur des p(x), p(y), p(x|y) et p(y|x) (pour ceux qui lisent les maths), et fait intervenir... le nombre total de pages indexées (de manière non linéaire, bien sûr) !
En lisant mieux l'article à la lumière de vos recherches, je découvre qu'il calculent la distance de "horse" à "rider" (0.443), en se basant sur 8 058 044 651 !!
Catastrophe !
Bof, de toute façon, cette distance ne me convenait pas dans les cas où l'un des mots était très très fréquent, pire encore quand ils sont tous les deux très très fréquents. On trouve par exemple que "Sonic Youth" (groupe rock noisy New Yorkais - de l'avant garde inaudible pour ceux qui n'écoutent pas cela) est plus proche de "Abba" que ne l'est "Anita Ward" (mais si, l'hymne disco "Ring my bell")
Bref, il faut que je peaufine mes algorithmes - vous aurez compris que les relations entre musiciens était mon dada actuel.
Enregistrer un commentaire