Technologies du Langage: septembre 2005

vendredi, septembre 30, 2005

Yahoo: Site Explorer

On l'attendait depuis quelques semaines, et ça y est. Yahoo! vient d'annoncer officiellement sur son blog la sortie de Site Explorer en version bêta:

Ce nouvel utilitaire permet de savoir combien de pages Yahoo! indexe sur un site particulier, et de voir les URL de ces pages. Jusqu'à présent Yahoo! proposait comme Google un opérateur site: permettant de restreindre les requêtes à un site et donnait toutes les pages du site si ne on précisait aucun mot clé. Exemple:

site:aixtal.blogspot.com

L'inconvénient de cet opérateur était que, contrairement à celui de Google, il ne permettait pas d'interroger un sous-site (c'est-à-dire avec un nom de répertoire après la barre oblique dans l'URL), comme:

www.up.univ-mrs.fr/veronis

Yahoo: rien

Google: 505 pages

Le nouvel outil Yahoo! Site Explorer n'apporte donc pas grand-chose de plus que l'opérateur site: de Google, mais il permet de comparer les deux moteurs:

www.up.univ-mrs.fr/veronis

Yahoo (Site Explorer): 3 281

Google: 505

Yahoo! indexe six fois plus de pages sur mon site que Google (qui s'autoproclame champion toutes catégories)... Curieusement, Google indexe moins de pages HTML (et documents PDF) sur la partie statique de mon site, mais indexe une quantité colossale de pages dynamiques, générées à la volée (et dont je ne suis pas sûr qu'elles améliorent la qualité globale du moteur!):

www.up.univ-mrs.fr/cgi-veronis

Yahoo (Site Explorer): 15 677

Google: 573 000

Il faut voir si cette tendance se confirme, mais je suis sûr que de nombreux autres internautes feront l'expérience!

Une autre fonctionnalité utile de Site Explorer, est le listage des liens qui pointent vers un site ou une URL particulière. C'est ce que faisait déjà l'opérateur link: (qui existe aussi chez Google). Toutefois, la nouveauté, c'est qu'on peut de distinguer les liens qui pointent vers l'URL stricte de la page d'accueil d'un site, de ceux qui pointent vers n'importe quelle page du site. Par exemple:

aixtal.blogspot.com (liens entrants)

Yahoo: 41 500

Yahoo (Site Explorer): 38 301 (URL exacte)
Yahoo (Site Explorer): 44 345 (site entier)

Google: 3 760

On notera que l'opérateur link: du moteur classique ne correspond ni à l'un ni à l'autre des résultats. Peut-être un état différent de la base de donnée utilisée? Là aussi la comparaison est intéressante avec l'opérateur link: de Google. En gros dix fois moins...

Eric Schmidt, le PDG de Google nous a encouragé à faire nos propres tests pour savoir qui de Yahoo ou Google avait la plus grosse (taille d'index). Ce petit test du matin n'a pas valeur statistique, mais bon, ça a l'air mal parti pour l'équipe de Moutain View!

Libellés : Google, Yahoo

10 Commentaires:

Anonyme a écrit...: Bonjour,
tu proposes 4 tests pour les liens entrants sur ton site mais tu as oublié de préciser qu'il en existe un 5e présent en permanence sur ton site : "ils en parlent... liens entrants".

résultat: 46,039 résultats...

Ce que je trouve amusant c'est que tu es plus précis dans cette nouvelle requête car tu as ajouté le protocole (http://) mais Yahoo! retourne quand même plus de résultats.

D'habitude plus on est précis moins on a de résultats. Une explications...?; 30 septembre, 2005 11:11
Loran a écrit...: Bonjour
un mot rapide sur la commande Link de google.
Elle est ostensiblement non exhaustive. Google l'a admis.
Cf par exemple ce lien sur abondance:
http://docs.abondance.com/question85.html
Cordialement,; 30 septembre, 2005 11:15
Jean Véronis a écrit...: MBt> En fait, apparemment, qu'on mette http:// ou pas, ça a l'air de retourner la même chose. La requête qui est dans le billet lui même retourne à l'instant 46 039 résultats elle aussi.... La requête restreinte à la page d'acceuil est montée à 42 449! Donc, soit, Yahoo est en train de mettre à jour sa base (en fait, je pense qu'il ont une indexation en continu), soit on atterri sur des "data centers" qui ont des états légèrement différents... A suivre, en tous cas!; 30 septembre, 2005 11:18
Jean Véronis a écrit...: Loran> Merci pour ce lien (je remet en cliquable: http://docs.abondance.com/question85.html).

J'ai effectivement déjà vu des discussions qui disent que Google ne donne qu'un échantillonnage de backlinks. J'avoue que je ne comprends pas bien pourquoi il ferait ça. Qu'il limite (comme Yahoo) la liste d'URL visisbles à 1000, je le comprends très bien, mais qu'il ne donne pas le compte réel qu'il aurait dans l'index, c'est moins clair. Peut-être des contraintes techniques dues à la façon dont l'index est agencé? Bizarre, quand même...; 30 septembre, 2005 11:23
Anonyme a écrit...: Rappelons qu'on met en français un espace entre la fin d'un mot et un point d'interrogation ou d'exclamation. Je ne sais pas si ce blog les enlève automatiquement car je n'en vois pas.; 01 octobre, 2005 05:15
Jean Véronis a écrit...: Yannick> Je sais bien, et je faisais ça au début, mais il faut comme vous le savez une espace insécable, sinon vous vous retrouvez régulièrement avec des ! ? : en début de ligne. Or, Blogger transfome automatiquement les entités en espace tout court.

Donc, de deux maux j'ai choisi le moindre et j'ai opté pour la suppression des espaces. Pas génial, mais le Web d'une façon générale est une offense à la belle typographie...; 01 octobre, 2005 11:10
Anonyme a écrit...: Une petite coquille... Rien de très important:
"je ne suis pas sûr qu'elle améliorent la qualité globale du moteur!" on doit lire "qu'elleS améliorent"; 01 octobre, 2005 18:18
Jean Véronis a écrit...: coquille: merci! ça améliore la qualité globale du blog ;-); 01 octobre, 2005 18:20
Anonyme a écrit...: Bonjour.
"Toutefois, la nouveauté, c'est qu'on peut de distinguer les liens qui pointent vers l'URL stricte de la page d'accueil d'un site, de ceux qui pointent vers n'importe quelle page du site"

En fait, la commande de Yahoo! linkdomain: permettait déjà d'afficher les liens pointants vers un site tout entier (cf http://influx.joueb.com/news/247.shtml); 02 octobre, 2005 23:20
Jean Véronis a écrit...: Christophe> Oui, mais linkdomain ne permet pas de restreindre l'affichage à un sous-site comme

www.up.univ-mrs.fr/veronis; 04 octobre, 2005 13:35

Wrong
	Normal (false positives)	2
	Spam (false negatives)	1
	Total wrong	3 (8%)

Erroné
	Normal (faux positifs)	2
	Spam (false négatifs)	1
	Total erreurs	3 (8%)

Cherchez sur ce blog

Correct
	Normal	17
	Spam	22
	Total correct	39 (92%)

Correct
	Normal	17
	Spam	22
	Total correct	39 (92%)

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

vendredi, septembre 30, 2005

Yahoo: Site Explorer

10 Commentaires:

mercredi, septembre 28, 2005

Google: 7 candles and a stale cake

2 Commentaires:

Google: 7 bougies et un gâteau rassis

18 Commentaires:

mardi, septembre 27, 2005

Google: Mystery index

0 Commentaires:

Google: Index mystère

15 Commentaires:

vendredi, septembre 23, 2005

Google: Pages à gogo

0 Commentaires:

Google: Pages à gogo

15 Commentaires:

mardi, septembre 20, 2005

Langues: Exercisse de francé

7 Commentaires:

jeudi, septembre 15, 2005

Splogs: Antisplog.net system

1 Commentaires:

Splogs: Système Antisplog.net

5 Commentaires:

vendredi, septembre 09, 2005

Google: Spot the mistake

2 Commentaires:

Google: Cherchez l'erreur

9 Commentaires:

Web: Google, Blogger and splogs

2 Commentaires:

Web: Google, Blogger et le splog

31 Commentaires:

mardi, septembre 06, 2005

Lexique: Magopinaciophilie

8 Commentaires: