Reportage

 

Google, Altavista et les autres …

Publié le 22-02-2004 dans le thème Tous thèmes

Pays : Europe - Auteur : Damien Bancal


Pub : Participez à des batailles navales sanglantes et gagnez 10000 € sur Bigpoint.fr

Note des lecteurs: 1.8/5

Google, Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent le monde Internet ? Est-ce que certains de ces outils peuvent se retourner contre les Internautes. Découverte de l'autre facette des moteurs de recherche.

Traque sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de recherches et plus exactement aux algorithmes de classification. Pour comprendre le fonctionnement d'un moteur, il faut expliquer le processus pour arriver à afficher les premiers résultats : d'abord constituer une base de sites, puis les sonder en les classant dans des thèmes généralistes (Informatique, Jeux, Sport, Nature…) en fonctions de paramètres.

Pour en savoir plus
Les secrets des moteurs de recherche

http://www.Linterweb.com

A Standard for Robot Exclusion", Martijn Koster
http://info.webcrawler.com/mak/projects/robots/norobots.html

The Web Robots Database
http://www.robotstxt.org/wc/active.html
http://www.robotstxt.org/wc/active/html/type.html

Ainsi lorsqu'un utilisateur effectue une requête, le moteur commence par déterminer le thème auquel se rapporte le vocabulaire de la recherche, puis classe par pertinence les documents. Du coup la qualité d'un moteur par rapport à un autre se situe dans le nombre de sites qu'il contient. Pour mesurer la taille de cet index nous avons donc cherché 40 000 mots français et examiné les 100 premiers résultats, voici ce qui en ressort : All the web : 259 636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144 945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr). Il est à noter que seul Altavista propose une recherche "Française" tandis que les autres, ciblent les "Francophones" ce qui englobent le Québec, la Belgique,…

Etranges résultats
Ensuite nous avons étudié les résultats de Google, et nous sommes tombés sur quelques interrogations : Premièrement ces recherches étant effectuées par un mot clé il ressort qu'il faut absolument l'avoir dans l'adresse de son site : ex "allo". Google nous renvoie sur des liens tels que allocine.fr , allocine.com, alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains comme "cinéma" : où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr, cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien à voir avec le cinéma. Autre question, pourquoi sur 40 000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse est que Google modifie ces algorithmes en fonction de l'importance du mot clé cherché.

Référencement de la mort
Voici une méthode pour bien référencer son site. Prenons le cas d'un site en flash, qui se retrouve comme par miracle dans les 10 premiers du moteur de Recherche Google. On veut bien que beaucoup de site pointent vers lui, mais bon il faut tout de même un minimum de contenu. Les concepteurs de ce site en flash vont faire appel à la méthode qui tuera toute concurrence, le référencement Caméléon ! En quoi consiste cette méthode ? Elle est assez simple si on connaît un peu ses protocoles et bien sûr un minimum les algorithmes des moteurs (Ce qui d'ailleurs représente le plus de travail en terme de veille technologique, ndlr). Chaque moteur de recherche possède un ou plusieurs bots qui parcourent le web, pour aspirer les pages, afin de les classifier dans de superbes bases de données, qui peuvent s'étendre sur des centaines de serveurs.

Chaque bot possède lui aussi une identité, tout comme vous et moi. Peu importe le lieu de connexion, il va laisser une empreinte, par exemple : crawler12.googlebot.com pour un des bots (spider dans le jargon d'un référenceur, ndlr) de Google. En lisant un peu les RFC du protocole HTTP et en sachant coder un minimum, on devine que l'on peut récupérer cette empreinte de moteur de recherche avant de présenter le contenu de la page appelée. Ce qui veut dire que l'on pourra lui présenter un contenu
Sur mesure. Une belle base de donnée des empreintes de la plupart des moteurs, une base de donnée de page " caméléon " optimisée pour le référencement dédié au moteur de son choix, et notre site en flash laisse apercevoir une frame cachée pour le moteur avec plein de mots clés à l'intérieur… ou carrément laissé apparaître un autre site, mais heureusement l'option de cache de Google dévoilerait le pot au rose rapidement. Mais Google n'est pas l'unique (mais combien merveilleux, ndlr) moteur de recherche.

Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.

Deuxièmement, Google annonce qui balaye l'ensemble de son index au bout de quatre semaines. Pourquoi alors sur le mot "goret". Le site *.un.goret.org est référencé depuis maintenant un an ?
Notre Hypothèse est que Google respecte certainement ce délai mais uniquement pour certains sites. En effet un site comme tf1.fr ou comme allocine.com, qui ont un contenu suivant l'actualité, doivent donc être sondé par Google à des intervalles beaucoup plus petit. Troisièmement et dernière interrogation, le taux de sites personnels par rapport au site professionnels, est de 1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania, free, ou autres) de référencés ? Notre Hypothèse est qu'Internet regorge de sites personnels puisque c'est la base de ce réseau, mais comme Google accorde beaucoup d'importance au type de sites, les pages personnelles ne sont pas mises en valeur. Du coup il faut vraiment que la recherche ne soit pas trop généraliste pour que votre site perso ait la chance d'apparaître.

 

Conseiller cet article Réagir RSS ZATAZ Partager cet article sur Wikio Partager cet article sur Scoopeo Digger cet article ! Partager cet article avec mes amis sur Facebook ! Partager cet article sur Fuzz Partager cet article sur del.icio.us Envoyer cet article sur Blogmarks

Derniers contenus

Concours Coca Cola 2008

Vous venez de gagner un lot de 32.000 euros via un concours organisé par Coca-Cola. Une arnaque sans sucre.

Fuite de données via Google Bloc-notes

Un commercial de la société Vonage enregistré ses notes et données sensibles sur son espace privé Google Bloc-notes.

Un nouveau ver s'attaque aux réseaux d´entreprise

Une alerte concernant les nouvelles versions du ver Downadup. Ce ver infecte les postes de travail et serveurs Windows.

Espionnage informatique effectué par la police

Le département britannique de l´Intérieur annonce préparer un plan qui permettra à la police d´infiltrer et espionner les ordinateurs personnels de l´ensemble des citoyens.

Université des Correspondants Informatique et Libertés

L´Association Française des Correspondants Informatique et Libertés organise le 21 janvier prochain sa 3ème Université des Correspondants Informatique et Libertés.

La justice Chinoise s´attaque aux contrefacteurs

La Chine a rendu public huit importants cas de réseaux de contrefacteurs de films, logiciels et livres.

L´actualité juridique du mois de décembre

Comme il est de tradition sur ZATAZ depuis 13 ans, voici les actualités mensuelles de Maître Murielle Cahen, avocate spécialisée dans les NTIC.

Mort de Castlecops

Castlecops, association qui travaillait sur la cybercriminalité, vient d´annonce la cessation de ses activités.

Sur le même thème : Tous thèmes

Des images pour adultes sur le site d'une Prefecture Française !

Exclusif : La Préfécture de l'Yonne propose sur son espace web officiel un programme sportif qui risque de finir dans le journal du Hard !

Chrome aurait grignote du cote du code source de Microsoft

Google aurait désassemblé le code source de Windows Vista afin de faire fonctionner son navigateur Internet Chrome.

Le cheval de Troie avait des plumes

La police bosniaque arrête un dangereux cheval de Troie agissant dans une prison du pays. Le trojan avait des plumes !

Stitcher Unlimited 2009 et ImageModeler 2009

Ces logiciels proposent des capacités avancées de création de panoramas et de modélisation 3D à partir d’images 2D

Une fréquence pour HAG’ FM

Le Conseil supérieur de l’audiovisuel, réuni en assemblée plénière le 22 juillet 2008, a sélectionné les candidats à l’exploitation de 279 fréquences FM.

L'armée française a infiltré FREE

Exclu - Étrange lien de redirection vidéo sur le site officiel du Ministère de la Défense Française.

Force Commerciale

Force Commerciale : recrutement de commerciaux et actualité de la vente.

WESTCON SECURITY lance une nouvelle formation

Pour répondre à une demande forte du marché, Westcon Security France élargit son catalogue avec une formation sur les fondamentaux de la sécurité des systèmes d’information (SSI).

Vos réactions ( 0 )

Réagissez à ce contenu

Réagir

Vous devez vous identifier pour ajouter un commentaire.

Cliquer ici pour vous inscrire.

Derniers communiqués de presse

Microsoft Techdays

3ème édition des Microsoft Techdays, le rendez-vous des professionnels de l´informatique, développeurs et décideurs techniques.

IMAGE X5

KLIPSCH dévoile ses nouveaux écouteurs : IMAGE X5, l’audio à emporter.

DiVX basé sur le H.264

DivX annonce la nouvelle génération de son logiciel, DivX 7, basé sur le H.264 La nouvelle version permet de lire des vidéos HD, sur les PC et d’autres appareils.

Dans la boule de cristale de Websense

Prévisions des actes de piratage informatique en 2009 par les laboratoires de sécurité Websense.

Stars-buzz.com

Calendrier Aubade: janvier

La marque de lingerie féminine, Aubade, nous a encore une fois gratifié d?un sublime calendrier mettant en scène ses divers produits. Retrouvez la page du mois de Janvier. Une leçon de séduction en douze parties qui fait merveille dans le calendrier 2009 de la marque de lingerie Aubade. Ce dernier est téléchargeable ici. Nous vous proposons chaque [...]

Calendrier Aubade 2009

La marque de lingerie féminine, Aubade, nous a encore une fois gratifié d’un sublime calendrier mettant en scène ses divers produits. Retrouvez la page du mois en cours. Une leçon de séduction en douze parties qui fait merveille dans le calendrier 2009. Ce dernier est téléchargeable ici. Nous vous proposons chaque 1er du mois de retrouver la [...]

Stars-Buzz.com, deuxième

Bonjour, Stars-buzz.com n’est pas mort. Toujours là pour vous faire croustiller de news sur le cinéma, la musique, le cinéma. Le grand retour de vos actualités décalées comme vous les aimé à partir du 1er janvier 2009. Une légère boulette informatique a fait que nos serveurs ont fait pffittt… Certainement un coup de Bratt Pitt ! Dès le [...]

Syndication RSS

nabaztag

  • http://www.wikio.fr
  • netvibes
  • NewsGator Online
  • Rojo
  • Bloglines
  • Google

ZATAZ mobile et PDA