Google,
Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent
le monde Internet ? Est-ce que certains de ces outils peuvent se retourner
contre les Internautes. Découverte de l'autre facette des moteurs
de recherche.
![]()
Traque
sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de
recherches et plus exactement aux algorithmes de classification. Pour
comprendre le fonctionnement d'un moteur, il faut expliquer le processus
pour arriver à afficher les premiers résultats : d'abord
constituer une base de sites, puis les sonder en les classant dans des
thèmes généralistes (Informatique, Jeux, Sport,
Nature…) en fonctions de paramètres.
| Pour
en savoir plus Les secrets des moteurs de recherche http://www.Linterweb.com A
Standard for Robot Exclusion", Martijn Koster The
Web Robots Database |
Ainsi lorsqu'un
utilisateur effectue une requête, le moteur commence
par déterminer le thème auquel se rapporte le vocabulaire
de la recherche, puis
classe par pertinence les documents. Du coup la qualité d'un
moteur par rapport à un autre se situe dans le nombre de sites
qu'il contient. Pour mesurer la taille de cet index nous avons donc
cherché 40 000 mots français et examiné les 100
premiers résultats, voici ce qui en ressort : All the web : 259
636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144
945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente
un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr).
Il est à noter que seul Altavista propose une recherche "Française"
tandis que les autres, ciblent les "Francophones" ce qui englobent
le Québec, la Belgique,…
Etranges résultats
Ensuite nous avons étudié les résultats de Google,
et nous sommes tombés sur quelques interrogations : Premièrement
ces recherches étant effectuées par un mot clé
il ressort qu'il faut absolument l'avoir dans l'adresse de son site
: ex "allo".
Google nous renvoie sur des liens tels que allocine.fr , allocine.com,
alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains
comme "cinéma"
: où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr,
cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien
à voir avec le cinéma. Autre question, pourquoi sur 40
000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse
est que Google modifie ces algorithmes en fonction de l'importance du
mot clé cherché.
|
Référencement
de la mort Chaque
bot possède lui aussi une identité, tout comme vous
et moi. Peu importe le lieu de connexion, il va laisser une empreinte,
par exemple : crawler12.googlebot.com pour un des bots (spider
dans le jargon d'un référenceur, ndlr) de Google.
En lisant un peu les RFC du protocole HTTP et en sachant coder
un minimum, on devine que l'on peut récupérer cette
empreinte de moteur de recherche avant de présenter le
contenu de la page appelée. Ce qui veut dire que l'on pourra
lui présenter un contenu |
Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.
Deuxièmement,
Google annonce qui balaye l'ensemble de son index au bout de quatre
semaines. Pourquoi alors sur le mot "goret".
Le site *.un.goret.org est référencé depuis maintenant
un an ?
Notre Hypothèse est que Google respecte certainement ce délai
mais uniquement pour certains sites. En effet un site comme tf1.fr ou
comme allocine.com, qui ont un contenu suivant l'actualité, doivent
donc être sondé par Google à des intervalles beaucoup
plus petit. Troisièmement et dernière interrogation, le
taux de sites personnels par rapport au site professionnels, est de
1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania,
free, ou autres) de référencés ? Notre Hypothèse
est qu'Internet regorge de sites personnels puisque c'est la base de
ce réseau, mais comme Google accorde beaucoup d'importance au
type de sites, les pages personnelles ne sont pas mises en valeur. Du
coup il faut vraiment que la recherche ne soit pas trop généraliste
pour que votre site perso ait la chance d'apparaître.
a>
Vous venez de gagner un lot de 32.000 euros via un concours organisé par Coca-Cola. Une arnaque sans sucre.
Un commercial de la société Vonage enregistré ses notes et données sensibles sur son espace privé Google Bloc-notes.
Une alerte concernant les nouvelles versions du ver Downadup. Ce ver infecte les postes de travail et serveurs Windows.
Le département britannique de l´Intérieur annonce préparer un plan qui permettra à la police d´infiltrer et espionner les ordinateurs personnels de l´ensemble des citoyens.
L´Association Française des Correspondants Informatique et Libertés organise le 21 janvier prochain sa 3ème Université des Correspondants Informatique et Libertés.
La Chine a rendu public huit importants cas de réseaux de contrefacteurs de films, logiciels et livres.
Comme il est de tradition sur ZATAZ depuis 13 ans, voici les actualités mensuelles de Maître Murielle Cahen, avocate spécialisée dans les NTIC.
Castlecops, association qui travaillait sur la cybercriminalité, vient d´annonce la cessation de ses activités.
Exclusif : La Préfécture de l'Yonne propose sur son espace web officiel un programme sportif qui risque de finir dans le journal du Hard !
Google aurait désassemblé le code source de Windows Vista afin de faire fonctionner son navigateur Internet Chrome.
La police bosniaque arrête un dangereux cheval de Troie agissant dans une prison du pays. Le trojan avait des plumes !
Ces logiciels proposent des capacités avancées de création de panoramas et de modélisation 3D à partir d’images 2D
Le Conseil supérieur de l’audiovisuel, réuni en assemblée plénière le 22 juillet 2008, a sélectionné les candidats à l’exploitation de 279 fréquences FM.
Exclu - Étrange lien de redirection vidéo sur le site officiel du Ministère de la Défense Française.
Force Commerciale : recrutement de commerciaux et actualité de la vente.
Pour répondre à une demande forte du marché, Westcon Security France élargit son catalogue avec une formation sur les fondamentaux de la sécurité des systèmes d’information (SSI).
3ème édition des Microsoft Techdays, le rendez-vous des professionnels de l´informatique, développeurs et décideurs techniques.
KLIPSCH dévoile ses nouveaux écouteurs : IMAGE X5, l’audio à emporter.
DivX annonce la nouvelle génération de son logiciel, DivX 7, basé sur le H.264 La nouvelle version permet de lire des vidéos HD, sur les PC et d’autres appareils.
Prévisions des actes de piratage informatique en 2009 par les laboratoires de sécurité Websense.
La marque de lingerie féminine, Aubade, nous a encore une fois gratifié d?un sublime calendrier mettant en scène ses divers produits. Retrouvez la page du mois de Janvier. Une leçon de séduction en douze parties qui fait merveille dans le calendrier 2009 de la marque de lingerie Aubade. Ce dernier est téléchargeable ici. Nous vous proposons chaque [...]
La marque de lingerie féminine, Aubade, nous a encore une fois gratifié d’un sublime calendrier mettant en scène ses divers produits. Retrouvez la page du mois en cours. Une leçon de séduction en douze parties qui fait merveille dans le calendrier 2009. Ce dernier est téléchargeable ici. Nous vous proposons chaque 1er du mois de retrouver la [...]
Bonjour, Stars-buzz.com n’est pas mort. Toujours là pour vous faire croustiller de news sur le cinéma, la musique, le cinéma. Le grand retour de vos actualités décalées comme vous les aimé à partir du 1er janvier 2009. Une légère boulette informatique a fait que nos serveurs ont fait pffittt… Certainement un coup de Bratt Pitt ! Dès le [...]