Les moteurs de recherche

Pour pouvoir utiliser efficacement les moteurs de recherche il faut commencer par comprendre comment ils indexent le contenu des sites internet et pourquoi ils choisissent de nous présenter une page plutôt qu’une autre.

Les robots crawlers

Google, Bing et les autres moteurs de recherche disposent de robots appelés crawlers qui parcourent l’internet à la recherche de nouvelles informations. Ils suivent interminablement les liens des pages web et enrichissent leur index des informations nouvelles.

L’indexation ne se fait pas n’importe comment. Une page web si elle est bien construite est ciblée sur un mot-clef indiqué dans la balise <h1> qui est le titre principal de la page et le mot est défini dans le reste de la page. Pour faciliter le travail du robot le webmaster doit indiquer le mot-clef dans la balise <title> du code HTML et le développer dans la balise <description>. Donc une page bien construite sera précisément indexée sur un mot-clef, les autres seront indexées un peu au hasard des mots de la page. Si il n’y a pas de texte (site d’images) le robot n’indexe rien.

L’index

À partir des informations recueillies par les robots, le moteur de recherche construit un index. Pour chaque mot-clef il trouve des réponses et les classe selon son algorithme. Bien que ce soit un secret commercial certains facteurs sont évidents: l’internaute pose une question et le moteur doit donner la meilleure réponse, c’est son métier. Donc les pages bien structurées qui apportent une réponse documentée à la question de l’internaute seront d’abord choisies. Ensuite le moteur évaluera la « réputation » de chaque site qui propose une réponse et il les classe, c’est surtout là que l’algorithme intervient.

L’index du moteur de recherche est donc un classement de réponses à des questions qui ont déjà été posées. Il ne parcourt pas l’internet à chaque fois qu’on pose une question. D’ailleurs les moteurs nous aident en complétant nos recherches quand nous les tapons en se basant sur les questions déjà posées. Pour une question nouvelle, ce qui est assez rare, le moteur doit faire un travail de recherche supplémentaire.

Interroger les moteurs

Donc quand on interroge un moteur de recherche on fait une recherche dans une base de données sur des mot-clefs.

Si je cherche Histoire le moteur va retourner un ensemble de pages sur le mot-clef histoire classé par pertinence.

Si je cherche Histoire Chertsey le moteur va prendre les 2 ensembles de pages histoire et chertsey, trouver les pages où les 2 mots sont ciblés côte à côte et les classer.

Pour trier des ensembles on utilise les opérateurs booléens. Pour un moteur de recherche Histoire de Chertsey signifie histoire ET chertsey. Il enlève les mots sans contenu (le, de, à), les accents et les majuscules et ajoute l’opérateur par défaut ET (ou +). Mais il y a plusieurs opérateurs à utiliser. On peut chercher histoire chertsey 1800..1850, ou encore histoire chertsey OR rawdon, ou encore histoire+chertsey|s*theodore (histoire de Chertsey ou de St-Théodore ou Saint-Théodore. « Histoire de Chertsey » avec des guillemets cherchera l’expression exacte avec le de.

Mon but n’est pas de montrer tous les opérateurs mais de signaler qu’ils existent et qu’ils sont faciles à utiliser. La recherche avancée de Google permet de les découvrir et de les utiliser dans un formulaire.

Les résultats de recherche

Pour Histoire de Chertsey il y a 450.000 résultats. C’est le total des pages où les 2 mots ont été trouvés, ce n’est pas un chiffre arbitraire. Le moteur a interrogé son index et classé les résultats. On peut constater qu’il a bien fait son travail malgré le nombre élevé de pages où on trouve ces 2 mots, il a trouvé celles qui répondent le mieux à la question selon son index.

Maintenant si je cherche histoire chertsey 1800..1850 il n’y a plus que 8.000 résultats et pour « histoire de chertsey » 1800..1850 il n’y a plus que 9 résultats

Ce qui prouve qu’en utilisant les opérateurs j’ai pu mieux cibler ma recherche pour avoir une réponse très précise.[

Laisser un commentaire