Comment bloquer les moteurs de recherche (avec des images)

Table des matières:

Comment bloquer les moteurs de recherche (avec des images)
Comment bloquer les moteurs de recherche (avec des images)

Vidéo: Comment bloquer les moteurs de recherche (avec des images)

Vidéo: Comment bloquer les moteurs de recherche (avec des images)
Vidéo: Premiers pas sur Mac : Gestion des fichiers et découverte du Finder 2024, Avril
Anonim

Les moteurs de recherche sont équipés de robots, également appelés araignées ou robots, qui explorent et indexent les pages Web. Si votre site ou votre page est en cours de développement ou contient du contenu sensible, vous souhaiterez peut-être empêcher les robots d'explorer et d'indexer votre site. Découvrez comment bloquer des sites Web, des pages et des liens entiers avec des fichiers robots.txt et bloquer des pages et des liens spécifiques avec des balises html. Lisez la suite pour découvrir comment empêcher des robots spécifiques d'accéder à votre contenu.

Pas

Méthode 1 sur 2: Bloquer les moteurs de recherche avec les fichiers robots.txt

576315 1
576315 1

Étape 1. Comprendre les fichiers robots.txt

Un fichier robots.txt est un fichier texte brut ou ASCII qui informe les robots des moteurs de recherche à quoi ils sont autorisés à accéder sur votre site. Les fichiers et dossiers répertoriés dans un fichier robots.txt ne peuvent pas être explorés et indexés par les robots des moteurs de recherche. Vous aurez peut-être besoin d'un fichier robots.txt si:

  • Vous souhaitez bloquer un contenu spécifique des robots des moteurs de recherche.
  • Vous développez un site en ligne et n'êtes pas prêt à ce que les robots des moteurs de recherche explorent et indexent le site
  • Vous souhaitez limiter l'accès aux robots réputés.
576315 2
576315 2

Étape 2. Créez et enregistrez un fichier robots.txt

Pour créer le fichier, lancez un éditeur de texte brut ou un éditeur de code. Enregistrez le fichier sous: robots.txt. Le nom du fichier doit être entièrement en minuscules.

  • N'oubliez pas le « s ».
  • Lorsque vous enregistrez le fichier, choisissez l'extension "'.txt"'. Si vous utilisez Word, sélectionnez l'option "Texte brut".
576315 3 1
576315 3 1

Étape 3. Écrivez un fichier robots.txt entièrement interdit

Il est possible d'empêcher tous les moteurs de recherche réputés d'explorer et d'indexer votre site avec un fichier robots.txt « totalement interdit ». Écrivez les lignes suivantes dans votre fichier texte:

    User-agent: * Interdire: /

  • L'utilisation d'un fichier robots.txt « totalement interdit » n'est pas fortement recommandée. Lorsqu'un bot, tel que Bingbot, lit ce fichier, il n'indexera pas votre site et le moteur de recherche n'affichera pas votre site Web.
  • Agents utilisateurs: c'est un autre terme pour les spiders des moteurs de recherche, ou robots
  • *: l'astérisque signifie que le code s'applique à tous les user-agents
  • Interdire: /: la barre oblique indique que l'ensemble du site est interdit aux bots
576315 4 1
576315 4 1

Étape 4. Écrivez un fichier robots.txt à autorisation conditionnelle

Au lieu de bloquer tous les robots, envisagez de bloquer des araignées spécifiques de certaines zones de votre site. Les commandes d'autorisation conditionnelle courantes incluent:

  • Bloquer un bot spécifique: remplacez les astérisques à côté de Agent utilisateur avec googlebot, googlebot-news, googlebot-image, bingbot, ou teoma.
  • Bloquer un répertoire et son contenu:

    User-agent: * Interdire: /sample-directory/

  • Bloquer une page Web:

    User-agent: * Interdire: /private_file.html

  • Bloquer une image:

    Agent utilisateur: googlebot-image Interdire: /images_mypicture.jpg

  • Bloquer toutes les images:

    User-agent: googlebot-image Interdire: /

  • Bloquer un format de fichier spécifique:

    User-agent: * Interdire: /p*.gif$

576315 5
576315 5

Étape 5. Encouragez les robots à indexer et à explorer votre site

Beaucoup de gens veulent accueillir, au lieu de bloquer, les robots des moteurs de recherche parce qu'ils veulent que l'ensemble de leur site soit indexé. Pour ce faire, vous avez trois options. Tout d'abord, vous pouvez désactiver la création d'un fichier robots.txt. Lorsque le robot ne trouve pas de fichier robots.txt, il continue d'explorer et d'indexer l'intégralité de votre site. Deuxièmement, vous pouvez créer un fichier robots.txt vide. Le robot trouvera le fichier robots.txt, reconnaîtra qu'il est vide et continuera à explorer et à indexer votre site. Enfin, vous pouvez écrire un fichier robots.txt entièrement autorisé. Utilisez le code:

    User-agent: * Interdire:

  • Lorsqu'un bot, tel que googlebot, lit ce fichier, il se sentira libre de visiter l'intégralité de votre site.
  • Agents utilisateurs: c'est un autre terme pour les moteurs de recherche, ou robots
  • *: l'astérisque signifie que le code s'applique à tous les user-agents
  • Refuser: la commande d'interdiction vide indique que tous les fichiers et dossiers sont accessibles
576315 6
576315 6

Étape 6. Enregistrez le fichier txt à la racine de votre domaine

Après avoir écrit le fichier robots.txt, enregistrez les modifications. Téléchargez le fichier dans le répertoire racine de votre site. Par exemple, si votre domaine est www.votredomaine.com, placez le fichier robots.txt dans www.votredomaine.com/robots.txt.

Méthode 2 sur 2: Bloquer les moteurs de recherche avec des balises méta

576315 7
576315 7

Étape 1. Comprendre les balises méta des robots HTML

La balise meta robots permet aux programmeurs de définir des paramètres pour les robots ou les moteurs de recherche. Ces balises sont utilisées pour empêcher les robots d'indexer et d'explorer un site entier ou uniquement des parties du site. Vous pouvez également utiliser ces balises pour empêcher un moteur de recherche spécifique d'indexer votre contenu. Ces balises apparaissent dans l'en-tête de votre fichier HTML.

Cette méthode est couramment utilisée par les programmeurs qui n'ont pas accès au répertoire racine d'un site Web

576315 8
576315 8

Étape 2. Bloquez les robots à partir d'une seule page

Il est possible d'empêcher tous les robots d'indexer une page et/ou de suivre les liens d'une page. Cette balise est couramment utilisée lorsqu'un site en ligne est en cours de développement. Une fois le site terminé, il est fortement recommandé de supprimer cette balise. Si vous ne supprimez pas la balise, votre page ne sera pas indexée ou consultable via les moteurs de recherche.

  • Vous pouvez empêcher les robots d'indexer la page et de suivre l'un des liens:
  • Vous pouvez empêcher tous les robots d'indexer la page:
  • Vous pouvez empêcher tous les robots de suivre les liens de la page:
576315 9
576315 9

Étape 3. Autorisez les robots à indexer une page, mais ne suivez pas ses liens

Si vous autorisez les robots à indexer la page, la page sera indexée; si vous empêchez les araignées de suivre les liens, le chemin du lien de cette page spécifique vers d'autres pages sera rompu. Insérez la ligne de code suivante dans votre en-tête:

576315 10
576315 10

Étape 4. Laissez les moteurs de recherche suivre les liens mais n'indexez pas la page

Si vous autorisez les robots à suivre les liens, le chemin du lien de cette page spécifique vers d'autres pages restera intact; si vous les empêchez d'indexer la page, votre page Web n'apparaîtra pas dans l'index. Insérez la ligne de code suivante dans votre en-tête:

576315 11
576315 11

Étape 5. Bloquez un seul lien sortant

Pour masquer un seul lien sur une page, intégrez un réel balise dans la balise de lien. Vous pouvez utiliser cette balise pour bloquer les liens sur d'autres pages qui mènent à la page spécifique que vous souhaitez bloquer.

    Insérer un lien vers la page bloquée

576315 12
576315 12

Étape 6. Bloquez un moteur de recherche spécifique

Au lieu de bloquer tous les robots de votre page Web, vous souhaiterez peut-être empêcher un robot d'explorer et d'indexer la page. Pour ce faire, remplacez « robot » dans la balise META par le nom d'un bot spécifique. Les exemples comprennent: googlebot, googlebot-news, googlebot-image, bingbot, et teoma.

576315 13
576315 13

Étape 7. Encouragez les robots à explorer et à indexer votre page

Si vous voulez vous assurer que votre page sera indexée et que ses liens seront suivis, vous pouvez insérer un follow-allow méta "robot" tag dans votre en-tête. Utilisez le code suivant:

Conseillé: