Les moteurs de recherche sont équipés de robots, également appelés araignées ou robots, qui explorent et indexent les pages Web. Si votre site ou votre page est en cours de développement ou contient du contenu sensible, vous souhaiterez peut-être empêcher les robots d'explorer et d'indexer votre site. Découvrez comment bloquer des sites Web, des pages et des liens entiers avec des fichiers robots.txt et bloquer des pages et des liens spécifiques avec des balises html. Lisez la suite pour découvrir comment empêcher des robots spécifiques d'accéder à votre contenu.
Pas
Méthode 1 sur 2: Bloquer les moteurs de recherche avec les fichiers robots.txt
Étape 1. Comprendre les fichiers robots.txt
Un fichier robots.txt est un fichier texte brut ou ASCII qui informe les robots des moteurs de recherche à quoi ils sont autorisés à accéder sur votre site. Les fichiers et dossiers répertoriés dans un fichier robots.txt ne peuvent pas être explorés et indexés par les robots des moteurs de recherche. Vous aurez peut-être besoin d'un fichier robots.txt si:
- Vous souhaitez bloquer un contenu spécifique des robots des moteurs de recherche.
- Vous développez un site en ligne et n'êtes pas prêt à ce que les robots des moteurs de recherche explorent et indexent le site
- Vous souhaitez limiter l'accès aux robots réputés.
Étape 2. Créez et enregistrez un fichier robots.txt
Pour créer le fichier, lancez un éditeur de texte brut ou un éditeur de code. Enregistrez le fichier sous: robots.txt. Le nom du fichier doit être entièrement en minuscules.
- N'oubliez pas le « s ».
- Lorsque vous enregistrez le fichier, choisissez l'extension "'.txt"'. Si vous utilisez Word, sélectionnez l'option "Texte brut".
Étape 3. Écrivez un fichier robots.txt entièrement interdit
Il est possible d'empêcher tous les moteurs de recherche réputés d'explorer et d'indexer votre site avec un fichier robots.txt « totalement interdit ». Écrivez les lignes suivantes dans votre fichier texte:
User-agent: * Interdire: /
Étape 4. Écrivez un fichier robots.txt à autorisation conditionnelle
Au lieu de bloquer tous les robots, envisagez de bloquer des araignées spécifiques de certaines zones de votre site. Les commandes d'autorisation conditionnelle courantes incluent:
- Bloquer un bot spécifique: remplacez les astérisques à côté de Agent utilisateur avec googlebot, googlebot-news, googlebot-image, bingbot, ou teoma.
-
Bloquer un répertoire et son contenu:
User-agent: * Interdire: /sample-directory/
-
Bloquer une page Web:
User-agent: * Interdire: /private_file.html
-
Bloquer une image:
Agent utilisateur: googlebot-image Interdire: /images_mypicture.jpg
-
Bloquer toutes les images:
User-agent: googlebot-image Interdire: /
-
Bloquer un format de fichier spécifique:
User-agent: * Interdire: /p*.gif$
Étape 5. Encouragez les robots à indexer et à explorer votre site
Beaucoup de gens veulent accueillir, au lieu de bloquer, les robots des moteurs de recherche parce qu'ils veulent que l'ensemble de leur site soit indexé. Pour ce faire, vous avez trois options. Tout d'abord, vous pouvez désactiver la création d'un fichier robots.txt. Lorsque le robot ne trouve pas de fichier robots.txt, il continue d'explorer et d'indexer l'intégralité de votre site. Deuxièmement, vous pouvez créer un fichier robots.txt vide. Le robot trouvera le fichier robots.txt, reconnaîtra qu'il est vide et continuera à explorer et à indexer votre site. Enfin, vous pouvez écrire un fichier robots.txt entièrement autorisé. Utilisez le code:
User-agent: * Interdire:
Étape 6. Enregistrez le fichier txt à la racine de votre domaine
Après avoir écrit le fichier robots.txt, enregistrez les modifications. Téléchargez le fichier dans le répertoire racine de votre site. Par exemple, si votre domaine est www.votredomaine.com, placez le fichier robots.txt dans www.votredomaine.com/robots.txt.
Méthode 2 sur 2: Bloquer les moteurs de recherche avec des balises méta
Étape 1. Comprendre les balises méta des robots HTML
La balise meta robots permet aux programmeurs de définir des paramètres pour les robots ou les moteurs de recherche. Ces balises sont utilisées pour empêcher les robots d'indexer et d'explorer un site entier ou uniquement des parties du site. Vous pouvez également utiliser ces balises pour empêcher un moteur de recherche spécifique d'indexer votre contenu. Ces balises apparaissent dans l'en-tête de votre fichier HTML.
Cette méthode est couramment utilisée par les programmeurs qui n'ont pas accès au répertoire racine d'un site Web
Étape 2. Bloquez les robots à partir d'une seule page
Il est possible d'empêcher tous les robots d'indexer une page et/ou de suivre les liens d'une page. Cette balise est couramment utilisée lorsqu'un site en ligne est en cours de développement. Une fois le site terminé, il est fortement recommandé de supprimer cette balise. Si vous ne supprimez pas la balise, votre page ne sera pas indexée ou consultable via les moteurs de recherche.
- Vous pouvez empêcher les robots d'indexer la page et de suivre l'un des liens:
- Vous pouvez empêcher tous les robots d'indexer la page:
- Vous pouvez empêcher tous les robots de suivre les liens de la page:
Étape 3. Autorisez les robots à indexer une page, mais ne suivez pas ses liens
Si vous autorisez les robots à indexer la page, la page sera indexée; si vous empêchez les araignées de suivre les liens, le chemin du lien de cette page spécifique vers d'autres pages sera rompu. Insérez la ligne de code suivante dans votre en-tête:
Étape 4. Laissez les moteurs de recherche suivre les liens mais n'indexez pas la page
Si vous autorisez les robots à suivre les liens, le chemin du lien de cette page spécifique vers d'autres pages restera intact; si vous les empêchez d'indexer la page, votre page Web n'apparaîtra pas dans l'index. Insérez la ligne de code suivante dans votre en-tête:
Étape 5. Bloquez un seul lien sortant
Pour masquer un seul lien sur une page, intégrez un réel balise dans la balise de lien. Vous pouvez utiliser cette balise pour bloquer les liens sur d'autres pages qui mènent à la page spécifique que vous souhaitez bloquer.
Insérer un lien vers la page bloquée
Étape 6. Bloquez un moteur de recherche spécifique
Au lieu de bloquer tous les robots de votre page Web, vous souhaiterez peut-être empêcher un robot d'explorer et d'indexer la page. Pour ce faire, remplacez « robot » dans la balise META par le nom d'un bot spécifique. Les exemples comprennent: googlebot, googlebot-news, googlebot-image, bingbot, et teoma.
Étape 7. Encouragez les robots à explorer et à indexer votre page
Si vous voulez vous assurer que votre page sera indexée et que ses liens seront suivis, vous pouvez insérer un follow-allow méta "robot" tag dans votre en-tête. Utilisez le code suivant: