








Fichier robots.txt
Le fichier robots.txt doit etre présent à la racine d'un site, meme vide si vous n'en avez pas l'utilité, car son absence provoque des erreurs 404 générées par les bots qui cherchent en premier lieu ce fichier en crawlant un site.
(merci à Jeff et Thick pour cette précision importante)
Si vous souhaitez interdire l'indexation de certaines pages, vous pouvez soit renseigner votre fichier robots.txt dans ce sens ou tout simplement la balise meta robots :
<meta name="robots" content="noindex,follow" />
Il ne peut y en avoir qu'un fichier robots.txt par site, et il doit etre situé à la racine
Si vous n'en mettez pas, cela équivaut à ce fichier robots.txt :
User-agent: * Disallow:
* indique que l'instruction est donnée à tous les robots
Extrait du très bon article sur le sujet d'Abondance :
Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html
Dans cet exemple :
User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.
Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique.
La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.
Lire la suite du dossier sur le fichier robots.txt d'Abondance
Hors ligne




Re: Fichier robots.txt
et surtout n'oubliez pas le S à robots
sinon ça ne marche pas.
Hors ligne

Re: Fichier robots.txt
L'absence du fichier robots.txt provoque une erreur 404 générée par le bot il est donc vivement recommandé d'en mettre un à la racine du site. ![]()
Jeff,
Hors ligne









Re: Fichier robots.txt
![]()
C'est à dire ?
Personnellement j'en mets jamais sauf quand je ne peux pas faire ce que je veux directement avec les metas ![]()
Hors ligne

Re: Fichier robots.txt
Le moteur de recherche vient vérifier systématiquement la présence du fichier robots.txt et une erreur 404 est générée si il ne le trouve pas, cela n'a pas d'incidence sur le site mais sur le serveur, cela peut tout de même représenter pas mal d'erreurs 404 sur les gros sites.
Je l'ai mesuré en mettant en place un qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs ![]()
Jeff,
Hors ligne



Re: Fichier robots.txt
Charlie a écrit:
C'est à dire ?
Le robots.txt est le premier fichier que le robot vient chercher quand il crawl un site. Si tu n'as pas ce fichier alors il le cherche pendant un moment et ça te provoque une masse de 404. Tu peux mettre un robots.txt vide sans aucun souci mais cette simple précaution t'évitera un max de 404.
Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ![]()
Hors ligne









Re: Fichier robots.txt
Wow, merci de toutes vos précisions, j'avais loupé un épisode sur ce coup la
heureusement que j'en ai un sur mes principaux sites mais j'ignorais totalement cet aspect !
Jeff a écrit:
Je l'ai mesuré en mettant en place un s cript qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs
Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?
ThickParasite a écrit:
Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent
message bien recu, je n'aime pas non plus poser des lapins aux bots ![]()
Hors ligne






Re: Fichier robots.txt
Charlie a écrit:
Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?
Salut Charlie
voici une méthode pour faire cela : http://www.toulouse-renaissance.net/c_o … eur404.htm
++
Hors ligne









Re: Fichier robots.txt
merci Tom je vais mettre ca en place ![]()
Hors ligne
Partenaires : Creer un site| Altiref| Forum| Boutiques| Forum tv| jeux nintendo wii| jeux nintendo ds| Ecran d'ordinateur| Référencement