Rechercher : dans

#1 13-12-2006 14:22:23

Charlie
Administrateur
Lieu : France - Australie
Inscrit le : 17-11-2006
Messages : 4722
 Fichier robots.txt


Le fichier robots.txt doit etre présent à la racine d'un site, meme vide si vous n'en avez pas l'utilité, car son absence provoque des erreurs 404 générées par les bots qui cherchent en premier lieu ce fichier en crawlant un site.
(merci à Jeff et Thick pour cette précision importante)

Si vous souhaitez interdire l'indexation de certaines pages, vous pouvez soit renseigner votre fichier robots.txt dans ce sens ou tout simplement la balise meta robots :

Code:
<meta name="robots" content="noindex,follow" />

Il ne peut y en avoir qu'un fichier robots.txt par site, et il doit etre situé à la racine

Si vous n'en mettez pas, cela équivaut à ce fichier robots.txt :

Code:
User-agent: *
Disallow:

* indique que l'instruction est donnée à tous les robots

Extrait du très bon article sur le sujet d'Abondance :

Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html

Dans cet exemple :

User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.

Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique.

La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.

Lire la suite du dossier sur le fichier robots.txt d'Abondance



Bienvenue sur le forum de l'affiliation !

Le portail de l'affiliation internet, le Guide d'achat Netnoo et son annuaire
Publiez un Communiqué de presse sur votre site web !


Hors ligne

 

#2 13-12-2006 14:31:09

Marie
Membre +
Lieu : Cannes
Inscrit le : 26-11-2006
Messages : 112
  Re: Fichier robots.txt


et surtout n'oubliez pas le S à robots smile affiliation sinon ça ne marche pas.



Altiref : Visibilité des sites internet

Vous cherchez des recettes pour machine à pain?


Hors ligne

 

#3 13-12-2006 19:21:17

Jeff
Membre +
Lieu : Sea and Sun
Inscrit le : 12-12-2006
Messages : 4
  Re: Fichier robots.txt


L'absence du fichier robots.txt provoque une erreur 404 générée par le bot il est donc vivement recommandé d'en mettre un à la racine du site. wink affiliation

Jeff,



Hors ligne

 

#4 13-12-2006 19:24:57

Charlie
Administrateur
Lieu : France - Australie
Inscrit le : 17-11-2006
Messages : 4722
  Re: Fichier robots.txt


yikes affiliation
C'est à dire ?

Personnellement j'en mets jamais sauf quand je ne peux pas faire ce que je veux directement avec les metas yikes affiliation



Bienvenue sur le forum de l'affiliation !

Le portail de l'affiliation internet, le Guide d'achat Netnoo et son annuaire
Publiez un Communiqué de presse sur votre site web !


Hors ligne

 

#5 13-12-2006 19:35:59

Jeff
Membre +
Lieu : Sea and Sun
Inscrit le : 12-12-2006
Messages : 4
  Re: Fichier robots.txt


Le moteur de recherche vient vérifier systématiquement la présence du fichier robots.txt et une erreur 404 est générée si il ne le trouve pas, cela n'a pas d'incidence sur le site mais sur le serveur, cela peut tout de même représenter pas mal d'erreurs 404 sur les gros sites.

Je l'ai mesuré en mettant en place un qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs wink affiliation

Jeff,



Hors ligne

 

#6 13-12-2006 19:36:25

ThickParasite
Membre +
Inscrit le : 12-12-2006
Messages : 58
  Re: Fichier robots.txt


Charlie a écrit:

yikes affiliation
C'est à dire ?

Le robots.txt est le premier fichier que le robot vient chercher quand il crawl un site. Si tu n'as pas ce fichier alors il le cherche pendant un moment et ça te provoque une masse de 404. Tu peux mettre un robots.txt vide sans aucun souci mais cette simple précaution t'évitera un max de 404.
Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent wink affiliation



Hors ligne

 

#7 13-12-2006 19:37:06

ThickParasite
Membre +
Inscrit le : 12-12-2006
Messages : 58
  Re: Fichier robots.txt


Pfff Jeff plus rapide lol affiliation



Hors ligne

 

#8 13-12-2006 19:43:45

Charlie
Administrateur
Lieu : France - Australie
Inscrit le : 17-11-2006
Messages : 4722
  Re: Fichier robots.txt


Wow, merci de toutes vos précisions, j'avais loupé un épisode sur ce coup la

heureusement que j'en ai un sur mes principaux sites mais j'ignorais totalement cet aspect !

Jeff a écrit:

Je l'ai mesuré en mettant en place un s cript qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs

Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?

ThickParasite a écrit:

Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent wink affiliation

message bien recu, je n'aime pas non plus poser des lapins aux bots wub affiliation



Bienvenue sur le forum de l'affiliation !

Le portail de l'affiliation internet, le Guide d'achat Netnoo et son annuaire
Publiez un Communiqué de presse sur votre site web !


Hors ligne

 

#9 13-12-2006 19:52:41

tom_sawyer
Modérateur
Inscrit le : 26-11-2006
Messages : 307
  Re: Fichier robots.txt


Charlie a écrit:

Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?

Salut Charlie

voici une méthode pour faire cela : http://www.toulouse-renaissance.net/c_o … eur404.htm

++



Hors ligne

 

#10 13-12-2006 19:57:01

Charlie
Administrateur
Lieu : France - Australie
Inscrit le : 17-11-2006
Messages : 4722
  Re: Fichier robots.txt


merci Tom je vais mettre ca en place smile affiliation



Bienvenue sur le forum de l'affiliation !

Le portail de l'affiliation internet, le Guide d'achat Netnoo et son annuaire
Publiez un Communiqué de presse sur votre site web !


Hors ligne

 

Pied de page des forums