Le fichier robots.txt est un composant crucial de la gestion de site web, particulièrement pour l'optimisation pour les moteurs de recherche (SEO) et le contrôle de la manière dont les robots d'exploration (web crawlers) interagissent avec un site. C'est un fichier texte brut situé à la racine d'un domaine (ex: https://www.example.com/robots.txt). Ce fichier adhère au Protocole d'Exclusion des Robots (REP - Robots Exclusion Protocol), une norme qui dicte comment les robots web, principalement les spiders des moteurs de recherche, doivent se comporter lors de l'accès à un site web. La fonction principale de robots.txt est d'indiquer à ces robots d'exploration quelles zones, répertoires ou fichiers spécifiques du site ils sont autorisés ou, plus communément, non autorisés à explorer. Ceci peut être utilisé stratégiquement pour empêcher l'indexation d'informations sensibles, de pages administratives, de contenu dupliqué ou de pages en cours de construction, optimisant ainsi le budget d'exploration (crawl budget) et assurant que seul le contenu pertinent apparaisse dans les résultats des moteurs de recherche. La syntaxe est simple, impliquant typiquement des directives User-agent pour cibler des bots spécifiques (ex: Googlebot, Bingbot, * pour tous les bots) et des directives Disallow pour spécifier les chemins à exclure. Il est vital de comprendre que robots.txt est une directive, et non une mesure de sécurité ; bien que les robots d'exploration des moteurs de recherche réputés respectent ces règles, les bots malveillants peuvent les ignorer. De plus, interdire une URL dans robots.txt empêche l'exploration mais n'empêche pas nécessairement l'indexation si d'autres sites y font des liens ; pour une exclusion complète des résultats de recherche, la balise méta noindex ou l'en-tête HTTP est la solution la plus robuste.