← Volver al listado de tecnologías
Natas Nivel 3 - robots.txt y Crawlers
Natas Nivel 3 - robots.txt y Crawlers
Objetivo
El código fuente dice: “No more information leaks!! Not even Google will find it this time…”
Teoría: robots.txt
¿Qué es?
robots.txt es un archivo que indica a los crawlers (bots de buscadores) qué partes del sitio no deben indexar.
Ubicación
Siempre en la raíz del dominio:
http://sitio.com/robots.txt
Formato
User-agent: *
Disallow: /admin/
Disallow: /secret/
Disallow: /backup/
User-agent: Googlebot
Disallow: /private/
El Problema de Seguridad
robots.txt es público. Al listar lo que quieres ocultar, estás dando un mapa a los atacantes.
Es como poner un cartel que dice “No mires aquí” - exactamente donde todos van a mirar.
Solución
Paso 1: Ver robots.txt
Accede a:
http://natas3.natas.labs.overthewire.org/robots.txt
Paso 2: Analizar contenido
Verás algo como:
User-agent: *
Disallow: /s3cr3t/
Paso 3: Acceder al directorio
http://natas3.natas.labs.overthewire.org/s3cr3t/
Paso 4: Encontrar la contraseña
En el directorio habrá un archivo con las credenciales.
Otros Archivos de Interés
| Archivo | Propósito |
|---|---|
robots.txt | Instrucciones para crawlers |
sitemap.xml | Mapa del sitio (todas las URLs) |
.htaccess | Configuración de Apache |
crossdomain.xml | Políticas de Flash/Silverlight |
security.txt | Contacto de seguridad (estándar) |
Ejemplo de sitemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://sitio.com/admin/</loc>
</url>
</urlset>
La Ironía de robots.txt
| Intención | Realidad |
|---|---|
| Ocultar de Google | Visible para cualquiera |
| Reducir carga del servidor | Atacantes ignoran el archivo |
| Privacidad | Lista de objetivos para hackers |
Mejores Prácticas
- No uses robots.txt para seguridad - usa autenticación
- Asume que será leído por atacantes
- Protege recursos sensibles con contraseña
- Considera no listar directorios realmente sensibles
Herramientas
# Ver robots.txt
curl http://sitio.com/robots.txt
# Ver sitemap
curl http://sitio.com/sitemap.xml
# Herramienta automatizada
python3 robotsparser.py http://sitio.com
Conceptos Aprendidos
| Concepto | Descripción |
|---|---|
| robots.txt | Archivo para crawlers |
| Security by obscurity | Ocultar no es proteger |
| Information disclosure | robots.txt revela estructura |
Siguiente Nivel
- URL: http://natas4.natas.labs.overthewire.org
- Usuario: natas4