← Volver al listado de tecnologías

Natas Nivel 3 - robots.txt y Crawlers

Por: SiempreListo
overthewirenatasrobotscrawlersnivel-3

Natas Nivel 3 - robots.txt y Crawlers

Objetivo

El código fuente dice: “No more information leaks!! Not even Google will find it this time…”

Teoría: robots.txt

¿Qué es?

robots.txt es un archivo que indica a los crawlers (bots de buscadores) qué partes del sitio no deben indexar.

Ubicación

Siempre en la raíz del dominio:

http://sitio.com/robots.txt

Formato

User-agent: *
Disallow: /admin/
Disallow: /secret/
Disallow: /backup/

User-agent: Googlebot
Disallow: /private/

El Problema de Seguridad

robots.txt es público. Al listar lo que quieres ocultar, estás dando un mapa a los atacantes.

Es como poner un cartel que dice “No mires aquí” - exactamente donde todos van a mirar.

Solución

Paso 1: Ver robots.txt

Accede a:

http://natas3.natas.labs.overthewire.org/robots.txt

Paso 2: Analizar contenido

Verás algo como:

User-agent: *
Disallow: /s3cr3t/

Paso 3: Acceder al directorio

http://natas3.natas.labs.overthewire.org/s3cr3t/

Paso 4: Encontrar la contraseña

En el directorio habrá un archivo con las credenciales.

Otros Archivos de Interés

ArchivoPropósito
robots.txtInstrucciones para crawlers
sitemap.xmlMapa del sitio (todas las URLs)
.htaccessConfiguración de Apache
crossdomain.xmlPolíticas de Flash/Silverlight
security.txtContacto de seguridad (estándar)

Ejemplo de sitemap.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://sitio.com/admin/</loc>
    </url>
</urlset>

La Ironía de robots.txt

IntenciónRealidad
Ocultar de GoogleVisible para cualquiera
Reducir carga del servidorAtacantes ignoran el archivo
PrivacidadLista de objetivos para hackers

Mejores Prácticas

  1. No uses robots.txt para seguridad - usa autenticación
  2. Asume que será leído por atacantes
  3. Protege recursos sensibles con contraseña
  4. Considera no listar directorios realmente sensibles

Herramientas

# Ver robots.txt
curl http://sitio.com/robots.txt

# Ver sitemap
curl http://sitio.com/sitemap.xml

# Herramienta automatizada
python3 robotsparser.py http://sitio.com

Conceptos Aprendidos

ConceptoDescripción
robots.txtArchivo para crawlers
Security by obscurityOcultar no es proteger
Information disclosurerobots.txt revela estructura

Siguiente Nivel