Dominio 7: Despliegue, operaciones y mantenimiento seguros

Por: Artiko
csslpisc2seguridadsdlcdevsecopsoperacionesrespuesta-incidentes

Dominio 7: Despliegue, operaciones y mantenimiento seguros

El Dominio 7 (Secure Software Deployment, Operations, Maintenance) pesa 11% del examen y cubre la fase donde el software deja de ser un artefacto de desarrollo y se convierte en un servicio en producción que debe operarse, monitorearse y mantenerse de forma segura durante todo su ciclo de vida útil.

Es un dominio donde el CSSLP quiere que pienses como operador y gestor de riesgo, no como programador. La pregunta recurrente no es “¿cómo escribo este código?” sino “¿qué cambia cuando el software pasa del entorno controlado de desarrollo al entorno hostil de producción?” y “¿qué haría PRIMERO cuando algo sale mal?“.

flowchart LR
    A[Build validado] --> B[Hardening y config segura]
    B --> C[Release controlado]
    C --> D[ATO / aprobación]
    D --> E[Operación monitoreada]
    E --> F[Mantenimiento: parches y vulns]
    F -.retroalimenta.-> B
    E -.incidente.-> G[Respuesta a incidentes]
    G -.lecciones.-> B

7.1 Análisis de riesgo operacional

El software que fue “seguro” en desarrollo puede dejar de serlo en producción porque el contexto cambia. El análisis de riesgo operacional evalúa el riesgo introducido por el entorno de despliegue real, no por el código en sí.

Cambios de contexto que introducen riesgo

Cambio de contextoRiesgo que introduce
De red interna a InternetSuperficie de ataque expuesta, escaneo automatizado, bots
De datos sintéticos a datos realesExposición de PII, cumplimiento regulatorio
De single-tenant a multi-tenantAislamiento de datos, escalamiento entre inquilinos
De on-premise a cloudModelo de responsabilidad compartida, configuración del proveedor
De baja carga a alta cargaCondiciones de carrera, agotamiento de recursos que no aparecían en pruebas
De permisos amplios de dev a producciónNecesidad de mínimo privilegio real

El punto conceptual clave: el mismo binario tiene un perfil de riesgo distinto según dónde y cómo se despliega. Por eso el riesgo se reevalúa en el despliegue, no solo en diseño.

💡 Tip de examen: Cuando una pregunta describe software que “funcionaba bien en pruebas” pero falla en producción, la causa que ISC2 busca casi siempre es un cambio de contexto del entorno (datos reales, exposición de red, escala, configuración), no un bug de código. La respuesta correcta suele ser reevaluar el riesgo del entorno de despliegue.


7.2 Gestión segura de configuración y hardening

La configuración es tan importante como el código. Un software impecable con una configuración por defecto insegura es un software vulnerable. La gestión de configuración segura establece baselines (líneas base) conocidas, controladas y verificables.

Conceptos centrales

Estándares de hardening de referencia

EstándarEmisorUso típico
CIS BenchmarksCenter for Internet SecurityGuías de configuración segura por producto (OS, DB, contenedores, cloud). Consenso de la comunidad
DISA STIGsDefense Information Systems Agency (DoD)Security Technical Implementation Guides, obligatorios en entornos del gobierno de EE.UU. Más estrictos
CIS-CAT / SCAPCIS / NISTHerramientas para auditar automáticamente el cumplimiento de benchmarks

Infrastructure as Code (IaC)

Definir la infraestructura como código (Terraform, CloudFormation, Ansible, etc.) hace la configuración versionable, revisable, repetible y auditable. Los beneficios de seguridad:

💡 Tip de examen: IaC no solo automatiza; su valor de seguridad principal es que convierte la configuración en un artefacto versionable y revisable que se puede escanear antes del despliegue. Si una pregunta contrasta configuración manual vs. IaC, la ventaja de seguridad es la auditabilidad y detección de errores antes de producción, no la velocidad.


7.3 Liberar software de forma segura (release management)

El release management controla cómo el software llega a producción minimizando el riesgo de que un despliegue rompa el servicio o introduzca una vulnerabilidad. La clave es poder revertir y limitar el radio de impacto.

Estrategias de despliegue

EstrategiaCómo funcionaVentaja de seguridad/disponibilidad
Blue/GreenDos entornos idénticos; se cambia el tráfico del “azul” (actual) al “verde” (nuevo) de golpeRollback instantáneo devolviendo el tráfico al entorno anterior
CanarySe libera a un pequeño porcentaje de usuarios primero; se monitorea; se expande gradualmenteLimita el radio de impacto de un fallo; detección temprana
RollingSe actualizan instancias por lotes hasta cubrir toda la flotaSin downtime, pero conviven dos versiones durante la transición
Feature flagsEl código se despliega apagado y se activa por configuraciónDesacopla despliegue de activación; kill switch inmediato

Principios de release seguro

💡 Tip de examen: Ante “¿qué estrategia limita el impacto de un despliegue defectuoso a la menor cantidad de usuarios?” la respuesta es canary. Ante “¿cuál permite el rollback más rápido y completo?” es blue/green. No las confundas: canary = exposición gradual, blue/green = conmutación instantánea.


7.4 Almacenar y gestionar datos de seguridad (secretos en operación)

En operación, la aplicación necesita credenciales, llaves criptográficas, certificados y tokens para funcionar. Gestionarlos mal es una de las causas más frecuentes de brechas.

Reglas de gestión de secretos

💡 Tip de examen: La mejor práctica que ISC2 premia para secretos en operación es la combinación de bóveda centralizada + rotación automática + secretos efímeros. Si ves “credenciales almacenadas en un archivo de configuración cifrado en el servidor”, sigue siendo inferior a una bóveda con rotación: el objetivo es minimizar la exposición y el tiempo de vida, no solo cifrar el archivo.


7.5 Asegurar la instalación segura

El proceso de instalación y arranque (bootstrapping) es un momento vulnerable: es cuando el software adquiere su configuración inicial, sus secretos y su confianza.

💡 Tip de examen: “Secure by default” significa que el estado seguro es el estado inicial y que la inseguridad requiere una decisión consciente. Un instalador que crea una cuenta admin con contraseña conocida “para facilitar la configuración” viola este principio, aunque luego pida cambiarla.


7.6 Obtener aprobación de seguridad para operar (ATO)

Antes de que un sistema entre en producción en entornos formales (especialmente gobierno y sectores regulados), debe obtener una autorización para operar. Esto es gobernanza de riesgo, y ISC2 lo trata como una decisión gerencial, no técnica.

Certification & Accreditation → RMF

ConceptoSignificado
CertificationEvaluación técnica de que los controles de seguridad están implementados y funcionan (antes)
AccreditationDecisión de gestión de aceptar el riesgo residual y autorizar la operación
ATO (Authorization to Operate)El resultado formal: el sistema está aprobado para operar bajo condiciones definidas
Authorizing Official (AO)El ejecutivo que firma y asume la responsabilidad del riesgo residual
Risk acceptanceReconocer formalmente un riesgo residual y decidir vivir con él (documentado)
POA&MPlan of Action and Milestones: plan documentado para remediar debilidades pendientes

El modelo clásico C&A evolucionó al NIST Risk Management Framework (RMF), cuyos pasos son: Categorize → Select → Implement → Assess → Authorize → Monitor. El paso Authorize es donde se otorga el ATO, y Monitor conecta con el monitoreo continuo (7.7).

💡 Tip de examen: La aceptación del riesgo residual siempre corresponde a un rol de negocio/gestión (el Authorizing Official o el data/system owner), NUNCA al equipo de seguridad o de desarrollo. Si una pregunta te ofrece “el equipo de seguridad acepta el riesgo”, es distractor. El equipo de seguridad informa y recomienda; el negocio acepta.


7.7 Monitoreo continuo

Una vez en producción, el sistema debe observarse continuamente para detectar anomalías, ataques y desviaciones de la baseline. El monitoreo continuo es también el paso final del RMF: la autorización no es un evento único, es un estado que se mantiene con evidencia.

Componentes

flowchart LR
    A[Apps y sistemas] -->|logs| B[Logging centralizado]
    C[Red / infra] -->|eventos| B
    B --> D[SIEM: correlación]
    D --> E{Anomalía?}
    E -->|sí| F[Alerta al SOC]
    E -->|no| G[Baseline]
    F --> H[Respuesta a incidentes]

💡 Tip de examen: Un requisito recurrente de ISC2 es que los logs sean completos, protegidos contra manipulación y no contengan datos sensibles. Registrar contraseñas o números de tarjeta “para depurar” es un antipatrón. Y si un incidente ocurre y “no hay evidencia”, la falla de fondo suele ser logging insuficiente o no centralizado — mapea a OWASP A09:2021 (Security Logging and Monitoring Failures).


7.8 Ejecutar el plan de respuesta a incidentes

Cuando la prevención falla, la organización necesita un plan de respuesta a incidentes (IR) ensayado. ISC2 sigue el ciclo de NIST SP 800-61. Memoriza sus fases y su orden.

flowchart LR
    A[Preparación] --> B[Detección y análisis]
    B --> C[Contención]
    C --> D[Erradicación]
    D --> E[Recuperación]
    E --> F[Lecciones aprendidas]
    F -.mejora.-> A

Las fases del ciclo NIST

FaseQué ocurreRol del equipo de software
PreparaciónPlaybooks, herramientas, contactos, entrenamiento antes del incidenteInstrumentar la app para forense; documentar arquitectura
Detección y análisisIdentificar que hay un incidente, determinar alcance e impactoInterpretar logs de la app, confirmar si es explotación de una vuln conocida
ContenciónLimitar la propagación (aislar sistemas, cortar accesos)Desactivar la función afectada (feature flag), aplicar virtual patching
ErradicaciónEliminar la causa raíz (malware, cuenta comprometida, vuln)Corregir el defecto de código, rotar secretos comprometidos
RecuperaciónRestaurar operación normal y verificar que no reaparezcaDesplegar el fix, monitorear intensivamente el retorno
Lecciones aprendidasPost-mortem: qué pasó, qué mejorar; retroalimenta la preparaciónAlimentar el modelado de amenazas y los casos de abuso con lo aprendido

Rol del software y el PSIRT

💡 Tip de examen: Dos anclas para el examen. (1) La respuesta a “¿qué se hace PRIMERO tras detectar un incidente activo?” es contener, no erradicar ni reconstruir. (2) La fase que muchos omiten y que ISC2 valora es lecciones aprendidas: cierra el ciclo alimentando la preparación futura. Un IR sin post-mortem repite los mismos errores.


7.9 Gestión de parches

Los parches corrigen defectos, pero aplicarlos también es un riesgo (pueden romper compatibilidad). La gestión de parches balancea la urgencia de cerrar una vulnerabilidad contra la estabilidad operativa.

Elementos de un proceso de parcheo

💡 Tip de examen: Virtual patching es una mitigación compensatoria y temporal (típicamente con WAF/IPS) cuando no puedes parchear el código de inmediato. No sustituye al parche real. Si una pregunta describe un sistema legacy crítico con una vuln conocida que no puede detenerse para parchear, la respuesta correcta suele ser virtual patching mientras se planifica la corrección definitiva.


7.10 Gestión de vulnerabilidades

Mientras el parcheo aplica correcciones, la gestión de vulnerabilidades es el proceso continuo de descubrir, evaluar, priorizar y rastrear las vulnerabilidades a lo largo del tiempo.

flowchart LR
    A[Scanning continuo] --> B[Identificación: CVE]
    B --> C[Evaluación: CVSS]
    C --> D[Priorización: EPSS + KEV]
    D --> E{Explotada / crítica?}
    E -->|sí| F[Remediación urgente]
    E -->|no| G[Backlog priorizado]
    F --> H[Verificación]
    G --> H
    H --> A

El vocabulario que el examen espera

SiglaQué esPara qué sirve
CVECommon Vulnerabilities and ExposuresIdentificador único de una vulnerabilidad conocida
CVSSCommon Vulnerability Scoring SystemPuntúa la severidad técnica (0-10). NO mide probabilidad de explotación
EPSSExploit Prediction Scoring SystemEstima la probabilidad de que una vuln sea explotada en los próximos 30 días
KEVKnown Exploited Vulnerabilities (catálogo de CISA)Lista de vulns confirmadas como explotadas en el mundo real. Máxima prioridad
CWECommon Weakness EnumerationClasifica el tipo de debilidad (la causa), no la instancia

Priorización moderna

CVSS solo dice qué tan grave sería la explotación, no qué tan probable es. La priorización moderna combina las tres señales: una vuln en el catálogo KEV (explotada activamente) o con EPSS alto debe priorizarse sobre una con CVSS alto pero sin evidencia de explotación.

Divulgación de vulnerabilidades

💡 Tip de examen: No confundas CVSS (severidad — qué tan malo sería) con EPSS/KEV (probabilidad/realidad de explotación — qué tan probable es). ISC2 empuja hacia la priorización basada en riesgo real: una vulnerabilidad de CVSS medio pero en el catálogo KEV supera en prioridad a una de CVSS alto sin evidencia de explotación.


7.11 Protección en runtime

Además de escribir código seguro, se despliegan controles que protegen la aplicación en tiempo de ejecución, detectando y bloqueando ataques mientras ocurren.

ControlQué esDónde actúa
WAF (Web Application Firewall)Filtra tráfico HTTP malicioso antes de llegar a la appPerímetro/red, fuera de la aplicación
RASP (Runtime Application Self-Protection)Se integra dentro de la app y observa su ejecución con contexto internoDentro del runtime de la aplicación
EDR (Endpoint Detection and Response)Detecta y responde a amenazas en el host/endpointSistema operativo / host

WAF vs. RASP — la distinción clave

💡 Tip de examen: La diferencia examinable entre WAF y RASP es la posición y el contexto: WAF filtra en el perímetro sin conocer el estado interno; RASP se ejecuta dentro de la aplicación con contexto completo. Ambos son controles detectivos/preventivos en runtime, complementarios a la codificación segura — nunca un sustituto de ella.


7.12 Continuidad de operaciones (BCP/DRP)

La seguridad incluye la disponibilidad (la A de CIA). La continuidad de operaciones asegura que el software y sus datos sobrevivan a fallos, desastres y ataques como ransomware.

ConceptoSignificado
BCP (Business Continuity Plan)Cómo el negocio sigue operando durante una disrupción (alcance amplio, procesos)
DRP (Disaster Recovery Plan)Cómo se recupera la tecnología específicamente (subconjunto técnico del BCP)
RTO (Recovery Time Objective)Cuánto tiempo máximo puede estar caído un sistema. Responde “¿qué tan rápido debo volver?”
RPO (Recovery Point Objective)Cuántos datos máximos se pueden perder, medido en tiempo. Responde “¿cada cuánto respaldo?”
BIA (Business Impact Analysis)Análisis que determina la criticidad de cada sistema y de ahí deriva RTO/RPO

Backups y resiliencia

💡 Tip de examen: No confundas RTO (tiempo — cuán rápido recuperas) con RPO (datos — cuánto puedes perder). Regla mnemotécnica: T de Time = Tiempo de recuperación; P de Point = Punto en el tiempo del último dato bueno. Ambos se derivan del BIA, que es lo que ISC2 quiere que hagas PRIMERO antes de fijar objetivos de recuperación.


7.13 Objetivos de nivel de servicio (SLA/SLO/SLI)

La operación segura también se mide y se compromete contractualmente. Estos tres términos se confunden constantemente; el examen distingue entre ellos.

TérminoQué esEjemplo
SLI (Service Level Indicator)La métrica real medidaPorcentaje de peticiones exitosas: 99.95%
SLO (Service Level Objective)El objetivo interno que se busca cumplir”Mantener disponibilidad ≥ 99.9%“
SLA (Service Level Agreement)El compromiso contractual con el cliente, con penalizaciones”Garantizamos 99.9% o compensamos”

La relación jerárquica: el SLI mide, el SLO es la meta que la organización se pone (más estricta que el SLA para tener margen), y el SLA es la promesa legal externa. Existen SLOs/SLAs de seguridad, no solo de disponibilidad: por ejemplo, tiempo máximo para aplicar un parche crítico, o tiempo de respuesta ante un incidente reportado.

💡 Tip de examen: Ordena la jerarquía: SLI (indicador medido) → SLO (objetivo interno) → SLA (acuerdo contractual con penalización). El SLA es el único con consecuencias legales/contractuales. El SLO suele ser más estricto que el SLA para dar colchón. Y recuerda que la seguridad también tiene SLOs (p. ej., MTTR de parches críticos).


Roles y responsabilidades en operaciones

Una parte importante de este dominio es saber quién decide qué. ISC2 evalúa constantemente la separación de responsabilidades entre roles técnicos y de negocio.

RolResponsabilidad en operacionesQué NO le corresponde
Data / System OwnerClasificar datos, definir requisitos de protección, aceptar riesgo residualImplementar los controles técnicos
Authorizing Official (AO)Firmar el ATO, asumir formalmente el riesgoOperar el sistema día a día
Equipo de seguridad / SOCMonitorear, detectar, recomendar, evaluar controlesAceptar el riesgo en nombre del negocio
Equipo de desarrollo / softwareCorregir defectos, aportar contexto en incidentes, instrumentar la appAutorizar cambios de emergencia sin aprobación
Operaciones / SREEjecutar despliegues, mantener disponibilidad, aplicar parchesDecidir clasificación de datos
PSIRTCoordinar respuesta a vulnerabilidades del productoGestionar la infraestructura corporativa (eso es el CSIRT)

El patrón que se repite: el equipo técnico informa y recomienda; el negocio decide y acepta el riesgo. Confundir estos roles es la trampa más común del dominio.

💡 Tip de examen: Ante cualquier pregunta de “¿quién debe X?”, separa siempre decisión de negocio (dueño de datos/AO: aceptar riesgo, clasificar, autorizar) de ejecución técnica (seguridad/dev/ops: implementar, monitorear, remediar). El error clásico es hacer que el equipo de seguridad “acepte” un riesgo que solo el negocio puede aceptar.


El mantenimiento como fase del ciclo de vida

El software en producción no es estático: evoluciona. El mantenimiento seguro distingue cuatro tipos clásicos, y cada uno tiene implicaciones de seguridad.

Tipo de mantenimientoQué esRiesgo de seguridad asociado
CorrectivoCorregir defectos (incluidas vulnerabilidades)El parche puede introducir regresiones; requiere testing
AdaptativoAjustar a cambios del entorno (nuevo OS, nueva API)El nuevo contexto puede reactivar riesgos mitigados
PerfectivoMejorar funcionalidad o rendimientoNueva funcionalidad = nueva superficie de ataque
PreventivoReducir deuda técnica antes de que cause fallosRequiere re-validar controles al refactorizar

Cada cambio, sin importar su tipo, debe pasar por gestión de cambios (change management): registro, evaluación de impacto de seguridad, aprobación y trazabilidad. Un cambio “pequeño” sin control es una vía frecuente de introducción de vulnerabilidades.

Decomisionado seguro (secure retirement)

Al final de la vida del software, el retiro también es una actividad de seguridad: sanitización de datos (borrado seguro de PII y secretos), revocación de credenciales y certificados asociados, desconexión ordenada de integraciones, y archivado seguro de datos que deban retenerse por cumplimiento. Un sistema “apagado” pero con datos accesibles sigue siendo un riesgo.

💡 Tip de examen: El decomisionado es parte del ciclo de vida seguro, no un afterthought. La actividad crítica al retirar un sistema es la sanitización/borrado seguro de datos sensibles y la revocación de credenciales. Dejar datos residuales o secretos activos tras el retiro es una falla que ISC2 penaliza.


Despliegue sin tiempo de inactividad (zero-downtime) y seguridad

Las estrategias de release (7.3) permiten desplegar sin caídas, pero introducen un reto de seguridad: durante la transición conviven dos versiones. Consideraciones:


Escenario integrado: de la vulnerabilidad al cierre

Para consolidar el dominio, un flujo típico que el examen puede presentar por partes:

sequenceDiagram
    participant Scan as Scanning continuo
    participant VM as Gestión de vulns
    participant PSIRT
    participant Ops as Operaciones
    participant AO as Authorizing Official
    Scan->>VM: Detecta CVE en componente (7.10)
    VM->>VM: Evalúa CVSS + EPSS + KEV
    VM->>PSIRT: Vuln crítica, explotada activamente
    PSIRT->>Ops: Contención: virtual patching en WAF (7.9/7.11)
    Ops->>Ops: Prepara parche, prueba en staging
    Ops->>AO: Solicita cambio de emergencia
    AO->>Ops: Aprueba ventana out-of-band
    Ops->>Ops: Despliegue canary + rollback listo (7.3)
    Ops->>VM: Verifica remediación
    PSIRT->>PSIRT: Post-mortem, lecciones aprendidas (7.8)

Este flujo entrelaza priorización por riesgo (7.10), virtual patching como contención temporal (7.9/7.11), aprobación de cambio de emergencia por el rol correcto (7.6), despliegue controlado con rollback (7.3) y cierre con lecciones aprendidas (7.8). La habilidad que el examen evalúa es encadenar estas decisiones en el orden correcto.

💡 Tip de examen: Cuando una vulnerabilidad crítica está siendo explotada y no puedes parchear de inmediato, la secuencia correcta es: contener primero (virtual patching), aprobar el cambio por el rol adecuado, desplegar con rollback listo y cerrar con post-mortem. Saltarse la contención para “arreglarlo bien” deja el sistema expuesto durante la preparación del parche.


Puntos clave