lu1tr0n

Posted on May 16 • Originally published at elsolitario.org

Claude Opus 4.5 y GPT-5.5 resuelven retos CTF de dificultad Insane en minutos

#ai #machinelearning #programming #tutorial

Kabir, jugador de élite que pasó cinco años en el top mundial de Capture The Flag con TheHackersCrew, acaba de publicar el obituario de la escena. Su veredicto sobre las competencias CTF: con Claude Opus 4.5 y GPT-5.5 Pro, dejaron de medir habilidad de seguridad y se convirtieron en un concurso de presupuesto de tokens y orquestación de agentes.

El argumento no es que la IA ayude — siempre ayudó —, sino que ahora resuelve sola los retos de dificultad media y parte de los hard. La consecuencia es estructural: el scoreboard que durante una década definió talento y motivó a miles de principiantes ya no refleja crecimiento humano.

TL;DR

Kabir, ex top 10 mundial en CTFTime con TheHackersCrew, declara muerta la escena tras Claude Opus 4.5 y GPT-5.5.
Modelos frontera resuelven con un solo prompt retos medium y parte de los hard, antes territorio humano exclusivo.
La métrica que importa pasó de habilidad técnica a orquestación de agentes y presupuesto de tokens.
GPT-5.5 Pro logra one-shot a retos Insane de pwn de heap en HackTheBox según las pruebas reportadas.
CTFTime refleja la caída: equipos legendarios aparecen menos y la actividad general bajó visiblemente.
Reclutadores que medían talento por desempeño en CTFs perdieron una señal confiable de skill real.
Para principiantes, el ladder de aprendizaje se rompió: el scoreboard premia uso temprano de IA sobre instinto.
picoGym, HackTheBox y labs educativos sustituyen al scoreboard público como espacio real de aprendizaje.

Qué pasó: el manifiesto desde dentro

El post de Kabir no viene de un observador externo. Empezó a jugar CTFs en 2021, ganó HCKSYD en sus primeras dos horas como jugador, llevó a Blitzkrieg a múltiples títulos en DownUnderCTF — el CTF más grande de Australia — y luego saltó a TheHackersCrew, equipo internacional que se mantuvo en el top 10 de CTFTime hasta finales de 2025. Cuando alguien con ese pedigrí dice esto se rompió, el aviso pesa distinto al de un crítico exterior.

Su tesis es directa: las competencias CTF ya no miden lo que prometen medir. La frontera entre la IA me ayudó y la IA hizo el reto se cruzó con Claude Opus 4.5, y se consolidó con GPT-5.5 Pro. En sus palabras, el problema nunca fue que los jugadores usaran herramientas — siempre lo hicieron — sino que ahora el modelo razona, escribe el exploit y deja al humano sin más tarea que copiar la flag.

El cambio operativo es trivial: armar un orquestador que use la API de CTFd para clonar instancias de Claude Code, una por reto, dejar que corra una hora, y solo entonces empezar a trabajar con cerebros humanos en lo que sobrevivió. Cualquier equipo que no lo haga juega una versión más lenta del mismo torneo.

El nuevo workflow CTF: orquestar agentes primero, pensar después.

Cómo cambió el workflow de competencias CTF en dos años

Para entender la dimensión del giro, vale comparar la operación de un equipo en 2023 versus 2026:

graph TD
    A["Reto CTF medium"] --> B{"¿Equipo con orquestador IA?"}
    B -->|"Sí (2026)"| C["Agente resuelve en minutos"]
    B -->|"No (2023)"| D["Humanos trabajan horas"]
    C --> E["Flag entregada"]
    D --> E
    E --> F["Scoreboard CTFTime"]

En 2023 todavía valía sentarse con un debugger, revisar el binario, escribir un exploit en pwntools y entregar la solución después de un sprint mental de varias horas. En 2026 ese mismo reto se paraleliza: una instancia del modelo por challenge, contexto inyectado desde la plataforma CTFd, y el equipo humano solo se acerca al teclado cuando el agente se traba con algo de dificultad Insane.

💭 Clave: el costo de entrada ya no es talento técnico, es presupuesto de tokens. Un CTF de 48 horas con cuatro agentes corriendo continuo en GPT-5.5 Pro puede costar miles de dólares en API. Esa barrera económica es la nueva línea divisoria.

El punto de quiebre: Opus 4.5 y GPT-5.5 Pro

Cuando GPT-4 salió, los retos cripto y reversing fáciles empezaron a ser one-shottables — un solo prompt y la solución aparecía. Era inconveniente pero manejable: los hard seguían intactos, los pwn complejos también, y el factor humano dominaba en los Insane.

Con Claude Opus 4.5 el tono cambió. Casi todos los retos medium pasaron a ser agent-solvables, y una parte significativa de los hard cayó también. Claude Code empaquetó el flujo en CLI, lo hizo trivial conectarse con otras herramientas vía MCP, y los equipos que se resistieron a adoptar IA simplemente perdieron banderas que antes tenían garantizadas por skill.

GPT-5.5 Pro, según las pruebas que Kabir reporta, va más allá: hace one-shot a retos Insane de pwn de heap activo y sin leak en HackTheBox — el tipo de challenge que tradicionalmente requería un especialista pasando tres días. En un CTF abierto de 48 horas, orquestar Pro contra todo el board tiene probabilidad razonable de cerrar la competencia antes de que termine el evento.

Pay-to-win y el problema del scoreboard

El efecto directo es que las competencias CTF abiertas se volvieron pay-to-win. La pregunta dejó de ser ¿cuánto sabés? y pasó a ser ¿cuántos tokens podés quemar?. Modelos especializados en ciberseguridad como alias1 de Alias Robotics quedaron relegados frente a los frontier LLMs genéricos, porque la orquestación necesaria para CTFs ya está open source o se puede construir en una tarde.

La señal de mercado más clara está en CTFTime. Equipos legendarios que aparecían en todos los podios empezaron a competir menos. Los autores de retos — gente que pasaba semanas diseñando un challenge de criptografía hermoso — perdieron incentivo cuando el reto sobrevivía minutos antes de ser devorado por un agente.

El scoreboard hoy refleja orquestación más que skill puro.

El consuelo falso de los principiantes están bien

La defensa más común contra esta lectura es: los CTFs siguen siendo buenos para aprender. Es parcialmente cierto, pero ignora que los CTFs nunca fueron solo un conjunto de puzzles: eran una escalera. Un principiante veía progreso visible — más retos resueltos, mejor ranking, invitación a un equipo, competencia más seria — y ese feedback loop sostenía la motivación.

Ese loop se rompe cuando el scoreboard está dominado por orquestadores. Un novato que ve a equipos con agentes copando los primeros lugares se siente empujado a usar IA antes de construir el instinto que la IA reemplaza. Es el anti-patrón perfecto: el atajo bloquea exactamente la lucha que enseña. Y desmotiva, porque el esfuerzo real no muestra avance visible cuando el techo ya fue automatizado.

⚠️ Ojo: esto no significa que los principiantes no deban usar IA jamás. Significa que el contexto del scoreboard público distorsiona los incentivos. El aprendizaje activo necesita fricción, y el ranking premia justo lo contrario.

Implicaciones para reclutamiento y para LATAM

Durante años, el desempeño en CTFs fue una de las señales más confiables para reclutar talento en ciberseguridad ofensiva. Era proxy de curiosidad, persistencia y rigor técnico. Hoy esa señal está contaminada: un buen ranking puede reflejar habilidad real o puede reflejar un script bien armado con presupuesto de OpenAI.

Para Latinoamérica el problema tiene una capa extra. Los equipos de la región — varios argentinos, brasileños y chilenos con presencia histórica en CTFTime — operan con presupuestos modestos. El nuevo juego, donde los tokens definen la cancha, los desplaza estructuralmente. Eventos locales como Ekoparty CTF o BSidesLATAM siguen siendo formativos, pero el ladder global se inclina hacia equipos con capacidad de gastar miles de dólares en API por torneo.

La consecuencia práctica para un estudiante de seguridad en Buenos Aires, Bogotá o San Salvador es clara: el camino subir en CTFTime → conseguir trabajo en infosec funciona peor que hace cinco años. La ruta más sólida pasa por plataformas educativas con énfasis pedagógico explícito y por presencia documentada en CTFs presenciales.

Las alternativas que sobreviven

Kabir es explícito sobre dónde ir si el objetivo es aprender de verdad: picoGym, HackTheBox y labs cerrados donde el contexto educativo está alineado con el sistema de puntuación. Estas plataformas asumen que el usuario está ahí para mejorar, no para competir por un ranking que pierde sentido.

Hay tres movimientos concretos que tienen sentido para 2026:

Migrar el esfuerzo a labs offline o cerrados. Retos sin scoreboard global que pueda contaminarse por agentes. picoGym, TryHackMe y los rooms guiados de HackTheBox Academy son territorio fértil.
Aprender a operar con IA como par, no como reemplazo. Usar Claude o GPT para acelerar el entendimiento de un binario, pero forzarte a escribir el exploit final a mano hasta que el reflejo esté construido.
Buscar comunidades pequeñas y formatos presenciales. Finales de DEF CON CTF, qualifiers cerrados, eventos con red air-gapped donde el setting impide o limita el uso de herramientas externas. Ahí el formato todavía premia skill humano.

¿Qué viene después?

Algunos organizadores ya experimentan con respuestas. Reglas anti-IA explícitas, retos pensados específicamente para resistir agentes (mucho contexto del mundo físico, hardware, ingeniería social), formatos presenciales con red air-gapped. DEF CON CTF sigue siendo el ejemplo de un evento donde, hasta ahora, la IA no resuelve todo. Pero la presión del tooling escala más rápido que la creatividad defensiva.

El probable equilibrio nuevo: los CTFs presenciales con formato controlado seguirán siendo señal de talento, las competencias abiertas online se transformarán en mercado de orquestación de agentes, y el grueso de la formación seria migrará a plataformas educativas. La escena, como Kabir la describe, no muere físicamente — muta hacia algo que ya no cumple la función que cumplía.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es un CTF y por qué importaba para la seguridad informática?

Un CTF (Capture The Flag) es una competencia de seguridad ofensiva donde los participantes resuelven retos de criptografía, reversing, web exploitation, pwn binario y forense para obtener flags (strings que validan la solución). Durante una década fue el principal proxy de habilidad técnica en ciberseguridad y la vía más visible de entrada al campo para autodidactas.

¿Cómo cambió la IA la dinámica de los CTFs en los últimos años?

Con GPT-4 algunos retos fáciles se volvieron triviales, pero el formato sobrevivía. Con Claude Opus 4.5 los retos medium pasaron a ser one-shottables por agentes, y con GPT-5.5 Pro incluso retos Insane de pwn de heap caen automáticamente. La ventaja competitiva migró del skill al presupuesto de tokens.

¿Sigue valiendo la pena que un principiante haga CTFs?

Sí para aprender, no para competir. El acto de resolver retos sigue siendo formativo si se hace sin asistencia de IA, pero el scoreboard público dejó de ser un buen feedback loop. Lo recomendable es usar plataformas educativas (picoGym, HackTheBox Academy) y tratar los CTFs públicos como sandbox de práctica, no como ladder de carrera.

¿Qué alternativas existen para aprender seguridad ofensiva en 2026?

picoGym del Carnegie Mellon University para principiantes, HackTheBox Academy para rutas guiadas, TryHackMe para gamificación pedagógica, y bug bounty programs reales como HackerOne o Bugcrowd para experiencia con sistemas en producción. Todas dan progresión más honesta que el scoreboard de CTFTime hoy.

¿Los CTFs presenciales como DEF CON también están muertos?

No, al menos no todavía. Los finales presenciales con red controlada, sin acceso a APIs externas y con reglas anti-IA explícitas siguen midiendo skill humano. DEF CON CTF, Real World CTF y algunos qualifiers cerrados son los reductos donde el formato original sobrevive. El problema es que son una fracción mínima de la actividad CTF global.

¿Sirve todavía el desempeño en CTFs para conseguir trabajo en ciberseguridad?

Vale menos que antes. Un reclutador serio hoy descuenta resultados de CTFs abiertos online por la incertidumbre sobre cuánto fue trabajo humano y cuánto agente. Lo que sí pesa: finales presenciales documentados, CVEs propios reportados, contribuciones a herramientas open source y bug bounties con vulnerabilidades publicadas. Esos son los nuevos proxies confiables.

Referencias

kabir.au — The CTF scene is dead — manifiesto original de Kabir, ex top 10 CTFTime con TheHackersCrew.
CTFTime — calendario y ranking global de competencias CTF.
HackTheBox — plataforma educativa con retos de seguridad ofensiva.
picoCTF — proyecto educativo de Carnegie Mellon University para enseñanza de seguridad.
DEF CON — conferencia y CTF presencial referencia del formato resistente a IA.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community