GPT-5.4 supera a expertos humanos en el 83% de tareas: la IA ya no practica, trabaja

El 5 de marzo, OpenAI lanzó GPT-5.4 con un dato que no admite demasiada interpretación: en GDPval, el banco de pruebas que mide trabajo profesional real en 44 ocupaciones, el modelo igualó o superó a especialistas humanos en el 83% de las comparaciones. Tres días después, Anthropic publicó que Claude Opus 4.6 había identificado 22 vulnerabilidades nuevas en Firefox en dos semanas, 14 de ellas de alta severidad, y que la primera la encontró en veinte minutos. Dos noticias distintas. El mismo mensaje.

GPT-5.4: el modelo que ya no espera instrucciones para cada paso

La arquitectura de GPT-5.4 consolida algo que OpenAI venía construyendo por partes: unificó las capacidades de razonamiento de GPT-5.2 con las de programación agentiva de GPT-5.3-Codex en un solo modelo. El resultado es un sistema que opera computadoras de forma autónoma, navega aplicaciones sin supervisión y completa flujos de trabajo complejos sin que nadie tenga que guiarlo paso a paso.

Según OpenAI, GPT-5.4 es un 33% menos propenso a cometer errores en afirmaciones individuales que su predecesor GPT-5.2, y las respuestas completas contienen un 18% menos de errores. Los números de rendimiento en entornos profesionales son más llamativos todavía: en GDPval, que evalúa trabajo bien especificado a través de 44 ocupaciones de los nueve sectores con mayor contribución al PIB de Estados Unidos, GPT-5.4 alcanzó el 83% de coincidencia con, o superación, de criterio de expertos humanos, frente al 70,9% que obtenía GPT-5.2.

Para quien trabaje con documentos financieros, presentaciones o análisis legal, esto no es abstracto. En modelos de inversión y banca, el 87,3% de evaluadores prefirió GPT-5.4 frente al 68,4% que prefería GPT-5.2. La ventana de contexto sube a un millón de tokens en la API, lo que permite ingerir contratos enteros, repositorios de código o historiales clínicos en una sola interacción.

La clave operativa está en una función nueva llamada planificación anticipada: antes de responder, el modelo muestra su plan de razonamiento. El usuario puede redirigirlo a mitad de proceso sin empezar desde cero. No es un detalle menor. Es lo que diferencia un asistente de un colaborador.

Métrica / Benchmark	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (victorias o empates)	83.0 %	70.9 %	70.9 %
SWE-Bench Pro (Public)	57.7 %	56.8 %	55.6 %
OSWorld-Verified	75.0 %	74.0 %*	47.3 %
Toolathlon	54.6 %	51.9 %	46.3 %
BrowseComp	82.7 %	77.3 %	65.8 %

* Previamente se reportó como 64.7 %. GPT‑5.3‑Codex alcanza el 74.0 % con un parámetro de la API recién introducido que preserva la resolución original de la imagen.

Claude encontró en Firefox lo que los humanos tardaron un año en parchear

Mientras OpenAI presentaba su modelo, Anthropic publicaba algo que tiene una dimensión diferente: no un número de benchmark, sino un caso real con consecuencias reales para cientos de millones de usuarios.

Claude Opus 4.6 encontró 22 vulnerabilidades en Firefox durante febrero de 2026, más de las reportadas en cualquier mes individual de 2025, y sus correcciones llegaron a los usuarios a través de Firefox 148.0. De esas 22, 14 se clasificaron como de alta severidad, lo que representa casi una quinta parte de todas las vulnerabilidades de esa categoría parcheadas en Firefox durante todo 2025.

El detalle que más ha circulado entre investigadores de seguridad: tras solo veinte minutos de exploración autónoma, el modelo reportó haber identificado un error de "uso después de la liberación" en el motor de JavaScript del navegador, que fue validado por un investigador humano en un entorno virtualizado antes de enviarse a Mozilla.

De los 112 informes totales que Anthropic envió a Mozilla, 22 derivaron en CVEs oficiales por fallos de seguridad, mientras que los noventa restantes correspondían a problemas no críticos como cuelgues y errores lógicos. El equipo escaneó cerca de 6.000 archivos de código C++. La operación completa duró dos semanas.

Aquí viene la parte que Anthropic no subrayó, pero que el informe deja escrita con claridad: el modelo es mucho mejor detectando fallos que explotándolos. Para probar las capacidades ofensivas del sistema, los investigadores intentaron que Claude desarrollara exploits funcionales para los fallos descubiertos, invirtiendo aproximadamente 4.000 dólares en créditos de API en cientos de intentos; Opus 4.6 solo logró crear un exploit operativo en dos casos. Ambos funcionaban únicamente en entornos de prueba con las protecciones del navegador desactivadas a propósito.

Pantalla de terminal con código C++ y resultados de análisis de seguridad automatizado de Claude Opus

Lo que ninguno de los dos comunicados dice directamente

La narrativa oficial de ambas compañías en esta semana es optimista: la IA ayuda a los humanos, la IA fortalece la seguridad, la IA hace el trabajo aburrido. Todo cierto. Y al mismo tiempo, hay un subtexto que conviene leer sin anestesia.

Que un modelo encuentre el 20% del trabajo de seguridad anual de un proyecto como Firefox en catorce días, un proyecto que Mozilla lleva décadas reforzando con ingenieros especializados, no es solo una historia de progreso. Es también una historia sobre qué ocurre cuando esa misma capacidad la usa alguien que no tiene un acuerdo de divulgación coordinada con Mozilla. Anthropic lo escribe en su propio informe: "Si los modelos futuros rompen la barrera entre descubrir vulnerabilidades y explotarlas, habrá que considerar medidas adicionales."

La transición de la IA generativa a la IA agentiva, sistemas que no esperan, sino que actúan, lleva meses anunciándose en conferencias y papers. Esta semana ocurrió en producción, con facturas pagadas y parches distribuidos a cientos de millones de personas.

El mercado que ya cambió de manos antes del debate

El lanzamiento de GPT-5.4 pone a OpenAI en competencia directa con Anthropic, que había dominado el segmento empresarial con herramientas similares; ambas compañías compiten por capturar el mercado corporativo con sistemas capaces de hacer trabajo real en sectores dispuestos a adoptar IA.

Métrica	GPT-5.4 (xhigh)	Claude Opus 4.6 (Sin razonamiento)	Análisis
Creador	OpenAI	Anthropic	GPT-5.4 (xhigh) es desarrollado por OpenAI y Claude Opus 4.6 por Anthropic
Ventana de contexto	1050k tokens (~1575 páginas A4 con fuente Arial 12)	200k tokens (~300 páginas A4 con fuente Arial 12)	GPT-5.4 (xhigh) tiene una ventana de contexto mayor que Claude Opus 4.6
Fecha de lanzamiento	Marzo de 2026	Febrero de 2026	GPT-5.4 (xhigh) tiene una fecha de lanzamiento más reciente
Soporte de entrada de imágenes	Sí	Sí	Ambos modelos admiten entrada de imágenes
Código abierto (pesos del modelo)	No	No	Ambos modelos son propietarios

La diferencia es de posicionamiento, no de capacidad técnica. OpenAI entra al territorio empresarial con un modelo unificado que consolida todo su stack anterior. Anthropic llega con una demostración práctica de que su modelo puede actuar como un auditor autónomo de seguridad. Llama 4 Maverick de Meta, con su ventana de contexto de diez millones de tokens, sigue siendo la opción de referencia para quien quiera ejecutar todo en infraestructura propia sin depender de ninguna de las dos.

El debate sobre si la IA reemplaza trabajos o los transforma seguirá siendo debate por un tiempo. Lo que ya no es debate es si puede hacer el trabajo. Esta semana lo hizo.

Lo que queda pendiente es más incómodo: saber quién más, con acceso a los mismos modelos, está escaneando los mismos repositorios ahora mismo.

GPT-5.4 supera a expertos humanos en el 83% de tareas: la IA ya no practica, trabaja

GPT-5.4: el modelo que ya no espera instrucciones para cada paso

Claude encontró en Firefox lo que los humanos tardaron un año en parchear

Lo que ninguno de los dos comunicados dice directamente

El mercado que ya cambió de manos antes del debate

Fuentes

Noticias Relacionadas

La cara oculta de la Luna tendrá testigos mañana. No ocurría desde el Apolo 17.

La NASA confirma la fecha y el menú de Artemis II

Meta despide a 16.000 personas. Su acción sube un 3%

Otras noticias

El cáncer lleva décadas ganando tiempo. La IA acaba de diseñar proteínas que lo atacan en 4 semanas.

El telescopio Kepler lleva ocho años apagado. Sus datos acaban de entregar el exoplaneta más parecido a la Tierra que hemos visto orbitar una estrella como el Sol.

El Congreso le dio a la industria del casino lo que pedía. Luego añadió la letra pequeña.

La IA prometía acelerar la ciencia. Nature acaba de demostrar que también puede destruirla.

Seis días de guerra en Medio Oriente: Trump quiere elegir al próximo líder de Irán

La Academia lleva décadas resistiendo el cine de terror. Sinners acaba de ganar la guerra.

Pokémon ya no solo es capturar criaturas. Pokopia te pide que construyas su casa.

Polymarket registró el ataque a Irán antes que la prensa. Ahora el Senado quiere saber quién apostó.

Irán llevaba décadas amenazando con esta guerra. Nadie calculó que comenzaría con niñas muertas en una escuela de Minab.

EE. UU. e Israel atacaron Irán de madrugada. Jamenei está muerto y el mundo contiene la respiración.

La Reserva Federal lleva décadas midiendo la economía con encuestas y futuros. Un mercado de apuestas acaba de superarlos a ambos

Champions League: Bodo/Glimt humilla al Inter, Galatasaray destroza a la Juventus en octavos dramáticos

GPT-5.4: el modelo que ya no espera instrucciones para cada paso

Claude encontró en Firefox lo que los humanos tardaron un año en parchear

Lo que ninguno de los dos comunicados dice directamente

El mercado que ya cambió de manos antes del debate

Fuentes

Las noticias más importantes mientras disfrutas de un café.

Noticias Relacionadas

La cara oculta de la Luna tendrá testigos mañana. No ocurría desde el Apolo 17.

La NASA confirma la fecha y el menú de Artemis II

Meta despide a 16.000 personas. Su acción sube un 3%

Otras noticias

El cáncer lleva décadas ganando tiempo. La IA acaba de diseñar proteínas que lo atacan en 4 semanas.

El telescopio Kepler lleva ocho años apagado. Sus datos acaban de entregar el exoplaneta más parecido a la Tierra que hemos visto orbitar una estrella como el Sol.

El Congreso le dio a la industria del casino lo que pedía. Luego añadió la letra pequeña.

La IA prometía acelerar la ciencia. Nature acaba de demostrar que también puede destruirla.

Seis días de guerra en Medio Oriente: Trump quiere elegir al próximo líder de Irán

La Academia lleva décadas resistiendo el cine de terror. Sinners acaba de ganar la guerra.

Pokémon ya no solo es capturar criaturas. Pokopia te pide que construyas su casa.

Polymarket registró el ataque a Irán antes que la prensa. Ahora el Senado quiere saber quién apostó.

Irán llevaba décadas amenazando con esta guerra. Nadie calculó que comenzaría con niñas muertas en una escuela de Minab.

EE. UU. e Israel atacaron Irán de madrugada. Jamenei está muerto y el mundo contiene la respiración.

La Reserva Federal lleva décadas midiendo la economía con encuestas y futuros. Un mercado de apuestas acaba de superarlos a ambos

Champions League: Bodo/Glimt humilla al Inter, Galatasaray destroza a la Juventus en octavos dramáticos