Tecnología•7 min de lectura
GPT-5.4 supera a expertos humanos en el 83% de tareas: la IA ya no practica, trabaja


El 5 de marzo, OpenAI lanzó GPT-5.4 con un dato que no admite demasiada interpretación: en GDPval, el banco de pruebas que mide trabajo profesional real en 44 ocupaciones, el modelo igualó o superó a especialistas humanos en el 83% de las comparaciones. Tres días después, Anthropic publicó que Claude Opus 4.6 había identificado 22 vulnerabilidades nuevas en Firefox en dos semanas, 14 de ellas de alta severidad, y que la primera la encontró en veinte minutos. Dos noticias distintas. El mismo mensaje.
GPT-5.4: el modelo que ya no espera instrucciones para cada paso
La arquitectura de GPT-5.4 consolida algo que OpenAI venía construyendo por partes: unificó las capacidades de razonamiento de GPT-5.2 con las de programación agentiva de GPT-5.3-Codex en un solo modelo. El resultado es un sistema que opera computadoras de forma autónoma, navega aplicaciones sin supervisión y completa flujos de trabajo complejos sin que nadie tenga que guiarlo paso a paso.
Según OpenAI, GPT-5.4 es un 33% menos propenso a cometer errores en afirmaciones individuales que su predecesor GPT-5.2, y las respuestas completas contienen un 18% menos de errores. Los números de rendimiento en entornos profesionales son más llamativos todavía: en GDPval, que evalúa trabajo bien especificado a través de 44 ocupaciones de los nueve sectores con mayor contribución al PIB de Estados Unidos, GPT-5.4 alcanzó el 83% de coincidencia con, o superación, de criterio de expertos humanos, frente al 70,9% que obtenía GPT-5.2.
Para quien trabaje con documentos financieros, presentaciones o análisis legal, esto no es abstracto. En modelos de inversión y banca, el 87,3% de evaluadores prefirió GPT-5.4 frente al 68,4% que prefería GPT-5.2. La ventana de contexto sube a un millón de tokens en la API, lo que permite ingerir contratos enteros, repositorios de código o historiales clínicos en una sola interacción.
La clave operativa está en una función nueva llamada planificación anticipada: antes de responder, el modelo muestra su plan de razonamiento. El usuario puede redirigirlo a mitad de proceso sin empezar desde cero. No es un detalle menor. Es lo que diferencia un asistente de un colaborador.
| Métrica / Benchmark | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (victorias o empates) | 83.0 % | 70.9 % | 70.9 % |
| SWE-Bench Pro (Public) | 57.7 % | 56.8 % | 55.6 % |
| OSWorld-Verified | 75.0 % | 74.0 %* | 47.3 % |
| Toolathlon | 54.6 % | 51.9 % | 46.3 % |
| BrowseComp | 82.7 % | 77.3 % | 65.8 % |
* Previamente se reportó como 64.7 %. GPT‑5.3‑Codex alcanza el 74.0 % con un parámetro de la API recién introducido que preserva la resolución original de la imagen.
Claude encontró en Firefox lo que los humanos tardaron un año en parchear
Mientras OpenAI presentaba su modelo, Anthropic publicaba algo que tiene una dimensión diferente: no un número de benchmark, sino un caso real con consecuencias reales para cientos de millones de usuarios.
Claude Opus 4.6 encontró 22 vulnerabilidades en Firefox durante febrero de 2026, más de las reportadas en cualquier mes individual de 2025, y sus correcciones llegaron a los usuarios a través de Firefox 148.0. De esas 22, 14 se clasificaron como de alta severidad, lo que representa casi una quinta parte de todas las vulnerabilidades de esa categoría parcheadas en Firefox durante todo 2025.
El detalle que más ha circulado entre investigadores de seguridad: tras solo veinte minutos de exploración autónoma, el modelo reportó haber identificado un error de "uso después de la liberación" en el motor de JavaScript del navegador, que fue validado por un investigador humano en un entorno virtualizado antes de enviarse a Mozilla.
De los 112 informes totales que Anthropic envió a Mozilla, 22 derivaron en CVEs oficiales por fallos de seguridad, mientras que los noventa restantes correspondían a problemas no críticos como cuelgues y errores lógicos. El equipo escaneó cerca de 6.000 archivos de código C++. La operación completa duró dos semanas.
Aquí viene la parte que Anthropic no subrayó, pero que el informe deja escrita con claridad: el modelo es mucho mejor detectando fallos que explotándolos. Para probar las capacidades ofensivas del sistema, los investigadores intentaron que Claude desarrollara exploits funcionales para los fallos descubiertos, invirtiendo aproximadamente 4.000 dólares en créditos de API en cientos de intentos; Opus 4.6 solo logró crear un exploit operativo en dos casos. Ambos funcionaban únicamente en entornos de prueba con las protecciones del navegador desactivadas a propósito.

Lo que ninguno de los dos comunicados dice directamente
La narrativa oficial de ambas compañías en esta semana es optimista: la IA ayuda a los humanos, la IA fortalece la seguridad, la IA hace el trabajo aburrido. Todo cierto. Y al mismo tiempo, hay un subtexto que conviene leer sin anestesia.
Que un modelo encuentre el 20% del trabajo de seguridad anual de un proyecto como Firefox en catorce días, un proyecto que Mozilla lleva décadas reforzando con ingenieros especializados, no es solo una historia de progreso. Es también una historia sobre qué ocurre cuando esa misma capacidad la usa alguien que no tiene un acuerdo de divulgación coordinada con Mozilla. Anthropic lo escribe en su propio informe: "Si los modelos futuros rompen la barrera entre descubrir vulnerabilidades y explotarlas, habrá que considerar medidas adicionales."
La transición de la IA generativa a la IA agentiva, sistemas que no esperan, sino que actúan, lleva meses anunciándose en conferencias y papers. Esta semana ocurrió en producción, con facturas pagadas y parches distribuidos a cientos de millones de personas.
El mercado que ya cambió de manos antes del debate
El lanzamiento de GPT-5.4 pone a OpenAI en competencia directa con Anthropic, que había dominado el segmento empresarial con herramientas similares; ambas compañías compiten por capturar el mercado corporativo con sistemas capaces de hacer trabajo real en sectores dispuestos a adoptar IA.
| Métrica | GPT-5.4 (xhigh) | Claude Opus 4.6 (Sin razonamiento) | Análisis |
|---|---|---|---|
| Creador | OpenAI | Anthropic | GPT-5.4 (xhigh) es desarrollado por OpenAI y Claude Opus 4.6 por Anthropic |
| Ventana de contexto | 1050k tokens (~1575 páginas A4 con fuente Arial 12) | 200k tokens (~300 páginas A4 con fuente Arial 12) | GPT-5.4 (xhigh) tiene una ventana de contexto mayor que Claude Opus 4.6 |
| Fecha de lanzamiento | Marzo de 2026 | Febrero de 2026 | GPT-5.4 (xhigh) tiene una fecha de lanzamiento más reciente |
| Soporte de entrada de imágenes | Sí | Sí | Ambos modelos admiten entrada de imágenes |
| Código abierto (pesos del modelo) | No | No | Ambos modelos son propietarios |
La diferencia es de posicionamiento, no de capacidad técnica. OpenAI entra al territorio empresarial con un modelo unificado que consolida todo su stack anterior. Anthropic llega con una demostración práctica de que su modelo puede actuar como un auditor autónomo de seguridad. Llama 4 Maverick de Meta, con su ventana de contexto de diez millones de tokens, sigue siendo la opción de referencia para quien quiera ejecutar todo en infraestructura propia sin depender de ninguna de las dos.
El debate sobre si la IA reemplaza trabajos o los transforma seguirá siendo debate por un tiempo. Lo que ya no es debate es si puede hacer el trabajo. Esta semana lo hizo.
Lo que queda pendiente es más incómodo: saber quién más, con acceso a los mismos modelos, está escaneando los mismos repositorios ahora mismo.
Fuentes
Las noticias más importantes mientras disfrutas de un café.
Únete a nuestra comunidad. Recibe nuestro análisis semanal exclusivo antes que nadie.
Noticias Relacionadas

TecnologíaGlobal
5 min de lectura
La NASA confirma la fecha y el menú de Artemis II
La nave Orión no tiene nevera ni reabastecimiento. Por eso la NASA diseñó 189 ítems únicos, amaranto como proteína, cinco tipos de salsa picante y 43 tazas de café para 10 días alrededor de la Luna.

TecnologíaDinero
5 min de lectura
Meta despide a 16.000 personas. Su acción sube un 3%
Reuters confirmó los planes de recorte de hasta el 20% de la plantilla de Meta. Wall Street celebró la noticia con una subida del 3%. En 2026, la IA ya justifica 55.775 despidos en el sector tecnológico.

Tecnología
7 min de lectura
La IA ya resuelve matemáticas de siglos. Lo que cifra tu banco se reconstruye de cero.
AlphaEvolve superó toda solución humana conocida en el 20% de 67 problemas matemáticos abiertos. Al mismo tiempo, el cifrado RSA que protege bancos y redes gubernamentales lleva meses siendo sustituido. Dos transformaciones que convergen.











