Modelos

Claude Opus 4.7: autoverificación, visión HD y el nuevo nivel «xhigh» que Anthropic estrena hoy en su modelo flagship

Anthropic publica hoy su modelo más avanzado disponible para el público: mejor en codificación agéntica, resolución de imagen triplicada y capacidad inédita para diseñar sus propios pasos antes de entregar resultados.

Gonzalo
Anthropic

Hace dos meses, algunos usuarios de Claude empezaron a notar algo. El modelo se equivocaba más. Completaba tareas que antes resolvía bien con resultados inconsistentes. Un director sénior de AMD escribió en GitHub una queja que se viralizó en la comunidad: «Claude ha regresado al punto en que no se puede confiar en él para realizar ingeniería compleja». Axios La teoría más extendida era que Anthropic había limitado deliberadamente las capacidades del modelo —lo que los usuarios llaman «nerfed»— para redirigir recursos hacia Mythos.

Anthropic negó esa interpretación. Y hoy, 16 de abril, responde con Claude Opus 4.7.

La novedad más importante: el modelo diseña sus propias verificaciones

De todas las capacidades nuevas, la que más ha resonado entre los primeros usuarios es la autoverificación. En lugar de entregar un resultado y esperar la corrección humana, Opus 4.7 diseña sus propios pasos de comprobación antes de reportar. Anthropic Anthropic pone un ejemplo interno concreto: el modelo construyó de forma autónoma un motor de síntesis de voz en Rust y utilizó un reconocedor de voz independiente para validar que el audio generado coincidía con la referencia original antes de declarar la tarea completada.

Esto no es solo una mejora de rendimiento. Es un cambio en cómo el modelo gestiona la incertidumbre: en vez de continuar cuando no está seguro, se detiene, verifica y solo avanza si la comprobación es satisfactoria. Para flujos de trabajo de ingeniería de software donde un fallo silencioso puede costar horas de depuración, la diferencia es relevante.

Seguimiento literal de instrucciones: útil, pero requiere ajuste

Opus 4.7 sigue las instrucciones de forma sustancialmente más literal que sus predecesores, evitando las interpretaciones libres que a veces mejoraban pero otras veces desviaban el resultado esperado. Anthropic El modelo hace exactamente lo que se le pide.

Esto tiene una consecuencia práctica que Anthropic advierte explícitamente: los prompts escritos para Opus 4.6 pueden comportarse de forma diferente. Si antes se escribían instrucciones asumiendo que el modelo «entendería la intención», ahora es necesario ser más preciso. No es un defecto —es el comportamiento más predecible que muchos equipos de producción llevan tiempo pidiendo— pero exige una migración cuidadosa de flujos de trabajo existentes.

Visión triplicada y memoria de sesión más eficiente

La resolución de imagen pasa a 2.576 píxeles en el lado más largo, más del triple que en versiones anteriores de Claude. Investing.com Para quien trabaja con diagramas técnicos densos, capturas de pantalla de alta densidad o interfaces complejas que el modelo necesita interpretar como parte de un flujo agéntico, esto cambia lo que es posible analizar en un solo turno.

En cuanto a la memoria entre sesiones, Opus 4.7 gestiona de forma más eficiente el sistema de archivos para conservar notas y contexto en trabajos que abarcan múltiples sesiones. El resultado es que las tareas nuevas dentro de un proyecto largo necesitan menos contexto inicial 9to5Mac —el modelo ya sabe dónde estaba.

El nuevo nivel «xhigh» y los presupuestos de tarea

Anthropic introduce un nivel de razonamiento denominado «xhigh» —extra alto— situado entre los niveles «high» y «max» existentes. Permite a los desarrolladores calibrar con más precisión el equilibrio entre latencia y profundidad computacional en tareas difíciles. Axios Hasta ahora, el salto entre ambos extremos era demasiado brusco para muchos casos de uso.

Además, Anthropic está probando un sistema llamado «task budgets» que da a los desarrolladores más control sobre cómo el modelo distribuye su razonamiento en tareas largas. Axios Ambas funciones apuntan al mismo problema: los agentes que trabajan durante horas necesitan que alguien —el modelo o el desarrollador— gestione conscientemente cuánto esfuerzo se dedica a cada parte del proceso.

Benchmarks: líder en codificación agéntica y análisis financiero

Los datos que Anthropic publica hoy muestran un perfil claro: Opus 4.7 no gana en todo, pero domina las categorías que más importan en entornos de producción real.

En codificación agéntica sobre repositorios reales (SWE-bench Pro), resuelve el 64,3% de las tareas frente al 53,4% de Opus 4.6 y el 57,7% de GPT-5.4. En uso escalado de herramientas (MCP-Atlas), lidera con 77,3% sobre todos los modelos comparados. En análisis financiero agéntico (Finance Agent v1.1), alcanza el 64,4%, por encima de GPT-5.4 Pro (61,5%) y Gemini 3.1 Pro (59,7%). En razonamiento visual con herramientas (CharXiv), llega al 91%, casi siete puntos por encima de Opus 4.6.

Hay dos categorías donde no lidera: búsqueda agéntica (BrowseComp), donde GPT-5.4 Pro puntúa 89,3% frente al 79,3% de Opus 4.7, y razonamiento multidisciplinar sin herramientas (Humanity's Last Exam), donde GPT-5.4 Pro también va por delante. Son las ranuras que Anthropic tendrá que cerrar en la próxima versión.

Tabla de benchmarks Claude Opus 4.7 comparativa GPT-5.4 Gemini 3.1 Pro Mythos Preview abril 2026.
Fuente: Anthropic

Tabla comparativa de benchmarks de Claude Opus 4.7 frente a Opus 4.6, GPT-5.4, Gemini 3.1 Pro y Mythos Preview. Fuente: Anthropic (16 de abril de 2026).

Precio igual, tokenizador distinto: lo que hay que tener en cuenta

El precio no cambia respecto a Opus 4.6: 5 dólares por millón de tokens de entrada y 25 por millón de tokens de salida. Pero hay dos cambios que afectan al coste real en producción y que Anthropic documenta con transparencia.

Primero, el tokenizador actualizado puede consumir entre 1,0 y 1,35 veces más tokens por el mismo contenido según el tipo de texto. Segundo, en niveles de esfuerzo alto el modelo piensa más, especialmente en turnos avanzados de flujos agénticos, lo que mejora la fiabilidad pero incrementa los tokens de salida. 9to5Mac Para equipos con pipelines a escala, ambos factores merecen una estimación de coste antes de migrar.

La capa de seguridad frente a usos de ciberseguridad de alto riesgo

Anthropic reconoce que durante el entrenamiento de Opus 4.7 experimentó activamente para reducir de forma diferencial sus capacidades de ciberseguridad respecto a Mythos. Anthropic El modelo incluye salvaguardas automáticas que detectan y bloquean solicitudes que indiquen usos prohibidos o de alto riesgo en ese dominio.

La razón declarada es pedagógica para la industria: Anthropic quiere aprender, con un modelo de acceso general, qué ocurre cuando esas salvaguardas se enfrentan al uso real, antes de plantear una liberación más amplia de capacidades Mythos. Los profesionales de seguridad que necesiten usar Opus 4.7 para investigación legítima —pentesting, análisis de vulnerabilidades, red-teaming— pueden solicitar acceso a través del nuevo Programa de Verificación Cyber.

Claude Opus 4.7 está disponible desde hoy en la API de Anthropic, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry, y para usuarios de los planes Pro, Max, Team y Enterprise de Claude.

Fuentes

EtiquetasAnthropicClaude Opus 4.7Codificación IAModelos frontier

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo