¡Hola! Me llamo Ashton, y soy ingeniero fundador en Theta donde trabajo en infraestructura de RL, RL y sistemas distribuidos. Me enfoco específicamente en el uso de computadoras y herramientas. En mi pasado, trabajé en Amazon AGI y abordé infraestructura de inferencia y uso de herramientas. En mi tiempo libre, me encanta el diseño gráfico, proyectos paralelos y la escalada en bloque.
Mi última historia, "¿Puede tu IA realmente usar una computadora? Un mapa 2025 de benchmarks de uso de computadoras", abordó uno de los espacios más candentes en capital de riesgo ahora mismo: entornos de RL y evaluaciones. Ofrecí una visión completa de los benchmarks de uso de computadora más utilizados, además de consejos prácticos sobre cómo elegir benchmarks para entrenar y probar agentes de uso de computadora.
Seguía encontrándome con la misma brecha: no hay muchos artículos que revisen los benchmarks en sí. Y a medida que este campo crece, es vital que estemos evaluando realmente la calidad en lugar de recompensar cualquier cosa que manipule la métrica. Ya hemos estado aquí antes. En los primeros días de los LLM, los benchmarks eran lo suficientemente aleatorios y dispares que solo reflejaban débilmente al verdadero ganador.
Los benchmarks se convirtieron en el marcador de facto para el "mejor modelo", y luego la gente se dio cuenta de que muchos de ellos no estaban midiendo lo que afirmaban.
Uno de los fracasos más reveladores de la era temprana fue cuando la "comprensión lectora" se convirtió silenciosamente en "coincidencia de patrones en la estructura del conjunto de datos". Los investigadores ejecutaron líneas base intencionadamente provocativas (solo preguntas, solo última frase), y los resultados fueron lo suficientemente altos como para plantear una posibilidad incómoda: el benchmark no obligaba consistentemente a los modelos a usar el pasaje completo. En una crítica de 2018, el punto no era que la lectura nunca importara, sino que algunos conjuntos de datos accidentalmente la hacían opcional al recompensar en exceso atajos como la recencia y los estereotipos previos de respuestas.
\
# Tarea supuesta: responder la pregunta dado el pasaje y la pregunta Pasaje (resumen): - Frases 1–8: El día de John en la escuela (mayormente detalles irrelevantes) - Frase 9: "Después de la escuela, John fue a la cocina." - Frase 10: "Comió una rebanada de pizza antes de comenzar su tarea." Pregunta: "¿Qué comió John?" Respuesta: "pizza"
El benchmark recompensa accidentalmente un atajo donde el modelo sobrepondera la última frase (porque la respuesta a menudo está cerca del final) y simplemente extrae el objeto directo de la acción más reciente ("comió ___"), que en este caso produce "pizza".
Y luego viene la línea base aún más dañina: eliminar el pasaje por completo y ver qué sucede. Si un modelo de solo preguntas es competitivo, es una señal de que el conjunto de datos está filtrando señales a través de la repetición y conocimientos previos en lugar de probar la comprensión basada en el pasaje.
Pregunta: "¿Qué comió John?"
Esta línea base es básicamente una verificación de cordura: ¿puede el modelo seguir puntuando bien apoyándose en plantillas de respuestas de alta frecuencia sin basarse en el pasaje en absoluto? En la práctica, simplemente adivina un token que el conjunto de datos recompensa desproporcionadamente ("pizza", "sándwich"), y si eso funciona más a menudo de lo que debería, no estás midiendo la comprensión tanto como estás midiendo los conocimientos previos del conjunto de datos.
Las evaluaciones de uso de computadora ya han producido un atajo aún más literal: el agente tiene un navegador, el benchmark es público, y la evaluación se convierte en un examen a libro abierto con una clave de respuestas en la última página. En el artículo del Holistic Agent Leaderboard (HAL), los autores informan haber observado agentes que buscaban el benchmark en HuggingFace en lugar de resolver la tarea, un comportamiento que solo detectas si inspeccionas los registros.
\
# Tarea supuesta: completar un flujo de trabajo dentro del entorno web Tarea: "Configurar el ajuste X en la aplicación y verificar que esté habilitado." Modo de fallo: 1) Abrir una nueva pestaña 2) Buscar: "estado habilitado esperado del benchmark X" / "HAL <benchmark> ajuste X" 3) Encontrar: repositorio / descripción de la tabla de clasificación / tarjeta del conjunto de datos / hilo de problemas 4) Reproducir el estado final esperado (respuesta)
En ese punto, la evaluación estaba midiendo si puede localizar la clave de respuestas.
Tarea: "Encuentra la página correcta y extrae Y." Modo de fallo: - Buscar: "<nombre del benchmark> Y" - Copiar de un artefacto público (documentos, publicación en foro, tarjeta de conjunto de datos) - Pegar el valor en la salida del agente como si viniera de la interacción
Si un agente puede extraer el valor de una tarjeta de conjunto de datos o repositorio y aún "aprobar", la verificación de éxito está calificando la plausibilidad, no la corrección de la interacción. Las tareas públicas más la verificación superficial convierten la búsqueda web en una explotación.
Estos dos ejemplos son el disparo de advertencia: si no mantenemos los benchmarks de uso de computadora con estándares más altos desde el principio, repetiremos la era de los LLM solo con mejores interfaces de usuario y formas más elaboradas de hacer trampa.
¡Sí! Trabajando en los entornos de RL y la infraestructura de RL alrededor del uso de computadoras, estoy constantemente rodeado de los mejores modelos de uso de computadora y los entornos de entrenamiento más realistas. Así que escribí otro artículo, "La pantalla es la API", que es el caso del uso de computadora y por qué es el futuro de los modelos de IA.
Este espacio está extremadamente poco reportado debido a dos razones:
Quiero cambiar eso.
Normalmente leo un montón de artículos de investigación y hablo con mis colegas en la industria sobre sus pensamientos sobre un tema. Aparte de eso, paso mucho tiempo leyendo artículos de grandes blogueros como PG. Así que normalmente tomo mucha inspiración de otras personas en mi escritura.
Encontrar el tiempo para sentarme y poner mi experiencia vivida en palabras.
Abordar problemas más difíciles con grandes personas, aprender de esas personas y compartir mis experiencias.
¡Ver películas! Mi película favorita en este momento es Atrápame si puedes (2002).
Me encanta la escalada en bloque porque me hace sentir como si fuera un agente humano de uso de computadora interactuando con la pared de escalada. Estoy bromeando. Creo que la escalada en bloque es muy divertida porque me permite desconectar del trabajo y consolidar mi pensamiento.
¡Actualmente estoy escribiendo otro artículo sobre infraestructura de entornos RL!
Creo que la estructura de revisión es increíble, y fue un gran lugar para poner mis pensamientos frente a lectores técnicos.
Me encanta escribir. ¡Gracias, HackerNoon!


La Procuraduría Federal del Consumidor lanzó una advertencia acerca de las prácticas de publicidad engañosa en el sector de telecomunicaciones.
