Hej! Nazywam się Ashton i jestem inżynierem-założycielem w Theta, gdzie pracuję nad infrastrukturą RL, RL i systemami rozproszonymi. Koncentruję się szczególnie na wykorzystaniu komputera i narzędzi. W przeszłości pracowałem w Amazon AGI i zajmowałem się infrastrukturą wnioskowania i wykorzystania narzędzi. W wolnym czasie uwielbiam projektowanie graficzne, projekty poboczne i bouldering.
Mój ostatni artykuł, "Czy Twoja AI naprawdę potrafi korzystać z komputera? Mapa benchmarków wykorzystania komputera na rok 2025", dotyczył jednego z najgorętszych obszarów w VC obecnie: środowisk RL i ewaluacji. Przedstawiłem kompleksowy przegląd najczęściej używanych benchmarków wykorzystania komputera, a także praktyczne porady dotyczące wyboru benchmarków do trenowania i testowania agentów korzystających z komputera.
Ciągle napotykałem tę samą lukę: nie ma wielu artykułów, które analizują same benchmarki. A w miarę rozwoju tej dziedziny, kluczowe jest, abyśmy faktycznie oceniali jakość, zamiast nagradzać cokolwiek, co przypadkowo wykorzystuje metrykę. Byliśmy już w tej sytuacji. W początkowych dniach LLM, benchmarki były na tyle przypadkowe i różnorodne, że tylko słabo odzwierciedlały prawdziwego zwycięzcę.
Benchmarki stały się de facto tablicą wyników dla "najlepszego modelu", a potem ludzie zdali sobie sprawę, że wiele z nich nie mierzyło tego, co twierdzili.
Jedną z najbardziej wymownych porażek wczesnej ery było to, gdy "zrozumienie tekstu" po cichu stało się "dopasowywaniem wzorców do struktury zbioru danych". Badacze przeprowadzili celowo prowokacyjne testy bazowe (tylko pytanie, tylko ostatnie zdanie), a wyniki były na tyle wysokie, że pojawiła się niewygodna możliwość: benchmark nie zmuszał konsekwentnie modeli do korzystania z całego fragmentu tekstu. W krytyce z 2018 roku, nie chodziło o to, że czytanie nigdy nie ma znaczenia, ale o to, że niektóre zbiory danych przypadkowo uczyniły je opcjonalnym, nadmiernie nagradzając skróty, takie jak aktualność i stereotypowe odpowiedzi.
\
# Supposed task: answer the question given the passage and question Passage (summary): - Sentences 1–8: John's day at school (mostly irrelevant detail) - Sentence 9: "After school, John went to the kitchen." - Sentence 10: "He ate a slice of pizza before starting his homework." Question: "What did John eat?" Answer: "pizza"
Benchmark przypadkowo nagradza skrót, w którym model nadmiernie waży ostatnie zdanie (ponieważ odpowiedź często znajduje się pod koniec) i po prostu wyodrębnia bezpośredni przedmiot najnowszej akcji ("zjadł ___"), co w tym przypadku daje "pizzę".
A potem pojawia się jeszcze bardziej szkodliwy test bazowy: usuń cały fragment i zobacz, co się stanie. Jeśli model oparty tylko na pytaniu jest konkurencyjny, to znak, że zbiór danych przecieka sygnał poprzez powtórzenia i wcześniejsze założenia, zamiast testować zrozumienie oparte na tekście.
Question: "What did John eat?"
Ten test bazowy to w zasadzie kontrola zdroworozsądkowa: czy model nadal może uzyskać dobry wynik, opierając się na szablonach odpowiedzi o wysokiej częstotliwości bez żadnego odniesienia do tekstu? W praktyce po prostu zgaduje token, który zbiór danych nieproporcjonalnie nagradza ("pizza", "kanapka"), a jeśli to działa częściej niż powinno, nie mierzysz zrozumienia, tylko mierzysz założenia zbioru danych.
Ewaluacje wykorzystania komputera już wytworzyły jeszcze bardziej dosłowny skrót: agent ma przeglądarkę, benchmark jest publiczny, a ewaluacja zamienia się w egzamin z otwartą książką z kluczem odpowiedzi na ostatniej stronie. W artykule o Holistic Agent Leaderboard (HAL), autorzy zgłaszają zaobserwowanie agentów, które szukały benchmarku na HuggingFace zamiast rozwiązywać zadanie, zachowanie, które złapiesz tylko jeśli sprawdzisz logi.
\
# Supposed task: complete a workflow inside the web environment Task: "Configure setting X in the app and verify it's enabled." Failure mode: 1) Open a new tab 2) Search for: "benchmark X expected enabled state" / "HAL <benchmark> setting X" 3) Find: repo / leaderboard writeup / dataset card / issue thread 4) Reproduce the expected end state (answer)
W tym momencie ewaluacja mierzyła, czy agent potrafi zlokalizować klucz odpowiedzi.
Task: "Find the correct page and extract Y." Failure mode: - Search: "<benchmark name> Y" - Copy from a public artifact (docs, forum post, dataset card) - Paste the value into the agent output as if it came from interaction
Jeśli agent może pobrać wartość z karty zbioru danych lub repozytorium i nadal "zdać", kontrola sukcesu ocenia prawdopodobieństwo, a nie poprawność interakcji. Publiczne zadania plus płytka weryfikacja zamieniają wyszukiwanie w sieci w exploit.
Te dwa przykłady są strzałem ostrzegawczym: jeśli nie będziemy trzymać benchmarków wykorzystania komputera na wyższych standardach wcześnie, powtórzymy erę LLM, tylko z lepszymi interfejsami użytkownika i bardziej wyszukanymi sposobami oszukiwania.
Tak! Pracując nad środowiskami RL i infrastrukturą RL wokół wykorzystania komputera, jestem stale otoczony najlepszymi modelami wykorzystania komputera i najbardziej realistycznymi środowiskami treningowymi. Dlatego napisałem kolejny artykuł, "Ekran jest API", który przedstawia argumenty za wykorzystaniem komputera i dlaczego jest to przyszłość modeli AI.
Ta przestrzeń jest niezwykle słabo relacjonowana z dwóch powodów:
Chcę to zmienić.
Zwykle czytam mnóstwo prac badawczych i rozmawiam z kolegami z branży o ich przemyśleniach na dany temat. Poza tym spędzam dużo czasu na czytaniu artykułów świetnych blogerów, takich jak PG. Więc zwykle czerpię dużo inspiracji od innych ludzi w moim pisaniu.
Znalezienie czasu, aby usiąść i przelać moje przeżyte doświadczenia na słowa.
Rozwiązywać trudniejsze problemy z wspaniałymi ludźmi, uczyć się od tych ludzi i dzielić się moimi doświadczeniami.
Oglądanie filmów! Moim ulubionym filmem w tej chwili jest Złap mnie, jeśli potrafisz (2002).
Uwielbiam bouldering, ponieważ sprawia, że czuję się jak ludzki agent wykorzystania komputera wchodzący w interakcję ze ścianą wspinaczkową. Żartuję. Myślę, że bouldering jest bardzo zabawny, ponieważ pozwala mi oderwać myśli od pracy i uporządkować moje myślenie.
Obecnie piszę kolejny artykuł o infrastrukturze środowiska RL!
Myślę, że struktura recenzji jest świetna i było to doskonałe miejsce dla mnie, aby przedstawić moje przemyślenia technicznym czytelnikom.
Kocham pisać. Dziękuję, HackerNoon!


