В этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняетВ этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняет

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

2025/12/15 04:25


Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Привет! Меня зовут Эштон, и я инженер-основатель в Theta, где я работаю над инфраструктурой RL, RL и распределенными системами. Я специализируюсь на компьютерном использовании и использовании инструментов. В прошлом я работал в Amazon AGI и занимался инфраструктурой для вывода и использования инструментов. В свободное время я люблю графический дизайн, побочные проекты и боулдеринг.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Моя последняя статья "Может ли ваш ИИ действительно использовать компьютер? Карта эталонов компьютерного использования 2025 года" затронула одну из самых горячих тем в VC прямо сейчас: среды RL и оценки. Я дал всесторонний обзор наиболее используемых эталонов компьютерного использования, а также практические советы по выбору эталонов для обучения и тестирования агентов компьютерного использования.

Я постоянно сталкивался с одним и тем же пробелом: не так много статей, которые рассматривают сами эталоны. И по мере роста этой области жизненно важно, чтобы мы действительно оценивали качество, а не вознаграждали то, что случайно обыгрывает метрику. Мы уже были здесь раньше. В ранние дни LLM эталоны были достаточно случайными и разрозненными, что они лишь слабо отражали реального победителя.

Эталоны стали де-факто таблицей результатов для "лучшей модели", а затем люди поняли, что многие из них не измеряли то, что заявляли.

Одной из самых показательных неудач раннего периода было, когда "понимание прочитанного" тихо превратилось в "сопоставление шаблонов в структуре данных". Исследователи запустили намеренно провокационные базовые линии (только вопрос, только последнее предложение), и результаты были достаточно высокими, чтобы вызвать неудобную возможность: эталон не последовательно заставлял модели использовать весь отрывок. В критике 2018 года суть была не в том, что чтение никогда не имеет значения, а в том, что некоторые наборы данных случайно сделали его необязательным, чрезмерно вознаграждая такие ярлыки, как недавность и стереотипные предварительные ответы.

\

# Предполагаемая задача: ответить на вопрос, учитывая отрывок и вопрос Отрывок (резюме): - Предложения 1–8: День Джона в школе (в основном несущественные детали) - Предложение 9: "После школы Джон пошел на кухню." - Предложение 10: "Он съел кусок пиццы перед тем, как начать делать домашнее задание." Вопрос: "Что съел Джон?" Ответ: "пицца"

Эталон случайно вознаграждает ярлык, где модель переоценивает последнее предложение (потому что ответ часто находится ближе к концу) и просто извлекает прямой объект самого последнего действия ("съел ___"), что в данном случае дает "пицца".

А затем появляется еще более разрушительная базовая линия: полностью удалите отрывок и посмотрите, что произойдет. Если модель, основанная только на вопросе, конкурентоспособна, это признак того, что набор данных пропускает сигнал через повторение и предварительные знания, а не тестирует понимание, основанное на отрывке.

Вопрос: "Что съел Джон?"

Эта базовая линия по сути является проверкой здравого смысла: может ли модель по-прежнему хорошо оцениваться, опираясь на шаблоны ответов с высокой частотой без опоры на отрывок вообще? На практике она просто угадывает токен, который набор данных непропорционально вознаграждает ("пицца", "бутерброд"), и если это работает чаще, чем должно, вы измеряете не столько понимание, сколько предварительные знания набора данных.

Оценки компьютерного использования уже создали еще более буквальный ярлык: у агента есть браузер, эталон общедоступен, и оценка превращается в экзамен с открытой книгой с ключом ответа на последней странице. В статье о Holistic Agent Leaderboard (HAL) авторы сообщают о наблюдении за агентами, которые искали эталон на HuggingFace вместо решения задачи, поведение, которое вы заметите только при проверке логов.

\

# Предполагаемая задача: выполнить рабочий процесс в веб-среде Задача: "Настройте параметр X в приложении и убедитесь, что он включен." Режим отказа: 1) Открыть новую вкладку 2) Поиск: "эталон X ожидаемое включенное состояние" / "HAL <эталон> настройка X" 3) Найти: репозиторий / описание таблицы лидеров / карточку набора данных / тему проблемы 4) Воспроизвести ожидаемое конечное состояние (ответ)

В этот момент оценка измеряла, может ли он найти ключ ответа.

Задача: "Найдите правильную страницу и извлеките Y." Режим отказа: - Поиск: "<название эталона> Y" - Копирование из общедоступного артефакта (документы, сообщение на форуме, карточка набора данных) - Вставка значения в вывод агента, как будто оно пришло из взаимодействия

Если агент может извлечь значение из карточки набора данных или репозитория и все равно "пройти", проверка успеха оценивает правдоподобность, а не правильность взаимодействия. Общедоступные задачи плюс поверхностная проверка превращают веб-поиск в эксплойт.

Эти два примера являются предупреждающим выстрелом: если мы не будем придерживаться более высоких стандартов для эталонов компьютерного использования на раннем этапе, мы повторим эру LLM только с лучшими пользовательскими интерфейсами и более сложными способами обмана.

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Да! Работая над средами RL и инфраструктурой RL вокруг компьютерного использования, я постоянно окружен лучшими моделями компьютерного использования и наиболее реалистичными средами обучения. Поэтому я написал еще одну статью, "Экран - это API", которая является аргументом в пользу компьютерного использования и почему это будущее моделей ИИ.

Это пространство крайне недостаточно освещено по двум причинам:

  1. Модели не так способны в компьютерном использовании, как в других задачах (кодирование, математика и т.д.).
  2. Компьютерное использование быстро развивается и чрезвычайно ново.

Я хочу это изменить.

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Я обычно читаю кучу исследовательских статей и разговариваю с коллегами в отрасли об их мыслях по теме. Кроме того, я трачу много времени на чтение статей великих блогеров, таких как PG. Так что я обычно черпаю много вдохновения от других людей в своем письме.

Быть писателем в технологиях может быть вызовом. Это часто не наша основная роль, а дополнение к другой. Какой самый большой вызов у вас, когда дело доходит до письма?

Найти время, чтобы сесть и облечь свой жизненный опыт в слова.

Чего вы надеетесь достичь следующим в своей карьере?

Решать более сложные проблемы с отличными людьми, учиться у этих людей и делиться своим опытом.

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

Смотреть фильмы! Мой любимый фильм сейчас - "Поймай меня, если сможешь" (2002).

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Я люблю боулдеринг, потому что он заставляет меня чувствовать себя человеческим агентом компьютерного использования, взаимодействующим со стеной для скалолазания. Я шучу. Я думаю, что боулдеринг очень увлекателен, потому что он позволяет мне отвлечься от работы и упорядочить свои мысли.

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

В настоящее время я пишу еще одну статью об инфраструктуре среды RL!

Каково ваше мнение о HackerNoon как о платформе для писателей?

Я думаю, что структура рецензирования потрясающая, и это было отличное место для меня, чтобы представить свои мысли перед техническими читателями.

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Я люблю писать. Спасибо, HackerNoon!

Возможности рынка
Логотип CATCH
CATCH Курс (CATCH)
$0.00196
$0.00196$0.00196
-16.23%
USD
График цены CATCH (CATCH) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Metaplanet формирует дочерние компании, ориентированные на Биткоин, в Японии и США

Metaplanet формирует дочерние компании, ориентированные на Биткоин, в Японии и США

Пост Metaplanet формирует ориентированные на Биктоин Дочерние компании в Японии и США появился на BitcoinEthereumNews.com. Metaplanet (3350), крупнейшая компания с казначейством биткоина в Японии, сообщила, что создала две дочерние компании — одну в Японии и одну в США — и приобрела доменное имя bitcoin.jp, укрепляя свою приверженность крупнейшей криптовалюте. Bitcoin Japan Inc. будет базироваться в Токио и управлять набором связанных с биткоином медиа, конференций и онлайн-платформ, включая интернет-домен и Bitcoin Magazine Japan. Американское подразделение, Metaplanet Income Corp., будет базироваться в Майами и сосредоточится на получении дохода от финансовых продуктов, связанных с биткоином, включая деривативы, сообщила компания в публикации на X. Metaplanet отметила, что запустила бизнес по генерации дохода от биткоина в последнем квартале 2024 года и стремится дальше масштабировать эти операции через новую дочернюю компанию. Обеими полностью принадлежащими дочерними компаниями частично руководит генеральный директор Metaplanet Саймон Герович. Ранее в этом месяце компания увеличила свои запасы биткоина до более чем 20 000 BTC. В настоящее время это шестая по величине компания с казначейством биткоина в мире, с 20 136 BTC в своем балансе, согласно данным BitcoinTreasuries. Ведущая фирма, Strategy (MSTR), имеет 638 985 BTC. Дочерние компании создаются вскоре после того, как компания объявила о планах привлечь чистые 204,1 миллиарда иен (1,4 миллиарда долларов США) в рамках международной продажи акций для укрепления своих запасов BTC. Акции Metaplanet упали на 1,16% в среду. Источник: https://www.coindesk.com/business/2025/09/17/metaplanet-sets-up-u-s-japan-subsidiaries-buys-bitcoin-jp-domain-name
Поделиться
BitcoinEthereumNews2025/09/18 06:12
Нарушая молчание: Дэвид Херманн о расшифровке сопротивления и руководстве изменениями

Нарушая молчание: Дэвид Херманн о расшифровке сопротивления и руководстве изменениями

Большинство бизнес-лидеров считают, что они решают проблемы стратегии, неэффективности процессов или пробелы в исполнении. Но по словам Дэвида Германа, генерального директора и автора
Поделиться
Techbullion2025/12/16 04:37
Bitcoin опускается ниже 87K долларов после того, как Strategy покупает 10 645 BTC

Bitcoin опускается ниже 87K долларов после того, как Strategy покупает 10 645 BTC

Пост "Биткоин опускается ниже 87K$ после того, как Strategy покупает 10 645 BTC" появился на BitcoinEthereumNews.com. Ключевые моменты 15 декабря Биткоин упал на 2,71%, снижаясь
Поделиться
BitcoinEthereumNews2025/12/16 04:02