БиржаDEX+

Купить крипто Рынки Спотовая Фьючерсы500X Сбережения Мероприятия

Еще

Розыгрыш золотого слитка и BTC2000g

В этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняетВ этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняет

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

2025/12/15 04:25

WHY$0.00000001527-11.58%

Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Привет! Меня зовут Эштон, и я инженер-основатель в Theta, где я работаю над инфраструктурой RL, RL и распределенными системами. Я специализируюсь на компьютерном использовании и использовании инструментов. В прошлом я работал в Amazon AGI и занимался инфраструктурой для вывода и использования инструментов. В свободное время я люблю графический дизайн, побочные проекты и боулдеринг.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Моя последняя статья "Может ли ваш ИИ действительно использовать компьютер? Карта эталонов компьютерного использования 2025 года" затронула одну из самых горячих тем в VC прямо сейчас: среды RL и оценки. Я дал всесторонний обзор наиболее используемых эталонов компьютерного использования, а также практические советы по выбору эталонов для обучения и тестирования агентов компьютерного использования.

Я постоянно сталкивался с одним и тем же пробелом: не так много статей, которые рассматривают сами эталоны. И по мере роста этой области жизненно важно, чтобы мы действительно оценивали качество, а не вознаграждали то, что случайно обыгрывает метрику. Мы уже были здесь раньше. В ранние дни LLM эталоны были достаточно случайными и разрозненными, что они лишь слабо отражали реального победителя.

Эталоны стали де-факто таблицей результатов для "лучшей модели", а затем люди поняли, что многие из них не измеряли то, что заявляли.

Одной из самых показательных неудач раннего периода было, когда "понимание прочитанного" тихо превратилось в "сопоставление шаблонов в структуре данных". Исследователи запустили намеренно провокационные базовые линии (только вопрос, только последнее предложение), и результаты были достаточно высокими, чтобы вызвать неудобную возможность: эталон не последовательно заставлял модели использовать весь отрывок. В критике 2018 года суть была не в том, что чтение никогда не имеет значения, а в том, что некоторые наборы данных случайно сделали его необязательным, чрезмерно вознаграждая такие ярлыки, как недавность и стереотипные предварительные ответы.

# Предполагаемая задача: ответить на вопрос, учитывая отрывок и вопрос Отрывок (резюме): - Предложения 1–8: День Джона в школе (в основном несущественные детали) - Предложение 9: "После школы Джон пошел на кухню." - Предложение 10: "Он съел кусок пиццы перед тем, как начать делать домашнее задание." Вопрос: "Что съел Джон?" Ответ: "пицца"

Эталон случайно вознаграждает ярлык, где модель переоценивает последнее предложение (потому что ответ часто находится ближе к концу) и просто извлекает прямой объект самого последнего действия ("съел ___"), что в данном случае дает "пицца".

А затем появляется еще более разрушительная базовая линия: полностью удалите отрывок и посмотрите, что произойдет. Если модель, основанная только на вопросе, конкурентоспособна, это признак того, что набор данных пропускает сигнал через повторение и предварительные знания, а не тестирует понимание, основанное на отрывке.

Вопрос: "Что съел Джон?"

Эта базовая линия по сути является проверкой здравого смысла: может ли модель по-прежнему хорошо оцениваться, опираясь на шаблоны ответов с высокой частотой без опоры на отрывок вообще? На практике она просто угадывает токен, который набор данных непропорционально вознаграждает ("пицца", "бутерброд"), и если это работает чаще, чем должно, вы измеряете не столько понимание, сколько предварительные знания набора данных.

Оценки компьютерного использования уже создали еще более буквальный ярлык: у агента есть браузер, эталон общедоступен, и оценка превращается в экзамен с открытой книгой с ключом ответа на последней странице. В статье о Holistic Agent Leaderboard (HAL) авторы сообщают о наблюдении за агентами, которые искали эталон на HuggingFace вместо решения задачи, поведение, которое вы заметите только при проверке логов.

# Предполагаемая задача: выполнить рабочий процесс в веб-среде Задача: "Настройте параметр X в приложении и убедитесь, что он включен." Режим отказа: 1) Открыть новую вкладку 2) Поиск: "эталон X ожидаемое включенное состояние" / "HAL <эталон> настройка X" 3) Найти: репозиторий / описание таблицы лидеров / карточку набора данных / тему проблемы 4) Воспроизвести ожидаемое конечное состояние (ответ)

В этот момент оценка измеряла, может ли он найти ключ ответа.

Задача: "Найдите правильную страницу и извлеките Y." Режим отказа: - Поиск: "<название эталона> Y" - Копирование из общедоступного артефакта (документы, сообщение на форуме, карточка набора данных) - Вставка значения в вывод агента, как будто оно пришло из взаимодействия

Если агент может извлечь значение из карточки набора данных или репозитория и все равно "пройти", проверка успеха оценивает правдоподобность, а не правильность взаимодействия. Общедоступные задачи плюс поверхностная проверка превращают веб-поиск в эксплойт.

Эти два примера являются предупреждающим выстрелом: если мы не будем придерживаться более высоких стандартов для эталонов компьютерного использования на раннем этапе, мы повторим эру LLM только с лучшими пользовательскими интерфейсами и более сложными способами обмана.

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Да! Работая над средами RL и инфраструктурой RL вокруг компьютерного использования, я постоянно окружен лучшими моделями компьютерного использования и наиболее реалистичными средами обучения. Поэтому я написал еще одну статью, "Экран - это API", которая является аргументом в пользу компьютерного использования и почему это будущее моделей ИИ.

Это пространство крайне недостаточно освещено по двум причинам:

Модели не так способны в компьютерном использовании, как в других задачах (кодирование, математика и т.д.).
Компьютерное использование быстро развивается и чрезвычайно ново.

Я хочу это изменить.

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Я обычно читаю кучу исследовательских статей и разговариваю с коллегами в отрасли об их мыслях по теме. Кроме того, я трачу много времени на чтение статей великих блогеров, таких как PG. Так что я обычно черпаю много вдохновения от других людей в своем письме.

Быть писателем в технологиях может быть вызовом. Это часто не наша основная роль, а дополнение к другой. Какой самый большой вызов у вас, когда дело доходит до письма?

Найти время, чтобы сесть и облечь свой жизненный опыт в слова.

Чего вы надеетесь достичь следующим в своей карьере?

Решать более сложные проблемы с отличными людьми, учиться у этих людей и делиться своим опытом.

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

Смотреть фильмы! Мой любимый фильм сейчас - "Поймай меня, если сможешь" (2002).

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Я люблю боулдеринг, потому что он заставляет меня чувствовать себя человеческим агентом компьютерного использования, взаимодействующим со стеной для скалолазания. Я шучу. Я думаю, что боулдеринг очень увлекателен, потому что он позволяет мне отвлечься от работы и упорядочить свои мысли.

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

В настоящее время я пишу еще одну статью об инфраструктуре среды RL!

Каково ваше мнение о HackerNoon как о платформе для писателей?

Я думаю, что структура рецензирования потрясающая, и это было отличное место для меня, чтобы представить свои мысли перед техническими читателями.

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Я люблю писать. Спасибо, HackerNoon!

Возможности рынка

CATCH Курс (CATCH)

$0.00196

$0.00196$0.00196

-16.23%

USD

График цены CATCH (CATCH) в реальном времени

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Metaplanet формирует дочерние компании, ориентированные на Биткоин, в Японии и США

Пост Metaplanet формирует ориентированные на Биктоин Дочерние компании в Японии и США появился на BitcoinEthereumNews.com. Metaplanet (3350), крупнейшая компания с казначейством биткоина в Японии, сообщила, что создала две дочерние компании — одну в Японии и одну в США — и приобрела доменное имя bitcoin.jp, укрепляя свою приверженность крупнейшей криптовалюте. Bitcoin Japan Inc. будет базироваться в Токио и управлять набором связанных с биткоином медиа, конференций и онлайн-платформ, включая интернет-домен и Bitcoin Magazine Japan. Американское подразделение, Metaplanet Income Corp., будет базироваться в Майами и сосредоточится на получении дохода от финансовых продуктов, связанных с биткоином, включая деривативы, сообщила компания в публикации на X. Metaplanet отметила, что запустила бизнес по генерации дохода от биткоина в последнем квартале 2024 года и стремится дальше масштабировать эти операции через новую дочернюю компанию. Обеими полностью принадлежащими дочерними компаниями частично руководит генеральный директор Metaplanet Саймон Герович. Ранее в этом месяце компания увеличила свои запасы биткоина до более чем 20 000 BTC. В настоящее время это шестая по величине компания с казначейством биткоина в мире, с 20 136 BTC в своем балансе, согласно данным BitcoinTreasuries. Ведущая фирма, Strategy (MSTR), имеет 638 985 BTC. Дочерние компании создаются вскоре после того, как компания объявила о планах привлечь чистые 204,1 миллиарда иен (1,4 миллиарда долларов США) в рамках международной продажи акций для укрепления своих запасов BTC. Акции Metaplanet упали на 1,16% в среду. Источник: https://www.coindesk.com/business/2025/09/17/metaplanet-sets-up-u-s-japan-subsidiaries-buys-bitcoin-jp-domain-name

BitcoinEthereumNews

2025/09/18 06:12

Нарушая молчание: Дэвид Херманн о расшифровке сопротивления и руководстве изменениями

Большинство бизнес-лидеров считают, что они решают проблемы стратегии, неэффективности процессов или пробелы в исполнении. Но по словам Дэвида Германа, генерального директора и автора

Techbullion

2025/12/16 04:37

Bitcoin опускается ниже 87K долларов после того, как Strategy покупает 10 645 BTC

Пост "Биткоин опускается ниже 87K$ после того, как Strategy покупает 10 645 BTC" появился на BitcoinEthereumNews.com. Ключевые моменты 15 декабря Биткоин упал на 2,71%, снижаясь

BitcoinEthereumNews

2025/12/16 04:02

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Чего вы надеетесь достичь следующим в своей карьере?

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

Каково ваше мнение о HackerNoon как о платформе для писателей?

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Вам также может быть интересно

Metaplanet формирует дочерние компании, ориентированные на Биткоин, в Японии и США

Нарушая молчание: Дэвид Херманн о расшифровке сопротивления и руководстве изменениями

Bitcoin опускается ниже 87K долларов после того, как Strategy покупает 10 645 BTC

Популярные новости

Metaplanet формирует дочерние компании, ориентированные на Биткоин, в Японии и США

Нарушая молчание: Дэвид Херманн о расшифровке сопротивления и руководстве изменениями

Bitcoin опускается ниже 87K долларов после того, как Strategy покупает 10 645 BTC

Crypto.com привлекает ERShares и Signal Markets для создания непрерывного прогнозного представления глобальной экономики

Инвесторы в криптовалюту получают критическую защиту при банкротстве, даже когда "консервативное" правило угрожает ликвидности

Цены на криптовалюту