— Максим Шапошников

И еще немного поговорим про агентов. В этот раз посмотрим в относительно недалекое возможное будущее.

Сейчас индустрия находится в стадии адаптации ассистентов. Таких как Cursor, Claude Code. Они в первую очередь созданы, чтобы писать код вместе с инженерами. Производительность от такого растет, но не кардинально. Потому что разработчик плотно включен в цикл верификации внутри своей IDE. А делать PR Review, особенно когда много правок всегда довольно труднозатратно, особенно в IDE.

Следующая ветка развития автоматизации – это background agents. Вообще говоря, они уже существуют почти в каждом агенте, достаточно запустить в headless mode, примерно как `claude -p "Ваш промпт" --dangerously-skip-permissions` (точно так же работает с курсором, codex, gemini cli). Такие агенты по задумке самостоятельно выполняют задачу и могут, с помощью доступных им инструментов, создать PR и отправить вам на ревью. Если еще и добавить инструменты для линтера и билда, то вообще замечательно – агент может тестировать проект точно так же, как и вы.

Spotify активно тестирует у себя такой подход. Сегодня вышла небольшая заметка от их инженеров. Судя по тексту они уже могут ощутить новый уровень автоматизации при определенных условиях:

• Промпты максимально четкие, описывающие что нужно сделать в конкретных терминах, а не "сделай хорошо". При этом они оказываются очень длинными
• В промптах есть примеры
• В промпте четко фиксируется конечное состояние системы, и как его можно провалидировать – это критический шаг для самокорректировки
• Несмотря на длину промптов, стараются делать one thing at a time, то есть одна задача за раз.

Никаких конкретных метрик, конечно, не приводят, но вроде как система раскатана на сотрудников. Честно признают, что двигаются интуитивно, методом проб и ошибок и никакого четкого способа оценить эффективность на масштабе пока нет.

Так или иначе, момент, когда агенты смогут выдавать целые фича реквесты не за горами. Это в какой-то момент будет адаптироваться, так же, как сейчас адаптируется Курсор в режиме ассистента.

Самое интересное порассуждать, а что будет дальше. И я думаю, что следующая большая веха развития, это когда агенты начнут оптимизировать более сложные, недекомпозируемые цели, требующие итераций не над одной конкретной фичей, а над всем продуктом. В конечном итоге, вся суть софта который пишется не в том, чтобы добавить в него новый код, а чтобы улучшать какие-то внешние метрики: доход, клики, время сессии, и так далее. Такие штуки не измеряются Pull Request-ами, а требуют длинный цикл: реализовать логику, раскатить изменение, собрать фидбэк, изменить кодовую базу.

Исследователи из Stanford-а уже стали копать в эту тему и выпустили первый бенчмарк: CodeClash: Benchmarking Goal-Oriented Software Engineering. Пока что все среды игровые (ну конечно, никто агента не допустит раскатывать модели на клиентов и рекомендовать товары – это все будет активно мониториться человеком), например, улучшить стратегию игры в покер, или в змейку. Суть в том, что после каждой игры агент получает доступ к логам и имеет информацию о том, что происходило в играх. На основе этого фидбэка агент может переписать код и пойти в новый раунд.

Ключевой вывод по работе: агенты очень много переписывают код, но не улучшают себя, если брать в сравнение решения от человека. Но это пока что. Посмотрим что будет дальше 🍿

Если есть мысли, мнения по поводу background агентов – кидайте комментарии)

Другие выпуски