Про стажировку в Amazon Robotics — Шамиль Мамедов

Про стажировку в Amazon Robotics

Во время PhD мне удалось провести 6 месяцев в Amazon Robotics в Берлине и поработать над задачами манипуляции для ритейла. Делюсь опытом.

Как нашёл и каков был отбор

Откликался на все Applied Scientist вакансии на сайте Амазона. Если будете пробоваться — достаньте реферал, это сильно повышает шансы.

Через пару месяцев пригласили на онлайн-интервью: сначала алгоритмическая часть на HackerRank (2 задачи easy/medium за 45 минут), затем интервью с членом команды. Результат — оффер или реджект в течение пяти дней.

Мне попался большой system design вопрос: как спроектировать систему для перекладывания товаров робо-рукой? Копали и в планирование движения, и в perception.

Как устроена стажировка

У роботехников минимум 6 месяцев. Первый месяц — онбординг и выбор темы, которую нужно презентовать и защитить. Через 3 месяца — mid-term review, через 5.5 — финальная презентация. В конце пишешь self-review с отсылками к «принципам лидерства» Амазона, после чего менеджер даёт фидбэк и говорит, дадут ли оффер.

У нас была молодая команда, поэтому процесс был не идеально выстроен. В более опытных командах сначала спрашивают, чего ты хочешь — оффер, публикацию или исследование — и помогают подобрать проект под цель. Совет: в начале стажировки сразу проговорите ожидания с менеджером.

Над чем я работал

Команда занималась автоматизацией извлечения заказов из мобильных ячейкек (см. видео в комментах). Узкие и высокие товары (~12% ассортимента) игнорировали — я взялся именно за них.

Типичный пайплайн в манипуляции: детекция товаров в ячейке → идентификация заказанного товара → планирование (на основе 3D реконструкции сцены) → захват → извлечение. Первую часть стажировки делал классический пайплайн, вторую — планирование и захват через RL.

Чего добился

Бейзлайн показывал 74% успешных манипуляций. Эвристики работали неплохо, но я решил попробовать RL. Самое сложное было реализовать симулятор и корректно его валидировать на реальном стенде. Второе по сложности — проектирование функции награды (увидел reward hacking на практике).

Дальше — стандартный PPO, и всё заработало. Удалось поднять успешность до 95%.

Чем всё закончилось

Обратного оффера я не получил — в команде не было открытых позиций. Фидбэк от менеджера тоже был довольно размытым. Но опыт всё равно оказался очень ценным.

Чему научился

Культура письма: всё оформляется через документы (one-pager или 6-pager). “Презентации” проходят так: сначала все читают документ, оставляют комментарии, потом обсуждают. Сначала непривычно, потом проникаешься.

Data-driven: любое утверждение должно быть подтверждено данными. Это сильно приземляет и улучшает продуктовые решения.

А у вас был опыт стажировок в бигтехе? Делитесь опытом и инсайтами в комментариях.

Другие выпуски