Про стажировку в Amazon Robotics
Во время PhD мне удалось провести 6 месяцев в Amazon Robotics в Берлине и поработать над задачами манипуляции для ритейла. Делюсь опытом.
Как нашёл и каков был отбор
Откликался на все Applied Scientist вакансии на сайте Амазона. Если будете пробоваться — достаньте реферал, это сильно повышает шансы.
Через пару месяцев пригласили на онлайн-интервью: сначала алгоритмическая часть на HackerRank (2 задачи easy/medium за 45 минут), затем интервью с членом команды. Результат — оффер или реджект в течение пяти дней.
Мне попался большой system design вопрос: как спроектировать систему для перекладывания товаров робо-рукой? Копали и в планирование движения, и в perception.
Как устроена стажировка
У роботехников минимум 6 месяцев. Первый месяц — онбординг и выбор темы, которую нужно презентовать и защитить. Через 3 месяца — mid-term review, через 5.5 — финальная презентация. В конце пишешь self-review с отсылками к «принципам лидерства» Амазона, после чего менеджер даёт фидбэк и говорит, дадут ли оффер.
У нас была молодая команда, поэтому процесс был не идеально выстроен. В более опытных командах сначала спрашивают, чего ты хочешь — оффер, публикацию или исследование — и помогают подобрать проект под цель. Совет: в начале стажировки сразу проговорите ожидания с менеджером.
Над чем я работал
Команда занималась автоматизацией извлечения заказов из мобильных ячейкек (см. видео в комментах). Узкие и высокие товары (~12% ассортимента) игнорировали — я взялся именно за них.
Типичный пайплайн в манипуляции: детекция товаров в ячейке → идентификация заказанного товара → планирование (на основе 3D реконструкции сцены) → захват → извлечение. Первую часть стажировки делал классический пайплайн, вторую — планирование и захват через RL.
Чего добился
Бейзлайн показывал 74% успешных манипуляций. Эвристики работали неплохо, но я решил попробовать RL. Самое сложное было реализовать симулятор и корректно его валидировать на реальном стенде. Второе по сложности — проектирование функции награды (увидел reward hacking на практике).
Дальше — стандартный PPO, и всё заработало. Удалось поднять успешность до 95%.
Чем всё закончилось
Обратного оффера я не получил — в команде не было открытых позиций. Фидбэк от менеджера тоже был довольно размытым. Но опыт всё равно оказался очень ценным.
Чему научился
Культура письма: всё оформляется через документы (one-pager или 6-pager). “Презентации” проходят так: сначала все читают документ, оставляют комментарии, потом обсуждают. Сначала непривычно, потом проникаешься.
Data-driven: любое утверждение должно быть подтверждено данными. Это сильно приземляет и улучшает продуктовые решения.
А у вас был опыт стажировок в бигтехе? Делитесь опытом и инсайтами в комментариях.
Шамиль Мамедов