Восприятие: от пикселей и точек к пониманию сцены

Cырые данные сенсоров получает система восприятия, которая отвечает на вопрос «Что вокруг меня?».

Её задача - сфьюзить полученные данные в некоторое внутреннее представление, а затем выделить два типа объектов.
Динамические (машины, пешеходы, самокаты). Здесь важно не только правильно поставить ббоксы, но и спрогнозировать их движение — куда и с какой скоростью они поедут.

Задача решается с помощью 3D-детекции, которая определяет тип, координаты, размер и вектор движения каждого объекта.

Статические (здания, столбы, бордюры). Ключевую роль здесь играют габариты таких объектов - ведь потом мы будем строить траектории, где проедет наш автомобиль.

Такие препятствия детектируются с помощью карты занятости (Occupancy Grid) — оно делит пространство на мелкие ячейки (например, 10x10 см) и отмечает, свободна ячейка или занята, а также высоту препятствия.

В зависимости от нужд планера, могут выделятся дополнительные задачи - это могут быть сегментация лидарных точек / occupancy grid'ов, 2д-детекция и сегментация на изображениях с камер или отдельные модули для более умного распознавания дороги.

На выходе получается детальная цифровая копия окружающего мира — сцена.

По восприятию в дальнейшем погрузимся детальнее, поскольку это моя сфера)