Восприятие: от пикселей и точек к пониманию сцены
Cырые данные сенсоров получает система восприятия, которая отвечает на вопрос «Что вокруг меня?».
Её задача - сфьюзить полученные данные в некоторое внутреннее представление, а затем выделить два типа объектов.
Динамические (машины, пешеходы, самокаты). Здесь важно не только правильно поставить ббоксы, но и спрогнозировать их движение — куда и с какой скоростью они поедут.
Задача решается с помощью 3D-детекции, которая определяет тип, координаты, размер и вектор движения каждого объекта.
Статические (здания, столбы, бордюры). Ключевую роль здесь играют габариты таких объектов - ведь потом мы будем строить траектории, где проедет наш автомобиль.
Такие препятствия детектируются с помощью карты занятости (Occupancy Grid) — оно делит пространство на мелкие ячейки (например, 10x10 см) и отмечает, свободна ячейка или занята, а также высоту препятствия.
В зависимости от нужд планера, могут выделятся дополнительные задачи - это могут быть сегментация лидарных точек / occupancy grid'ов, 2д-детекция и сегментация на изображениях с камер или отдельные модули для более умного распознавания дороги.
На выходе получается детальная цифровая копия окружающего мира — сцена.
По восприятию в дальнейшем погрузимся детальнее, поскольку это моя сфера)
Восприятие: от пикселей и точек к пониманию сцены
Антон Семенюта