Фьюз на основе BEV

BEV (Bird's Eye View) - это представление сцены с высоты птичьего полета, где у каждого объекта есть только координаты X и Y.

Классический пример архитектуры, которая использует этот подход — BEVFusion - именно его картинка взята для поста с поздним фьюзом.

Как "перевести" изображение камеры в вид сверху?

С лидаром все просто: каждая точка облака уже имеет реальные 3D-координаты, которые легко спроецировать на BEV-плоскость.

А для обычной 2D-картинки работает метод LSS (Lift, Splat, Shoot).

LSS решает задачу в три шага:
- Lift: Для каждого пикселя на изображении модель предсказывает не просто одну глубину, а целое распределение вероятностей по разным дистанциям. Это позволяет "поднять" 2D-пиксель в 3D-пространство, создавая для него множество возможных положений вдоль луча зрения.
- Splat: Все эти "поднятые" точки с их признаками и вероятностями проецируются на единую BEV-сетку. Похожие точки, попавшие в одну и ту же ячейку, аккуратно агрегируются.
- Shoot: На этом этапе готовая BEV-карта используется для решения конкретных задач, например, прогнозирования движения других агентов в сцене.

После того как признаки со всех камер и лидара спроецированы в общее BEV-пространство, архитектура стандарта - Fuser, FPN и головы для конкретных задач.