Поговорим о фьюзе разномодальных данных.

Существует два способа слияния данных: ранний и поздний фьюзы.

Ранний фьюз
- Сырые данные от разных сенсоров агрегируются до извлечения признаков.
- На картинке: мы строим вокруг автомобиля бесконечную сферу, на которую проецируем как лидарные точки, так и лучи, проходящие через пиксель конкретного изображения. Получаем одну большую панораму со всеми доступными данными.
- А дальше стандартно - энкодер, FPN, и головы для решения конкретных задач.
- Вместо одной панорами могут быть несколько для каждого лидара в отдельности, или можно проецировать, к примеру, просто на 3д-плоскости, которые будем клеить между собой как разные каналы фичемапы.
- Минусы здесь очевидны: если лидар выйдет из строя - всё ломается. А нам бы хотелось уметь работать в camera-only режиме в том числе.