3. Плохая переносимость. Главный «бич» нейроданных — слабая переносимость. Достаточно немного поменять условия, и записанный сигнал при прочих равных уже будет выглядеть совсем по-другому. Причём таких факторов много:
— Между людьми. Активность мозга очень индивидуальна и может сильно различаться у разных людей.
— Между сессиями. Даже у одного и того же человека запись в разные дни может заметно отличаться.
— Между аппаратами. Аппараты и их настройки влияют на то, как будут записываться данные и что «видит» машина. Даже если записать одного и того же человека на разных аппаратах или при разных настройках, сигнал может выглядеть по-разному.
— Между протоколами и стимулами. Это вполне ожидаемо: если мы даём человеку другую задачу (например, читать текст, а не смотреть картинки), или показываем другие стимулы (например, другой набор картинок) — активность тоже должна меняться.
Из-за этого даже когда записей много, их часто сложно разумно свести в один большой датасет. Большинство публичных нейроданных — это относительно небольшие датасеты с конкретным протоколом, одним и тем же аппаратом и ограниченным набором людей. Поэтому модели часто получаются компактными и довольно специфичными для конкретного протокола, аппарата, а иногда и для конкретного человека. В эту сторону сейчас идёт много работы: придумывают методы, которые позволяют лучше агрегировать данные (например, предобучать модели в self-supervised режиме). Но об этом я подробнее поговорю в других постах.
**
4. Когда модель читает не мозг.** Как было сказано в пункте 2, в данных довольно много артефактов, например от движения глаз или биения сердца. Но проблема в том, что такая информация часто становится для модели хорошей подсказкой. Например, при просмотре изображения глаза будут двигаться по картинке и её силуэтам. При чтении текста по движениям глаз можно как минимум понять длину слова. А вообще есть работы, которые показывают, что мы можем двигать глазами довольно автоматически даже в ситуациях, где, казалось бы, это не должно играть роли. Например, слова и стимулы, связанные с направлением, могут подталкивать взгляд в соответствующую сторону: условно, слышишь что-то про «налево» — и глаза могут непроизвольно смещаться влево. То же самое с биением сердца, которое может зависеть, например, от эмоциональной реакции человека на стимул: смотрит ли испытуемый спокойное видео или что-то более интенсивное и вызывающее эмоции. В итоге мы можем обучить модель, получить хорошие метрики, думать, что декодируем мозг, а на деле сделать «eyetracker with extra steps». Для прода это, наверное, не так важно. Если такие подсказки помогают повысить точность интерфейса, то это уже не артефакты, а источники дополнительной информации. Но в науке и клинике важно понимать, что именно декодирует модель: собственно активность мозга или сопутствующую физиологию.
Илья Семенков