Чем в итоге заняться?
После рассказов о данных и их нюансах хочу перейти к тому, что вообще сейчас можно делать с нейроданными, и выделить несколько интересных и не самых банальных с точки зрения ML «горячих» тем.
1. Self-Supervised pretraining и Foundation Models.
Идея простая: из-за особенностей нейроданных, которые обсуждались ранее, датасеты под каждую конкретную задачу обычно маленькие. Одно из решений — собрать большое количество датасетов и предобучить на них большую модель в self-supervised режиме. Потом использовать её эмбеддинги для адаптации под конкретный downstream датасет и конкретную задачу. Ранее я подробнее разбирал состояние современных фундаментальных моделей для ЭЭГ. ЭЭГ здесь — одно из самых перспективных направлений, потому что именно для него доступно больше всего данных для предобучения. Но у текущих моделей есть важная проблема: во многих работах одних только эмбеддингов после предобучения оказывается недостаточно, и для сильного результата приходится дообучать не только «голову», но и саму большую модель.
2. Генерация синтетических данных мозга.
Другой подход к борьбе с малым количеством данных — генерация синтетики, которую потом можно использовать во время обучения. Но в общем виде эта задача пока решена слабо. Подходы есть, однако чаще всего они всё ещё не дают достаточно робастных и осмысленных генераций, которые можно было бы действительно без особых сомнений использовать при обучении: синтетические данные нередко заметно отличаются от реальных физиологических сигналов. Отдельный подпункт здесь — генерировать условную синтетику, то есть данные не просто «физиологичные», а похожие на реакцию конкретного человека или группы людей, записанную на определённом аппарате и в ответ на определённый стимул.
**
3. Мультимодальный alignment.**
Существует довольно много парных данных: например, данные мозга во время прослушивания аудио или просмотра изображений. Поэтому интересно строить модели, которые смогут эффективно сопоставлять активность мозга и другие модальности. Так можно, например, пытаться выделять значимую активность мозга в зависимости от стимула. Отдельная подтема здесь — генеративное моделирование по данным мозга. Например, генерировать изображения или аудио, которые человек видел, слышал или представлял.
4. Мультимодальный fusion.
Как говорилось в моём посте про модальности, ЭЭГ, фМРТ, МЭГ, ЭКоГ и другие модальности измеряют разные прокси активности мозга, и у каждой есть свои преимущества и недостатки. Нет модальности, которая была бы «строго лучше всех остальных». Поэтому можно пытаться объединять информацию из разных модальностей для решения задачи. Причём можно объединять и данные из разных по смыслу модальностей: например, структурный МРТ, который показывает анатомию, и МЭГ, который отражает функционирование мозга в процессе выполнения задачи.
5. Реальные девайсы.
Когда речь заходит о реальных продуктах и приложениях, появляется гигантское количество дополнительных ограничений и требований. Например, интерфейсы мозг-компьютер обычно должны работать в реальном времени на довольно слабом железе. Значит, модель должна очень быстро делать инференс и занимать ограниченное место на устройстве. Если наша модель показывает SoTA-качество, но требует H100, она может существовать только на страницах статьи. Кроме того, девайс должен «привыкать» к пользователю и адаптироваться под него и под возможные изменения его активности. А чтобы девайс работал сразу, нужна либо хорошая переносимость с другого человека, либо эффективный протокол, в котором не нужно заранее записывать десятки часов данных с конкретного пользователя, пока его, скажем, протез не начнёт более-менее адекватно работать. Отдельная подтема здесь — эффективные легковесные модели: либо by construction, либо полученные дистилляцией.
6. Интерпретируемость.
Большая доля моделей для анализа активности мозга всё же нацелена на медицинские приложения. В клинических сценариях доверие к «чёрному ящику» заметно ниже, даже если он даёт хорошие ответы: врачу и комиссии важно хотя бы примерно понимать, как модель принимает решение и почему она могла ошибиться. Медицина — область с очень высоким риском. В более фундаментальных исследованиях построить модель тоже не самоцель. Если есть модель, эффективно работающая на конкретном датасете, но кроме метрик из неё ничего нельзя извлечь, её научная ценность ограничена. С другой стороны, если модель интерпретируема и при этом показывает высокие метрики, можно анализировать, какие участки, ритмы или паттерны мозга были важны для принятия решения. Здесь, правда, тоже нужна аккуратность: хорошие метрики ещё не гарантируют, что модель опирается именно на физиологически осмысленные признаки, а не на shortcut’ы датасета. Но интерпретируемые модели позволяют хотя бы проверять это, сравнивать выводы модели с известной литературой, а иногда и ставить фундаментальные гипотезы вроде «этот участок мозга действительно важен для обработки портретных изображений» для дальнейшей проверки физиологами и нейроучёными.
На самом деле интересных тем гораздо больше, и каждая из них содержит кучу направлений для исследований, но в этом посте я хочу ограничиться несколькими.
Илья Семенков