**«Беды с башкой»: почему работать с нейроданными сложнее, чем кажется
**
В прошлом посте я писал про несколько распространённых типов нейроданных и про то, что с точки зрения анализа они часто выглядят как временные ряды. Но у нейроданных есть ещё ряд нюансов, в которые очень часто упираются алгоритмы машинного обучения. Эти вещи нужно постоянно держать в голове, а иногда буквально строить модели и пайплайны вокруг них. В этом посте я разберу четыре ключевые особенности.
1. Сложность записи. Нейроданные записывать весьма сложно: нужны специалисты, корректные протоколы и оборудование, иногда довольно узкоспециализированное. Из-за подготовки испытуемого одна итерация может занимать вдвое, а то и в разы больше времени, чем сама запись. Даже для ЭЭГ сложно набрать по-настоящему большой масштаб, хотя из перечисленных модальностей это одна из самых доступных. Например, на сбор одного из самых больших публичных ЭЭГ-датасетов, TUH EEG Corpus (суммарно порядка 27 тыс. часов данных), ушло больше 15 лет. Если идти в менее доступные модальности, например МЭГ или фМРТ, всё становится заметно хуже. Оборудование там гораздо более редкое и дорогое, а очереди огромные. Например, на запись одного из крупных фМРТ-датасетов, Natural Scenes Dataset, всего на 8 человек ушёл примерно год. Причём у четверых не были завершены все планировавшиеся сессии: как рассказывает автор в докладе про датасет, команде просто закрыли доступ к сканеру, потому что они немного не уложились по времени, а очередь была расписана сильно наперёд. Ну и сложнее всего с инвазивными данными. Если надеть шапочку и подготовить здоровых испытуемых можно, то вскрывать череп ради записи данных уже, мягко говоря, нежелательно :) Поэтому такие записи обычно делают только у пациентов, которым электроды уже установлены по медицинским показаниям, и только при отдельном согласии пациента.
2. Артефакты. В записанных данных часто появляются самые разные артефакты. Некоторые из них технические: например, плохая настройка, плохое магнитное экранирование помещения при МЭГ, подсохший контактный гель во время записи ЭЭГ или интерференция от прибора и электросети при записи электрической активности мозга. Другие связаны с физиологией. Например, на ЭЭГ очень часто видно активность, связанную с биением сердца, движением глаз или работой мышц. Часто её приходится аккуратно удалять из записи. В фМРТ-аппарате, естественно, нельзя двигать головой, чтобы воксели в разные моменты времени соответствовали одним и тем же участкам мозга. Чтобы минимизировать такие артефакты, часто используют особенности протокола. Например, человеку показывают крестик в центре экрана, чтобы он фиксировал взгляд и меньше двигал глазами. Ну и, конечно, отдельно инструктируют не двигаться.
Илья Семенков