бодрого понедельника, родные🐰
помимо своей основной деятельности, иногда заглядываю в ресёч по интересной мне теме (распознавание человеческих эмоций в видео), на которую и вышла в этом году статья совместно с научным директором Sber AI Lab (публикация в журнале Springer), о которой я писал в приветственном посте🐸
тема: распознавание эмоций по видео + аудио в реал-ворлд сценариях. давайте представим: онлайн-лекции/вебинары в ВШЭ, где система фиксирует эмоции студентов в реал-тайм - скука, восторг или "когда уже конец?". чтоб мерить эффективность, тюнить контент под фидбек (см. Оруэлл👎)
суть по пунктам (без спойлеров):
* мультимодалка на стероидах: лица (EmotiEffNet/POSTER), аудио (Wav2Vec2), текст из речи (DistilRoBERTa). всё в TCN + Transformer для темпоралки - ловим динамику эмоций по кадрам;
* фьюжн и ансамбли: сливаем модальности, потом majority voting или геналгой веса;
* хардкор датасет: 3 млн. фреймов, 7 эмоций + "other", imbalance, разные этносы/освещение/окклюзии. плюс ablation'ы - видно, где текст/аудио тащат;
* применение: не только вебинары, а HCI, security, психоанализ. ВШЭ мог бы юзать для "эмоционального heatmaps" лекций
полный текст тут (для тех, у кого доступ к Springer есть): https://link.springer.com/chapter/10.1007/978-3-031-88036-0_11
для тех, кто без доступа, прикладываю саму статью к посту (в тредике)
кто хотел бы, чтобы все знали, как он залипает на лекциях?🥱
Алексей Андреев