Теперь об области применения ИИ в кибербезе, в частности в мире threat intelligence и sandbox в трех частях с антрактом.

Часть первая, классическая (1/3)

Многадумал с чего бы начать и о каком аспекте написать, однако скажу так - нужно знать ВСЁ. Вот буквально все, без шуток. Разве что диффузионки с картинками/видео и tts/sst не так уж и нужно, однако все равно остается шанс что к вам маркетинг в гости заглянет с просьбой создать то что проприетарные модели не хотят/могут, или поиграть в игру "угадай где дипфейк". А ну и робототехника не надо, хотя RL и элайнмент конечно же нада.

Отдельным дисклеймером хочется сказать, что львиная доля любого киберсека - это тупо эвристики, правила такие, правила сякие, поведенческие, яры, сигмы, сурикаты, тысочи их и еще миллион на подходе! Днем и ночью тысячи вирусных аналитиков в течении многих лет скурпулезно пишут эти правила, правят блэк- и вайтлисты, строят графы связей и цепочки атак. Все вот это вот обходится почти без МЛя, однако, тем не менее он важен. Как влюбленному в свое мл дело иишнику, мне претит идея строить системы на ифах обмазываясь тернарками, поэтому хочется все (если у нас не бейзлайн) делать красива, системна и продвинута. Для этого эмэль нам и понадобится.

Помимо уже упомянутых сфер, весь остальной ИИ спектр нужен. Разберем чтоб ничего не забыть.

Классическая классификация - мы же постоянно детектим и классифицируем вредноносносы и фиш, конечно же надо! Логрег, деревья, леса и бустинги только в путь, только успевай калибровать вероятности. Это в кибербезе было всегда, это та самая основа.

Линрег, svm - что-то простое, быстрое (ладно, тут забываем про свм, он на кроссвалидации и leave1out нудный) и легкое для быстрого скоринга. Скорить можно домены, айпишники, тебя, твою сестру,  клиентов, вендоров. Юзать для фича инжиниринга и продвинутого создания признаков.

Ансупервайзд - кластеризация и поиск аномалий в сетевом траффике, аномалий поведения пользователей (UEBA, ага), кластеризация командных строк, группируем APT группировки по группам. kmeans, изоляционные леса, дбскан, да даже knn и pca иногда пригождается в контексте этих методов.

Временные ряды - вновь траффик анализ, логов, поведенческий анализ малварины, куда когда стучится, что проверяет, засыпает ли и т.д.

Рекомендашки - SOC аналитикам иногда могут быть интересны похожие атаки, похожие, но не идентичные задачи запускались ли в рамках сендбокса. В целом если говорить о клиентах, то тут ничего особо отличающенося от обычных гибридных рексисек. Не люблю их.

Фух, с классическим МЛем закончили. Это может выглядеть как слишком много или даже как перечисление существующих методов (и часть я реально брал из своей внутренней презентации чтоб кросскоманды знали что ИИ команда делает), но повторюсь еще раз - это вот все реально нужно и я упомянул при этом только то, что самому приходилось делать (как полноценный сервис или как минимум PoC ), курировать или ревьють. Уверен, есть еще большая куча применяемости классики в кибербезе что мне не попалась в ручки.

Антракт.