Часть вторая, глубокая (2/3) — Дмитрий Диденко

Часть вторая, глубокая (2/3)

Закончив с классикой, переходим к нейронкам. Тут уж рыночек стремительно меняется и одни методы устаревают, им на смену приходят другие. Многие задачи при бесконечном компьюте могут и VLMки покрыть (особенно если не упираться в планку скорости, где кстати очень не помешает знание ускорения нейроных сетей, о чем буквально есть курс в DeepSchool).

Начнем со свёрток, а точнее того что до них как бейзлайн использовать можно, а именно классическое компьютерное зрение для распознавания паттернов на скриншотах, прохождения капчей в нашей сфере зачастую субоптимально, но от этого можно отталкиваться. Сюда же классические распознавалки QR кодов (ах да, не стоит сканить все qr коды подряд со столбов, особенно на андроиде, и логиниться по ссылке в нем), методы сшития их на страничках (хацкеры по ту сторону ленточки любят сделать сложнее для автоматизации), всякие прочие афинные преобразования в похожих контекстах. Они же как неплохой этап очистки, аугментации и предобработки логотипов которые пытались обфусцировать мошенники (например, перевернуть и отразить лого микрософта, впрочем тут и цвета бы поменяли).

Закономерным дальнейшим этапом у нас дальше идут свертки и сперва 1D сверточки которые можно наблюдать для анализа последовательностей всякого рода, как текстовых так и цифровых. Сразу упомяну в том же контексте RNNки и LSTMки, поскольку в моих задачах с этим сталкивался редко, жрут они немало, а большую часть нынче покрывает либо эвристика+классика либо ллмки, поэтому просто упомянем и забудем.

Полноценные свертки для изображений тоже нужны конечно же - от векторизации (например отрежем голову резнету для получения зачетных векторов) до классификации скриншотов страничек, логотипов. Это все еще быстрее и дешевле чем vlmка. Ах да, nsfw классификатор прона сюда же - юзеры нет-нет, а любят на работе порнуху на виртуальных машинах, в открытом публичном доступе (щедрая душа, сам посмотрел - покажи другим!) позырить. Нормальным SOC аналитикам в поисках вирусни на такое не по кайфу натыкаться, надо фильтровать. Здесь я скажу одно слово - датасеты. Бррр.
Короче для сверток работы куча, не удивлюсь если где-то и сегментация пригодится. Насчет карт глубин уже менее уверен. Особо нового тут не надо придумывать - нормального (хать-ху в сторону ультралитиков с их AGPL вирусными лицензиями) опенсурса с пермиссив лицухами достаточно.

Отдельным царечком конечно же стоит Его Величество OCR. О, это полезновое во всех его видах, как простые методы так и самый тяжёлый свежак (который в некоторых кейсах все еще выгоднее и быстрее кормить в ЛЛМку чем юзать VLM,). Однако, зачастую, ОСР сопровождается лютым обмазыванием эвристиками что уродливо, наносит непоправимый вред чувству прекрасного, но весьма эффективно и, что немаловажно, быстро.

Мимолетом упомяну графовые нейронки, самому с ними не довелось работать, но знаю что могут быть полезными и эффективными, кажется ребята из Positive Technologies что-то юзали и тестили с ними. Сюда же автоэнкодеры, которые мне кажется изза своей архитектуры весьма пойдут для детекта аномалий, и даже ГАНы в теории могут найти применение (как минимум перенятие адверсариал концепции с моделью критиком для ллмок в агентировании и элайнменте с рл оч.практикуется, ну думаю это многие тут юзают и так).

Тут у нас мизансцена с переходом к третьей части.

Другие выпуски