Часть третья, ЛЛМнутая (3/3)
Полагаю нет смысла описывать насколько важны и изменили нашу жизнь и работу ЛЛМки. И с тем как ллмки становятся умнее, они становятся мастхэв инструментами для кибербеза и сендбоксов в частности. Сразу упомяну и лютый минус - в отличии от классики и сверток, трансформеры у нас плохо интерпретируются, а клиент зачастую хочет знать почему ИИшка приняла именно такое решение (и не дай корейский рандом у вас еще и модель недетерменируемая, не отэлайнена, нет кв кэша с оффлоадом и на тот же ответ клиент получит другой вердикт).
Начнем опять с бейзлайна и тут у нас служит самая основа кибербеза - эвристики и правила. Как я уже и говорил - их пишут вирусные аналитики, наблюдая за поведением малвари или деобфусцируя код, фильтруя суб/домены, расшифровывая tls и т.д. Не буду вдаваться в детали, скажу только что тут есть статик анализ (по сути кусок кода, который не меняется) и есть динамический анализ, где смотрим на поведение бяки в контролируемых условиях.
Теперь пройдемся по задачам в которые мы можем запрячь нашего ЛЛМ нейрораба:
- Классификация. Ну серьезно, это краеугольный камень. При хорошем контекст инжиниринге/файнтюне/элайнменте творит чудеса, находя не самые очевидные и, что немаловажно (простите за каламбур) не слишком важные кейсы которые могут проскочить под радаром. Фишинг, командные строки, вот все это, да - ллмки, влмки в бой!
- Суммаризация. Думаю нет смысла описывать бизнес ценность в кейсе когда клиенту выдается весь спектр информации (поскольку разным клиентам надо разное) и нужна качественная суммаризация в репорте? А если еще поставить это все на RAGа, то ваще красивое.
- Чат-боты. Несомненно это прекрасная идея позволить киберсекам (половина из которых еще наверняка хакают в свободное время когда приспичит, а другая половина потенциально конкуренты) общаться с моделькой у которой есть доступ к базе знаний/рагам/т.д. И да помогут вам в таком случае темные боги ибо ни элайнмент ни гардрейлз, ни сейфти-классификатор вам не помогут.
Computer use. Обожаю эту сочную тему, жаль только что опенсоусные решения либо медленные и качество маздай либо проприетарные и локально низзя. Оператор, манус, омнипарсер, ui tars, seeclick, атлас и прочая мне не зашли по тем или иным причинам, потому приходится писать свое. Grounding для ллм в целом, такое ощущение,что не очень популярная тема и не всегда удачная (палигемма очень тупая, например), часть фиг задеплоишь, в часть фиг подкапот залезешь и потом еще заставь работать нормально, ага. В некоторых кейсах про оптимизацию ваще никто не думал (да и в целом дальше папира). А вот китайцы молодцы, мои им лучи любви и маринованые куриные пальцы.
Тут, как несложно понять мы уже перешли к агентам и с одной стороны это вкусная тема, с другой - редко где оно хорошо имплементировано. Для внутреннего пользования это очень круто, со своими кастомными MCP, и доступом в бд, рисерч агент, только дай ему время (много), творит реально чудеса на уровне крутого аналитика. Конечно же много зависит от модели, мощностей что у вас есть, приватности. Для осинта (киберразведка по открытым источникам) хорошая агентская система - то что доктор прописал, но лучше не вдаваться в детали в посте.
В целом агенты эпичные вещи творят в пентесте и кибербез соревнованиях. За ними будущее (с human in the loop для валидации иначе будет у нас мертвый интернет), и потециал уже огромен, но, на мой взгляд всегда требует значительно больше времени и осторожности (ох, какая же вкусная и восхитительная тема - мисэлайнмента) разрабатывая такие системы для прода. Конечно же наши визави мыслят примерно также и уже сейчас появились малвари которые сканят на наличие, например, клод кода и дают ему задачу проанализировать папки и файло на машине, чтоб стащить креды и private keys к крипте. Ну или малварь что ставит олламу на машину и мисэлайнутую версию gpt-ass. Это больше PoC, конечно же, но дальше будет лучше, дальше веселее, дальше будет просто зашибись!
Дмитрий Диденко