Доброго времени суток :)

Немного предыстории. Я занимаюсь обучением модели для попиксельного редактирования изображений по пользовательскому запросу (проект называется Malvina). Другими словами, мы файн-тюним предобученную text-to-image модель на дополнительный кондишен - инпут изображение от пользователя.

Сейчас область развивается чрезвычайно шустро, новые модели штампуют одну за другой. Порой кажется, будто все только и занимаются тем, что выпускают новые модельки для эдитинга изображений. Помню наш релиз первой версии Malvina: мы побыли сотой примерно часов шесть. После этого зарелизился Flux Kontext.

Но когда мы только стартовали проект, на рынке не было ни одной адекватной модели. Стояли буквально у истоков. Пожалуй, главным челленджем в ту пору (если взять за скобки отсутствие размеченных данных) было отсутствие вменяемых пайплайнов для оценки качества генераций. Если эстетичность еще худо-бедно можно было оценить, то вот качество следования инструкции автоматически оценить было нереально. И первое время мы отсматривали и выбирали чекпоинты, используя крипто-глазной анализ дебаг-семплов на валидации :)

С тех пор много воды утекло. Было вложено немало усилий в разметку датасета, на котором можно было бы обучить модель (далее по тексту ассессор), способную предсказывать скоры эстетичности и инструктивности генерации. Причем существенную долю семплов в этом датасете разметили мы с командой самолично. Зато ассессор получился диво как хорош.

К чему я все это рассказываю? Учитывая тот факт, что вчера мы водили хороводы вокруг classifier guidance, несложно догадаться, что идея, о которой я вчера говорил, заключается в том, чтобы взять этот ассессор и заиспользовать его в качестве гайденса для процесса диффузии. Никто ведь не запрещает нам кроме classifier-free guidance использовать classifier guidance. Вроде бы нет…

Однако есть нюанс: текущий ассессор, понятное дело, обучался на финальных генерациях, которые полностью очищены от шума. Для того, чтобы иметь возможность использовать его для гайденса процесса диффузии, нужно обучить его предиктить скоры на зашумленных картинках. Не уверен, что такой сетап будет просто завести. А если и получится завести, будет ли от этого толк?

На этот вопрос я и предоставляю Вам возможность ответить, от вашего голосования зависит судьба ~~мира~~ этой идеи.