— Илья Ревин

Всем привет. Что должен сделать грамотный админ как только ему выделили канал для постинга?) Правильно-заболеть(

Но ~~мы не будем рабами~~ не будем отчаиваться а вместо кружочков из моей лабы, сделаем вид что я действительно что-то понимаю в ИИ и поговорим про вот такую статью (нашел буквально с утра).

История стара как мир-пришли физики/химики и такие "ВЕСЬ ВАШ ЭТОТ ГРОККИНГ ОТ ЛУКАВОГО,МЫ 50 ЛЕТ СИДИМ НА СПЕКТРОМЕТРАХ И ДАЛЬШЕ СИДЕТЬ БУДЕМ". А если более точно:
1. Все слои "сходятся" по разному во время обучения. Условно говоря на первых итерациях норма градиента (степень "коррекции" слоя) меняется с ходом обучения как по глубине так и по итерациям.
2. В целом на сегодня "интерпретировать" слои задача очень нетривиальная.
3. Вместо этого можно анализировать "спектральную мощность" слоя. Т.е. что он делает с нашим эмбедингом - докидывает ему шума, наоборот фильтрует шум или еще что то.
4. Индикатор мощности — наклон убывания сингулярных значений весов
5. В теории мы можем "прунить" модель теперь без валидационного датасета и вообще забыть про проблемы с "обобщаемостью" модели.

Почему ~~мы должны верить?~~ это должно работать?
1. Если вкратце - если у тебя не работает что-то в "детерминированном" случае, тебе срочно надо придумать рандомизированный (стохастический) вариант алгоритма. Отличный пример - стохастический градиентный спуск для "больших" моделей.
2. Ну вот мы сейчас на таком этапе развития Deep Learning что классическая статистическая теория обучения (это где у нас VC-размерности и всякие ЦПТ) уже начинает сбоить. Поэтому ее взяли и поженили с Random Theory и сейчас вся "перспективная" наука в ИИ это - Random Matrix Theory, Numerical Random Linear Algebra, Random Probability Theory in High Dimensions....
3. Не буду душнить математикой (пока). Лучше поговорим в чем тут проблемы)

ПРОБЛЕМЫ В СТУДИЮ.
1. Как считать спектр для матриц (или тензоров) весов? Допустим для тензоров вы выбираете разложение Такера - а вы в курсе сколько есть реализаций этого самого Такера?) Даже понятие эффективного ранга матрицы разницы от статьи к статье. Это может быть число все ненулевых сингулярных значений, это могут быть эвристики основанные на статистиках, да что угодно. И дальше что? В общем практически здесь как всегда много вопросов.
2. На всякую теорию всегда есть контраргумент - в данном случае это теории о "мертвых нейронах" или случаях когда 1 значение в матрице весов способно занулить метрику.
3. Факт экспериментов на 3-слойном перцептроне тоже не внушает доверие.

Выводы!
1. Приятно что есть попытки построить "новую теорию обучения" для глубоких сетей и еще приятней что ее пытаются строить на "адекватном" фундаменте случайных матриц.
2. К сожалению порог входа в этот новый дивный мир слишком высок, а эффективность не доказана явно.

Другие выпуски