Классификация рекламы в стриминге

Это была обычная классификация, разметка бинарная реклама/не реклама (контент), данные валятся 24/7, их было больше, чем мы могли обработать. Сделали решение, точность была больше 95%. Потом приходит запрос сделать определение рекламной врезки в кадре без разметки. А наша модель такую рекламу не признает, для нее это контент (не реклама). Решили посмотреть как она принимает решение. Взял gradcam, и как оказалось он показывает достаточно точную локацию с помощью модели для классификации. Т.е. вот оно, нахождение сегмента в кадре с помощью модели классификации. Из интересного, как gradcam начал показывать рекламные фичи в обычном контенте. Понятно, что часть нейронов триггерит всегда, а полносвязные слои принимают решение. Но больше всего срабатываний было в телешоу, например красиво уложенные волосы девушки, где прически укладывают как в рекламе. И так же в анонсах, когда в контенте появляются рекламоподобные врезки, но это не коммерческая реклама, а будущие передачи. Эту задачу мы так и не закрыли, т.к. от заказчика шли постоянные дополнения. А основная задача требовала 100% точности определения рекламы вплоть до кадра. Плюс в мире кодеков для этого есть другое решение - это SCTE-35 метки, которые уже ставятся на коммерческий контент. И мы на самом деле были в субподряде, а наш заказчик хотел продать наше решение поставщикам контента. Сам рынок уменьшался и решение было больше на скорость, продать пока кто-то еще не пересел на SCTE-35. Постепенное увеличение точности и сужение рынка сошлись в точку, после которой мы стопнули проект.
Кстати в превью та самая рекламная укладка волос из нерекламного контента. А если посмотрите на нижнюю часть кадра, то увидите две горизонтальные полоски - это модель ищет бегущие строки и из них делать выводы о рекламе