Часть 2/2. Как я потратил 1 млн рублей впустую
На решение проблемы у меня ушло еще чуть больше 3-х месяцев. Сначала я наладил коммуникацию. Запретил личные сообщения и перевел все обсуждения в общий чат в Telegram. Вопросы часто повторялись, поэтому такой шаг был необходим. Создал таблицу в Google Sheets, чтобы разметчики могли отмечать выполненные задания. Там же я назначил им задачи. После этого мне стало легче понять, кто из разметчиков работает эффективно, а кого стоит заменить.
Я написал скрипты, которые используют CVAT CLI и SDK для быстрого скачивания и загрузки заданий, моя статья на эту тему тут. Все данные сохранялись и версионировались с помощью DVC, но DVC в команде не прижился, но это отдельная тема для следующего поста. Также важно было сделать данные более разнообразными: разные погодные условия, время дня, виды с камер. Уточнил инструкцию, добавил больше примеров, даже записал видео о том как надо пользоваться инструментом разметки чтобы размечать быстрее и при замене разметчика, мне не надо было самому все объяснять. Написал скрипт, который раз в определенное время выкачивал продовые видео и подготавливал их для разметки, создавая задания в CVAT, моя статья о похожем пайплайне есть тут. Лучших разметчиков частично привлек к проверке других разметчиков. Следующим этапом развития разметки, стало подключение нейронки к CVAT для авторазметки через serverless function, и об этом у меня тоже есть статья на DeepSchool тут, теперь разметчикам приходилось выделять не все авто, а только те, которые не нашлись, и в редких случаях поправлять ббоксы.
Несмотря на несколько месяцев, которые я потерял во время неэффективной разметки, мне удалось построить эффективный пайплайн, а проект был успешно завершен. Наработки этого пайплайна мы затем использовали в других проектах.
Если есть интересные байки с работы, как что-то пошло не так, буду рад почитать в комментариях.
Илья Бакалец