А как вы заворачиваете данные?

Во многих курсах по машинному обучению основной упор делают на метаматическую теорию методов, их области применимости, и как это реализовать хотя бы для небольших задачках. Но на работе основное время тартится не на подбор архитектуры нейронной сети, и не на написание кода для экспериментов. А на сбор данных, интерпретацию результатов экспериментов, и поиском ответов на вопрос: "а эта задача вообще выполнима?"

В персой версии CV Rocket много делалось упора на реализацию сервисов и вывод в прод, во второй версии мы больше начали рассказывать про данные и особенности разных задач, потому что деплой сервисов превратился в свой отдельный курс. При этом разных систем по хранению, версионированию, и разметке данных очень много, что их выбор становится больше задачей согласования с другими системами в команде. Если совсем ничего нет (и у нас не исключительно табличные задачи), то лучше ClearML из бесплатных сервисов я пока не трогал. У него довольно топорный интерфейс использования, не накладывающий требований к структуре данных. Плюс те же картинки можно там хранить в виде архивов, и во время обучения потокого считывать из архивов. Про менеджмент данных есть хороший пост в блоге DeepSchool.

Большим бонусом использования ClearML для данных получается, что в экспериментах будет ссылка на использованные данные. Так что будет полноценная связка между кодом, данными, и результатами экспериментами. Даже через полгода можно будет разобраться, что за эксперименты запускались, и на каких данных.