В поисках утраченного ковчега или как я занялся цифровой археологией.

Последние два года я очень много времени провёл на Kaggle. Там встречается много задач с фронтьера DS. На Kaggle приходят компании из абсолютно разных доменов, и в этом посте я расскажу про совсем экзотику - цифровую археологию - поиску древних поселений на космоснимках и сборке археологического паззла на 17000 кусков. Оба соревнования были без жесткой метрики качества, что для Kaggle довольно необычно.

🗺 OpenAI в прошлом июне пришёл на Kaggle с соревнованием по поиску неизвестных доколумбовых поселений под пологом Амазонского леса в Бразилии. Задача была сформулирована довольно пространно: используя открытые источники - lidar снимки, спутниковые данные, исторические тексты и модельки от OpenAI найти не обнаруженные ранее следы жизнедеятельности древних племён Амазонии.

Это было первое соревнование, в котором я был единственным техническим специалистом, так что договориться о методологии работы было отдельным челленджем. Мы выбрали область выделенную под строительство плотины, чтобы найти то, что могло бы быть не найдено никогда. Мы сделали районирование карты по биологическим видам, которые люди использовали до Колумба и исключили виды, завезенные после экспансии. Так же, мы анализировали потенциальные геоглифы на спутниковых снимках в разных спектрах, а наш доменный эксперт за неделю отполировал промпт для оценки вероятности доколубмового поселения. Все участники получили новый опыт и точно повеселились в процессе. Вот здесь можно прочитать наш отчёт о найденных нами поселениях 👉🏻

🏺Следующее соревнование по цифровой археологии на площадку принёс китайский археологический институт. Они откопали более 17000 осколков древней керамики в одном захоронении династии Шанг, из которых нужно было собрать изначальные вазы.
Сначала я сделал значительный ресёрч существующих решений, из которых буквально ничего не подошло. В итоге в работу пошла кластеризация объёдинённых классических признаков, текстур + SSL эмбеддинги. Организаторы не догадались сделать ground truth для сравнения решений, так что результатов ждём до сих пор 😅. Посмотреть презентацию можно тут 👉🏻

Сейчас практически не существует границ применения ds как в академии, так и в индустрии. Kaggle выступает хорошим маркером - там можно встретить самые необычные соревнования из многих областей, и ты никогда не знаешь какие навыки тебе пригодятся, возможно, это будет понимание устных песен племён бассейна реки Шингу. О более профильных соревнованиях я расскажу в дальнейших постах.