Тут проблема скрывалась в том, что `if mask.any()` требует синхронизации между GPU <-> CPU для опеределения потока управления, из-за чего в GPU профиле появлялись дырки, в которых не происходило никаких вычислений