Вижу, что вам понравился интерактив, поэтому вчера я заготовил вам еще одну задачу посложнее!. У нас есть нейросеть, которая применяет к слою нашу быструю gelu 50 раз, но каждый 5й раз суммирует элементы по маске и домножает выходы гелу на это число.
К нам пришел новый сотрудник, который заметил, что маска зачастую пустая, поэтому по флагу `use_super_cool_sum` вставил проверку: если маска пустая, значит не нужно считать сумму и мы можем сэкономить на вызове кернела.
Если считать, что в 50% форвардов маска действительно пустая, как вы думаете, насколько новая имплементация быстрее старой.
Илья Димов