Не ожидал, что вы накидаете столько вариантов! Все они по-своему валидны, но я задумывал рассказать про `torch.compile()`. Кодом со скриншота можно снять профили и залить их потом в perfetto, чтобы помотреть трейсы.
По данному трейсу можно увидеть, что на CPU наш обычный код занимает 94 микросекунды на CPU, но нам это не очень интересно, гораздо важнее, что на GPU он работает 760 микросекунд и состоит из вызова 7 кернелов. Трейс же скомпилированного кернела занимает 90 микросекунд на GPU , что в 8.4 раза быстрее
Не ожидал, что вы накидаете столько вариантов! Все они по-своему валидны, но я задумывал рассказать
1 / 3
Илья Димов