На ночь глядя список ресурсов, что почитать по теме GPU:
* Курс по CUDA - https://people.maths.ox.ac.uk/~gilesm/cuda/
* Супер онлайн ресурс, где можно порешать задачки на cuda/triton/numba https://leetgpu.com
Готовые кернелы можно посмотреть у:
* Unsloth https://github.com/unslothai/unsloth/tree/main/unsloth/kernels
* Liger https://github.com/linkedin/Liger-Kernel/tree/main/src/liger_kernel/ops
И не могу не порекомендовать коммьюнити GPU MODE:
https://www.gpumode.com/v2/
https://github.com/gpu-mode/lectures
Илья Димов