Я уже писал выше, что на мой взгляд лучший способ с чем-то разобраться это практика. Довольно часто на курсах/вебинарах спрашивают хорошие материалы по RL, поэтому хочется тут тоже оставить небольшую подборку для вас:
* Курс от ШАДа https://github.com/yandexdataschool/Practical_RL
* Курс от hf https://huggingface.co/learn/deep-rl-course/unit0/introduction - хороший, чтобы понять основные концепции, но практика там это запуск "черных ящиков"
* stablebaselines3 https://github.com/DLR-RM/stable-baselines3 - правильная имплементация всех алгоритмов, советую продираться сквозь код и сводиться с ними
* https://deeprlcourse.github.io/#conceptualpractical - курс, доступный в TG на удивление от Ирана (сходу показался интересным, но я не проходил)