Для себя 1. Обучить алгоритм Q-learning для сред FrozenLake-v1, в частности подберать оптимальную alpha. Придумать, как добиться от Q-learning таких же результатов как от Policy iteration на большой среде 2.1. Обучить алгоритм Deep Q-Learning (или AC) для среды https://ale.farama.org/environments/breakout . Продемонстрировать, что для обученного агента растет время игры. 2.2. Обучить единый алгоритм Deep Q-Learning (или AC) для сред https://ale.farama.org/environments/breakout и https://ale.farama.org/environments/pong/ (policy/qfunction-сеть должна иметь backbone и головы для каждой из сред). Продемонстрировать, что для обученного агента растет время игры. За основу можно взять репозиторий: https://github.com/caspernorrbin/pong-dqn