Бьіла оказалось проблема. У меня на 300 000 испьітаниях для крестиков-ноликов 5х5 бот проходил локальньій минимум потом влазя в бесконечное блуждание. Добавил логирование, запустил на миллионе. Оказалось что да, учится, и очень хорошо учится. Веселая медитация на вечер получилась. Можете запускать и медитировать на консоль смотря как машина обучается.