Форум HeroesWorld-а - Показать сообщение отдельно

05.08.2019, 21:11

Ihromant

📖

Регистрация: 14.08.2011

Сообщения: 1492

1726

Отправить сообщение для Ihromant с помощью ICQ

Регистрация: 14.08.2011

Сообщения: 1492

1726

[УТИЛИТА] Симулятор Танта

TL DR: прогресс можно наблюдать здесь: https://ihromant.github.io

SMOrc
SMOrc SMOrc
SMOrc SMOrc SMOrc
SMOrc SMOrc
SMOrc

Здравствуй, дорогой чятик. Думаю, все сльішали про AlphaZero, которьій сейчас считается непобедимьім в шахматах. Под капотом у AlphaZero есть так назьіваемое машинное обучение на нейронньіх сетях. И с его помощью благодаря простой стратегии обучения (машина учится играть так же как люди - путем наигрьіша и набивания шишек) он в конце концов порвал Стокфиша. Ето бьіло лирическое отступление.

На самом деле в коде АльфаЗеро ничего сложного нету с точки зрения вечности. (например, здесь https://gist.github.com/erenon/cb42f...e6f44a7ac54023 можно посмотреть псевдокод). Вопрос в инфраструктуре (Гугл под ето дело вьіпустил так назьіваемьій TPU-чип) и в количестве компов что ету модель считают. Также с псевдокода вьі можете видеть, что заменив всего несколько частей кода, можно тот же алгоритм для Го или Шоги применить.

К чему я веду? Я веду к тому, что кто понял как работает АльфаЗеро, тот может (захватить вселенную) писать АІ для любой игрьі какую пожелает (как например пишут ботов для Дотьі которьій уже походу рвет чемпионов International https://openai.com/five/ ).

Конечно, Герои имеют общее как с дотой (рандом, неполнота информации), так и с шахматами (полная походовость). Но на самом деле в некоторьіх случаях герои очень простьіе с точки зрения вариантов. Вот один из вариантов я бьі хотел рассмотреть.

Предположим у вас есть Тант. Статьі 1-2-5-8, маньі 120. И 350 скелетов. И утопа 1-2 маячит перед глазами. Вопрос знатокам из чятика: лезть туда или не лезть? Санек например не принимает ход, делает в редакторе карту и гоняет там ету битву 3-4 раза и после етого решает что делать в тот момент когда оппонент матерится "почему он ход не принимает?". Опустив шуточки, в утопе у нас все очень предопределено на самом деле (драконьі врежутся в определенньіе стеки, моралей нет, у нас в качестве ответа очень мало толковьіх вариантов - щит, деф, атака, подождать, анимейт), и так до победьі (или поражения).

В общем, модель очень хорошо ложится на алгоритм машинного обучения что назьівается Reinforced learning. Принцип прост - лезем в утопу, делаем какое-то предположение, получаем (удалено модером), делаем вьіводьі, пробуем новое. Или побились хорошо, думаем как меньше маньі потратить.

Теперь о связи с другой одной игрой. Есть игра "крестики-нолики". Думаю, ее кто-то уже играл на парах или в школе. Игра на самом деле очень похожа на взятие Тантом утопьі. Вариантов примерно такое же число, в конце концов есть результат, можно вариировать количество ответов (например, играть не 3х3 3 в ряд, а 5х5 или 5х6 4 в ряд, или 15х15 5 в ряд). Если научить компа играть ету игру, то путем несложньіх манипуляций можно научить компа брать Тантом утопьі.

Извините за долгое вступление, теперь наконец суть. Я смог научить компа играть в крестики-нолики 3х3 3 в ряд, 5х5 4 в ряд что он не проигрьівает, а если зеваешь - то вьіигрьівает. Сделал ето именно с помощью алгоритма Reinforced learning и машинного обучения на нейронньіх сетях. Код можно посмотреть здесь https://github.com/Ihromant/reinforced-learning .

Я почти уверен, что с его можно адаптировать для случая с Тантом и утопой. Тоесть научить компа брать утопу с минимумом потерь, а если потерь нету - то с минимумом потерь маньі. Если идти дальше - то потом можно идти и к взятию конс (хоть до микрения гарпиями цехов), просто ето сложнее, дольше и его нельзя перепрьігнуть.

Теперь спрашивается почему я ето все создал. Во-первьіх, похвастаться (ну да, ЧСВ). Во-вторьіх, я приблизился к етапу, где кто-то уже может помочь. Вариантов явньіх я вижу пока 2:
1. Мне надо модель взаимодействия драконов со скелетами. Я думаю, что смогу со временем впилить ету модель, но во-первьіх я работаю, во-вторьіх имею другую деятельность. А дело ето требует усидчивости и немного скучное. А тренировать на неправильной модели - будут неправильньіе советьі. Потом модель может вьірасти и до взятия конс и прочего. Но надо знатока поведения компов что сможет перевести свой опьіт войньі с компами в код.
2. Тренировка моделей не делается мгновенно. Дальше надо будет тренировать пошагово. Процесс довольно скучньій на самом деле. Запустил, подождал, сохранил в файлик. Файлик где-то вьіложил, кто-то другой его тоже запустил, потренировал, вьіложил. Надо комп с хорошой видеокартой (у меня ноут, комп в планах, но щас нету). Потому, что чтобьі научить компа играть в 5х5 крестики нолики - то занимает ето 2 часа работьі на моем рабочем мощном компе). Можете представить сколько времени займет тренировка взятия консьі.

В общем, где-то так пока. Обсуждаем.

__________________

✍

Мой любимьій размер - тройка. Будь то конса, утопа или сиськи

ICQ:5676388