Войти
ПроектыФорумКонкурсы

Конкурс: «А-Танатос» (4 стр)

Advanced: Тема повышенной сложности или важная.

Страницы: 1 2 3 4
#45
(Правка: 23:57) 23:53, 14 мая 2019

tac
> а можно ссылку? чисто проф. интерес что они сделали?
Если нужна выжимка: примечательно, что альфа-зера переоткрыла все популярные дебюты, играя сама с собой. И что самое веселое: есть так называемая староиндийская защита - очень древний дебют. Двое очень сильных шахматистов потратили несколько лет на ее проработку и улучшения, в итоге у них получилась новоиндийская защита. Так вот альфа-зера открыла эту защиту условно за несколько суток и стала применять против оппонентов в тестовых партиях.

#46
23:57, 14 мая 2019

tac
> а научная статья за 15 баксов .. но там и рядом не нейронные сети .. они
> проигрывают даже альфа бета отсечению .. так популярные сказки ..
Ты или не то читал или невнимательно читал. Там нейронная сеть + обычный перебор ходов. Но это перебор не тупых ходов, а, грубо говоря, умных эффективных ответов. Стокфиш перебирает 1.5 млн ходов, чтобы принять решение, альфа-зеро только 75 тыс.

#47
23:59, 14 мая 2019

BingoBongo
> староиндийская защита
оказывается как умно называется то, что я когда то читал в детской книжке ... было бы интересно просто посмотреть на целевую функцию, которую они задали при обучении .. все остальное, что называется разговоры для нищих )

#48
0:04, 15 мая 2019

BingoBongo
> + обычный перебор ходов. Но это перебор не тупых ходов, а, грубо говоря, умных
> эффективных ответов. Стокфиш перебирает 1.5 млн ходов, чтобы принять решение,
> альфа-зеро только 75 тыс.
но это уже не нейронные сети, раз так то верю .. сам об этом писал в научной статье .. за ссылками в личку )

#49
0:14, 15 мая 2019

tac
> это уже не нейронные сети
Нейронные сети нужны чтобы получить аналог дебютной книги с ходами, между которыми потом можно выбирать. Просто я перевод оригинальной статьи когда-то делал:

Вместо внешней оценочной функции и эвристик ходов AlphaZero обращается к глубокой нейронной сети "(p, v) = fθ(s)" с параметром θ. Эта нейронная сеть принимает на входе позицию на доске s, а на выходе предоставляет вектор эффективностей ходов p с компонентами "pa = Pr(a|s)" для каждого действия a, и скалярную переменную v вычисляющую исход z из позиции s, "v ≈ E[z|s]". AlphaZero получает эти данные, из игр против самой себя, затем они используются для поиска

А перебор ходов - это, можно сказать, "боевая" половина алгоритма, у них там обычное дерево и метод Монте-Карло.

#50
0:19, 15 мая 2019
BingoBongo
> Просто я перевод оригинальной статьи когда-то делал
а можно его почитать, в личку киньте плиз?

#51
(Правка: 0:31) 0:23, 15 мая 2019

BingoBongo
> Вместо внешней оценочной функции и эвристик ходов AlphaZero обращается к
> глубокой нейронной сети
а обучается то она на основании какой функции? кто там решает, что это хорошо, а это плохо?BingoBongo
> AlphaZero получает эти данные, из игр против самой себя
как? вот центральный вопрос! но есть ли ответ в статье?

#52
0:33, 15 мая 2019

tac
> а обучается то она на основании какой функции? кто там решает, что это хорошо,
> а это плохо?
tac
> как? вот центральный вопрос! но есть ли ответ в статье?
Это я уже не помню, не моя область, мне прост интересно было ) ссылка

#53
(Правка: 1:30) 0:55, 15 мая 2019

BingoBongo
там этого увы нет, точнее спрятано за зубодрабильную первую формулу без особых объяснений оной )

но боюсь они применили просто мой метод , названный мной x-тюнинг /звучит так же умно как и староиндийскаязащита/ к шахматам сами того не зная ))
но статья ценности не представляет, там по сути два вопроса, как они описали правила шахмат математически, о чем они пишут, что сделали мол это и как считали вероятность победы во время игры /для этого есть там лишь намек, что они считали вероятность случайно через баесовскую сеть, но по факту как то интерполировали градиентным спуском - вот блин предмет статьи где должен быть, вместо рекламного пафоса/ .. все остальное просто красивые слова, а эти вопросы оставляют без ответа ..

эх где мои 16 лет )

но идея интересная .. проще говоря, оценочной функцией для обучения у них выступает минимизация от хаоса вероятности выигрыша

#54
20:51, 15 мая 2019

tac
> нейронная сеть
1) тут в теме конкурса это же оффтоп?
2) тебе сюда: https://gamedev.ru/flame/forum/?id=242359
3) Удачи!

#55
23:20, 17 мая 2019

Я решил делать игру про то как решить делать игру

#56
(Правка: 17:23) 17:20, 18 мая 2019

Заявка

  РПГ в стиле Диабло, герой ходит по карте и лупит врагов.
Будет инвентарь с предметами и журнал с квестами. 

Страницы: 1 2 3 4
ПроектыФорумКонкурсы