Войти
ПроектыФорумКонкурсы

Выбор системы оценивания конкурсных работ

Advanced: Тема повышенной сложности или важная.

Страницы: 1 2 3 4 5 Следующая »
#0
19:47, 23 янв. 2018

Выбор системы оценивания конкурсных работ

При проведении конкурсов на GameDev.ru неизбежна оживленная дискуссия о способах оценивания работ. Приводится много аргументов за и против той или иой системы, всегда находятся недовольные. Предлагаю в этой теме составить список всех возможных систем оценивания с перечнем плюсов и минусов, а так же с указанием формул для подсчета результатов во избежание ошибок.

Напоминаю, что конкурсы GameDev.ru в большинстве своем носят тусовочно-развлекательный характер с дружественной атмосферой.

Все изложенное написано второпях, моей задачей было лишь начать. Кому есть что добавить - пишите, обсудим, дополним.

Классификация систем оценивания

Описание каждой системы оценивания

1. Классификация по судьям

1.1. Судьями выступают сами участники

Примеры конкурсов: (почти все наши конкурсы)

Плюсы:
+ не требуется сторонний судья
+ более-менее объективная оценка
Минусы:
- теоретически судья-конкурсант может умышленно занизить балл сопернику, чтобы повысить свои шансы на победу. На деле за всю историю конкурсов такого замечено не было.
- в случае отказа некоторых судей голосовать нужны дополнительные подсчеты для получения правильных результатов.

1.2. Судьей единолично выступает организатор

Примеры конкурсов: Сентябрьский экспериментальный конкурс 2013 г., Конкурс интерфейсов меню 2017 г.

Плюсы:
+ никого не нужно ни приглашать, ни ждать, организатор все сделает сам.
+ нет сложных подсчетов оценок, один судья - одна оценка
Минусы:
- оценки сугубо субъективны и отражают только точку зрения организатора.

1.3. Приглашенные судьи, не являющиеся участниками

Примеры конкурсов: Конкурс шутеров от L 2012 г., Конкурс от L 2013 г.

Плюсы:
+ независимое жюри наиболее объективно
Минусы:
- сложность с поиском достойных судей, особенно с учетом того, что подходящие кандидаты часто сами участвуют в конкурсе

1.4. Несколько судейских коллегий, имеющих разный вес

Примеры конкурсов: 2D платформер-лабиринт

Плюсы:
+ выделив отдельную коллегию для спонсоров, можно дать им самим распределить призовой фонд
Минусы:
-

2. Классификация по способу выставления оценок

2.1. Расстановка работ по порядку от худшей к лудшей.

Плюсы:
+ (?)
Минусы:
- сложно принять решение при оценивании нескольких схожих по уровню игр
- разница между оценками фиксирована (1 балл), система не позволяет судье указать, насколько разница первой работы от второй отличается от разницы второй работы от третьей.
Прочие особенности:
- система не дает судье выставить схожим по уровню работам одинаковые оценки. С одной стороны, это заставляет судью более тщательно изучать работы. С другой стороны, заставляет судью искусственно искать изъяны или, в худшем случае, расставлять схожие работы наобум. Фиксированная разница баллов только усугубляет положение.

2.2. Каждой работе присваивается оценка, например, от 1 до 10.

Плюсы:
+ простой и понятный всем со школы метод выставления оценок
Минусы:
- (?)
Прочие особенности:
- система дает судье выставить одинаковые оценки нескольким работам. Теоретически это может привести к проблемам с расстановкой мест, на деле таких случаев замечено не было.

2.3. Каждому судье выделяется определенное количество баллов, которые он должен распределить между работами.

Плюсы:
+ система заставляет судью точнее определять отличия между работами (насколько разница первой и второй работы отличается от разницы второй и третьей) и дает возможность судье почувствовать себя "спонсором", распределяющим ограниченное число баллов между работами
Минусы:
- судье тяжело контролировать сумму баллов, нужно писать отдельный инструмент (веб-страницу) для удобной расстановки баллов.
Прочие особенности:
- по сути, это вариация на обычное оценивание баллами от 1 до 10, но с приведением оценок к фиксированной сумме.

#1
19:47, 23 янв. 2018

3. Классификация по критериям оценивания

3.1. Критерий не определён, судьи оценивают по своему усмотрению.

Плюсы:
+ игру зачастую хочется оценить "по ощущениям", отсутствие строгих критериев дает возможность это сделать
Минусы:
- у каждого судьи свои критерии, поэтому оценка может получиться менее объективной, чем с заранее оговоренными критериями.

3.2. Один определенный критерий (например, геймплей или ИИ)

Плюсы:
+ повышает объективность оценок
+ даёт возможность конкурсантам сделать упор на заранее определенный критерий и уделять меньше внимание второстепенным моментам
Минусы:
- игру зачастую хочется оценить "по ощущениям", четкий критерий мешает это сделать, выставленные судьей баллы могут не отражать реальное мнение судьи

3.3. Несколько определенных критериев и несколько оценок

Плюсы:
+ повышает объективность оценок
+ не дает судье "с горяча" утопить игру низким баллом из-за, например, личной непривязни к жанру либо из-за небрежной оценки по какому-то одному параметру
Минусы:
- не понятно, с каким весом суммировать оценки
- так же, как и в 3.2., список оценок по каждому критериев может не отражать реальное мнение судьи

Формулы для подсчета оценок

Будут написаны позже.

#2
19:47, 23 янв. 2018
Зарезервировано.
#3
20:11, 23 янв. 2018

3.4. Несколько неопределённых критериев и одна оценка
Судья самостоятельно для каждой игры выбирает до четырёх критериев "за" и "против" и выставляет по ним оценки от -5 до 5.
Результаты считаются суммируя оценки "за" и "против", конечная оценка для игры не может быть меньше 1 и больше 10.

+ Гибкая система оценки
+ Детальный фидбек по игре
- ?

По факту, это расширение 3.1., только с детализацией, что именно повлияло на оценку. Было бы отлично, если бы критерии были не типа "графло, музло", а какие-то конкретные элементы геймплея, рисовка, управление, наличие/отсутствие багов и т.д.
Да и занижать оценку придётся более изощрённо.

#4
20:17, 23 янв. 2018

fornetjob
Бла-бла-бла. Напиши, в какой конкретно пункт какой абзац добавить. И как вести подсчёт результатов.

#5
21:20, 23 янв. 2018

Когда финалистов немного (<= 10), существует модификация системы 2.1, которая вроде устраняет почти все ее минусы - ранжирование на основе прямого попарного сравнения.

Судьи попарно сравнивают все проекты, исключая из сравнения свой собственный проект.
То-есть судья для каждой пары X и Y определяет - X лучше Y, Y лучше X, или не определено (невозможно определить какой лучше).

Потом составляется общая таблица всех сравнений и, используя какой-нибудь rank estimation алгоритм, определяются победители :)

Я даже когда-то скрипт похожий делал: top-k estimator
Правда он не слишком умный, можно сделать значительно лучше..
#6
21:45, 23 янв. 2018

Zegalur
Интересная мысль, но вижу минус: провоцирует менее внимательно рассматривать более слабые работы, ставя их вровень. Будут реально оцениваться только несколько первых работ, а остальные валиться в кучи типа "середнячки" и "отстой".
Zegalur
> Когда финалистов немного (<= 10)
Для этого случая может подойти.

#7
22:06, 23 янв. 2018

Zegalur
> Когда финалистов немного (<= 10), существует модификация системы 2.1, которая
> вроде устраняет почти все ее минусы - ранжирование на основе прямого попарного
> сравнения
Если 25 игр, к примеру, разбить на группы по 5 и провести ещё одно сравнение среди финалистов, то можно за восемь сравнений уложиться. За 10 - для 36 и т.д.
Но, на мой взгляд, сравнивать попарно лучше по чётким критериям (пункт 3.3). А это делает сложность сравнения какой-то инфернальной (придётся запускать две игры одновременно и сравнивать критерии).

#8
23:19, 23 янв. 2018

Да, по критериям было бы вообще классно. Ну т е. есть набор вопросов "где лучше графика, в Х или в У" и "где лучше геймплей, в У или в Z". На каждый ответить в общем-то легко. А в сумме дают объективную оценку. Единственная сложность что вопросов уж очень много, для 10 проектов и 5 критериев будет 450 вопросов.

#9
23:31, 23 янв. 2018

kipar
При таком количестве вопросов появится процента четыре ошибок, при достаточной внимательности и перепроверке результатов.

#10
23:43, 23 янв. 2018

fornetjob
Да, расстановка по местам мне больше нравится. По сути такое же попарное сравнение (как ещё список сортировать, мы программисты или кто), но сложнее ошибиться. Но можно же сделать расстановку по местам отдельно по каждому критерию.

#11
0:10, 24 янв. 2018

kipar
> Но можно же сделать расстановку по местам отдельно по каждому критерию.
Вот это прикольно будет. Каждый критерий - номинация.

#12
8:29, 24 янв. 2018

Подход с критериями обсуждался уже неоднократно, у него есть проблема. Скажем, критерий "сюжет" может быть очень важен для РПГ или квеста, при этом он значительно менее важен для шутера или гоночек и совсем не нужен для аренного шутера или тетриса/арканоида/матч3 (если это именно матч3, а не микс жанров). Даже такой критерий, как "графон", имеет разную степень важности в разных жанрах.
fornetjob высказал интересную мысль на счёт "неопределённых критериев", но эту мысль нужно сформулировать полностью, описать механизм применения методики. Я пока не уверен в работоспособности такого подхода.

#13
8:55, 24 янв. 2018

Mikle
Проблема:
Судья выбирает один набор критериев и оценивает ими все игры (наиболее вероятный вариант развития).

Решение:
1. Заранее для каждой игры голосованием определять набор критериев. Для этого судьи запускают игры, определяют их критерии и пишут в личку организатору. Пересёкшиеся, либо однозначно подходящие под игру критерии объявляются значимыми для оценки.
2. (Расширение) После сбора достаточной статистики голосования, для каждого типа игры определить конечный набор критериев, которые использовать в последующем для оценки конкурсов.
3. (Расширение) Каждый судья может дополнительно к определённым голосованием критериям добавлять собственные, со своей оценкой влияния на восприятие игры.

Васян
> Каждый критерий - номинация
Это отлично, если нет призового фонда. Если есть призовой фонд - победителей получается 8 (5 номинаций и 3 призёра). Это отчасти решается разделением призового фонда на два, где первая часть делится между 3 безусловными победителями, а вторая часть делится поровну между победителями в номинации. Это позволит безусловным победителям получить бонус за одновременную победу в номинации.
Но, в итоге, получится "мы делили апельсин", при небольшом призовом фонде он размоется по большому количеству участников.
Плюс, если в призовом фонде есть майки и т.д., рассылать их для 3-х победителей, это не то же самое, что рассылать их для 8 победителей.

#14
9:09, 24 янв. 2018

Минус пункта 2.2 ты же сам описал в соседней теме:

Судья, ставящий всем высокие оценки, поднимает всем средний балл, а сам остается на месте, то есть опускается относительно других.

Решение известно - нормировка каким-либо способом.

Еще есть минус - возможность искусственного занижения оценок конкурентам, решается отбрасыванием экстремумов.


Есть еще вариант голосования, как на любой премии - прямое голосование за победителя. Каждый судья голосует за одну(две, три, маленькое число). Игра с наибольшим количеством голосов побеждает, остальные не у дел. Для повышения объективности можно проводить в несколько этапов (лонглист-шортлист-номинация-победитель).

Отлично сочетается с пунктом 3.3, убирая его минус с суммированием - просто раздаем призы в каждой номинации, e.g.:
- Лучшая картинка (15% призового фонда)
- Лучший звук  (15% призового фонда)
- Лучший геймплей  (15% призового фонда)
- Лучшее соответствие теме  (20% призового фонда)
- Лучшая игра конкурса  (35% призового фонда)

Страницы: 1 2 3 4 5 Следующая »
ПроектыФорумКонкурсы