При проведении конкурсов на GameDev.ru неизбежна оживленная дискуссия о способах оценивания работ. Приводится много аргументов за и против той или иой системы, всегда находятся недовольные. Предлагаю в этой теме составить список всех возможных систем оценивания с перечнем плюсов и минусов, а так же с указанием формул для подсчета результатов во избежание ошибок.
Напоминаю, что конкурсы GameDev.ru в большинстве своем носят тусовочно-развлекательный характер с дружественной атмосферой.
Все изложенное написано второпях, моей задачей было лишь начать. Кому есть что добавить - пишите, обсудим, дополним.
Примеры конкурсов: (почти все наши конкурсы)
Плюсы:
+ не требуется сторонний судья
+ более-менее объективная оценка
Минусы:
- теоретически судья-конкурсант может умышленно занизить балл сопернику, чтобы повысить свои шансы на победу. На деле за всю историю конкурсов такого замечено не было.
- в случае отказа некоторых судей голосовать нужны дополнительные подсчеты для получения правильных результатов.
Примеры конкурсов: Сентябрьский экспериментальный конкурс 2013 г., Конкурс интерфейсов меню 2017 г.
Плюсы:
+ никого не нужно ни приглашать, ни ждать, организатор все сделает сам.
+ нет сложных подсчетов оценок, один судья - одна оценка
Минусы:
- оценки сугубо субъективны и отражают только точку зрения организатора.
Примеры конкурсов: Конкурс шутеров от L 2012 г., Конкурс от L 2013 г.
Плюсы:
+ независимое жюри наиболее объективно
Минусы:
- сложность с поиском достойных судей, особенно с учетом того, что подходящие кандидаты часто сами участвуют в конкурсе
Примеры конкурсов: 2D платформер-лабиринт
Плюсы:
+ выделив отдельную коллегию для спонсоров, можно дать им самим распределить призовой фонд
Минусы:
-
Плюсы:
+ (?)
Минусы:
- сложно принять решение при оценивании нескольких схожих по уровню игр
- разница между оценками фиксирована (1 балл), система не позволяет судье указать, насколько разница первой работы от второй отличается от разницы второй работы от третьей.
Прочие особенности:
- система не дает судье выставить схожим по уровню работам одинаковые оценки. С одной стороны, это заставляет судью более тщательно изучать работы. С другой стороны, заставляет судью искусственно искать изъяны или, в худшем случае, расставлять схожие работы наобум. Фиксированная разница баллов только усугубляет положение.
Плюсы:
+ простой и понятный всем со школы метод выставления оценок
Минусы:
- (?)
Прочие особенности:
- система дает судье выставить одинаковые оценки нескольким работам. Теоретически это может привести к проблемам с расстановкой мест, на деле таких случаев замечено не было.
Плюсы:
+ система заставляет судью точнее определять отличия между работами (насколько разница первой и второй работы отличается от разницы второй и третьей) и дает возможность судье почувствовать себя "спонсором", распределяющим ограниченное число баллов между работами
Минусы:
- судье тяжело контролировать сумму баллов, нужно писать отдельный инструмент (веб-страницу) для удобной расстановки баллов.
Прочие особенности:
- по сути, это вариация на обычное оценивание баллами от 1 до 10, но с приведением оценок к фиксированной сумме.
Плюсы:
+ игру зачастую хочется оценить "по ощущениям", отсутствие строгих критериев дает возможность это сделать
Минусы:
- у каждого судьи свои критерии, поэтому оценка может получиться менее объективной, чем с заранее оговоренными критериями.
Плюсы:
+ повышает объективность оценок
+ даёт возможность конкурсантам сделать упор на заранее определенный критерий и уделять меньше внимание второстепенным моментам
Минусы:
- игру зачастую хочется оценить "по ощущениям", четкий критерий мешает это сделать, выставленные судьей баллы могут не отражать реальное мнение судьи
Плюсы:
+ повышает объективность оценок
+ не дает судье "с горяча" утопить игру низким баллом из-за, например, личной непривязни к жанру либо из-за небрежной оценки по какому-то одному параметру
Минусы:
- не понятно, с каким весом суммировать оценки
- так же, как и в 3.2., список оценок по каждому критериев может не отражать реальное мнение судьи
Будут написаны позже.
Зарезервировано.
3.4. Несколько неопределённых критериев и одна оценка
Судья самостоятельно для каждой игры выбирает до четырёх критериев "за" и "против" и выставляет по ним оценки от -5 до 5.
Результаты считаются суммируя оценки "за" и "против", конечная оценка для игры не может быть меньше 1 и больше 10.
+ Гибкая система оценки
+ Детальный фидбек по игре
- ?
По факту, это расширение 3.1., только с детализацией, что именно повлияло на оценку. Было бы отлично, если бы критерии были не типа "графло, музло", а какие-то конкретные элементы геймплея, рисовка, управление, наличие/отсутствие багов и т.д.
Да и занижать оценку придётся более изощрённо.
fornetjob
Бла-бла-бла. Напиши, в какой конкретно пункт какой абзац добавить. И как вести подсчёт результатов.
Когда финалистов немного (<= 10), существует модификация системы 2.1, которая вроде устраняет почти все ее минусы - ранжирование на основе прямого попарного сравнения.
Судьи попарно сравнивают все проекты, исключая из сравнения свой собственный проект.
То-есть судья для каждой пары X и Y определяет - X лучше Y, Y лучше X, или не определено (невозможно определить какой лучше).
Потом составляется общая таблица всех сравнений и, используя какой-нибудь rank estimation алгоритм, определяются победители :)
Я даже когда-то скрипт похожий делал: top-k estimator
Правда он не слишком умный, можно сделать значительно лучше..
Zegalur
Интересная мысль, но вижу минус: провоцирует менее внимательно рассматривать более слабые работы, ставя их вровень. Будут реально оцениваться только несколько первых работ, а остальные валиться в кучи типа "середнячки" и "отстой".
Zegalur
> Когда финалистов немного (<= 10)
Для этого случая может подойти.
Zegalur
> Когда финалистов немного (<= 10), существует модификация системы 2.1, которая
> вроде устраняет почти все ее минусы - ранжирование на основе прямого попарного
> сравнения
Если 25 игр, к примеру, разбить на группы по 5 и провести ещё одно сравнение среди финалистов, то можно за восемь сравнений уложиться. За 10 - для 36 и т.д.
Но, на мой взгляд, сравнивать попарно лучше по чётким критериям (пункт 3.3). А это делает сложность сравнения какой-то инфернальной (придётся запускать две игры одновременно и сравнивать критерии).
Да, по критериям было бы вообще классно. Ну т е. есть набор вопросов "где лучше графика, в Х или в У" и "где лучше геймплей, в У или в Z". На каждый ответить в общем-то легко. А в сумме дают объективную оценку. Единственная сложность что вопросов уж очень много, для 10 проектов и 5 критериев будет 450 вопросов.
kipar
При таком количестве вопросов появится процента четыре ошибок, при достаточной внимательности и перепроверке результатов.
fornetjob
Да, расстановка по местам мне больше нравится. По сути такое же попарное сравнение (как ещё список сортировать, мы программисты или кто), но сложнее ошибиться. Но можно же сделать расстановку по местам отдельно по каждому критерию.
kipar
> Но можно же сделать расстановку по местам отдельно по каждому критерию.
Вот это прикольно будет. Каждый критерий - номинация.
Подход с критериями обсуждался уже неоднократно, у него есть проблема. Скажем, критерий "сюжет" может быть очень важен для РПГ или квеста, при этом он значительно менее важен для шутера или гоночек и совсем не нужен для аренного шутера или тетриса/арканоида/матч3 (если это именно матч3, а не микс жанров). Даже такой критерий, как "графон", имеет разную степень важности в разных жанрах.
fornetjob высказал интересную мысль на счёт "неопределённых критериев", но эту мысль нужно сформулировать полностью, описать механизм применения методики. Я пока не уверен в работоспособности такого подхода.
Mikle
Проблема:
Судья выбирает один набор критериев и оценивает ими все игры (наиболее вероятный вариант развития).
Решение:
1. Заранее для каждой игры голосованием определять набор критериев. Для этого судьи запускают игры, определяют их критерии и пишут в личку организатору. Пересёкшиеся, либо однозначно подходящие под игру критерии объявляются значимыми для оценки.
2. (Расширение) После сбора достаточной статистики голосования, для каждого типа игры определить конечный набор критериев, которые использовать в последующем для оценки конкурсов.
3. (Расширение) Каждый судья может дополнительно к определённым голосованием критериям добавлять собственные, со своей оценкой влияния на восприятие игры.
Васян
> Каждый критерий - номинация
Это отлично, если нет призового фонда. Если есть призовой фонд - победителей получается 8 (5 номинаций и 3 призёра). Это отчасти решается разделением призового фонда на два, где первая часть делится между 3 безусловными победителями, а вторая часть делится поровну между победителями в номинации. Это позволит безусловным победителям получить бонус за одновременную победу в номинации.
Но, в итоге, получится "мы делили апельсин", при небольшом призовом фонде он размоется по большому количеству участников.
Плюс, если в призовом фонде есть майки и т.д., рассылать их для 3-х победителей, это не то же самое, что рассылать их для 8 победителей.
Минус пункта 2.2 ты же сам описал в соседней теме:
Судья, ставящий всем высокие оценки, поднимает всем средний балл, а сам остается на месте, то есть опускается относительно других.
Решение известно - нормировка каким-либо способом.
Еще есть минус - возможность искусственного занижения оценок конкурентам, решается отбрасыванием экстремумов.
Есть еще вариант голосования, как на любой премии - прямое голосование за победителя. Каждый судья голосует за одну(две, три, маленькое число). Игра с наибольшим количеством голосов побеждает, остальные не у дел. Для повышения объективности можно проводить в несколько этапов (лонглист-шортлист-номинация-победитель).
Отлично сочетается с пунктом 3.3, убирая его минус с суммированием - просто раздаем призы в каждой номинации, e.g.:
- Лучшая картинка (15% призового фонда)
- Лучший звук (15% призового фонда)
- Лучший геймплей (15% призового фонда)
- Лучшее соответствие теме (20% призового фонда)
- Лучшая игра конкурса (35% призового фонда)
Тема в архиве.