monobogdan
Как ты иерахию костей будешь перебирать в вершинном шейдере то?
Например у персонажа 140 костей.
Я хочу повернуть туловище, выставить ногу вперед и поднять левую руку и согнуть спину.
Такой анимации нет.
Я её скомбинирую из 4 анимаций.
ronniko
Замерь, сколько времени у тебя тратится на перемножение матриц и сколько на другие дела, скорее всего, матрицы - это копейки
Intel уже давно всё сделал, но для мажоров. А нищебродов они шлют... вычислять матрицы ручками - https://habr.com/ru/articles/807033/
1Man1
> и сколько на другие дела, скорее всего, матрицы - это копейки
У него там человекогоды тратятся на реализацию сравнения строк, а ты про матрицы,...
Вот о чем и я говорил.
AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids).
Для чисел в формате bfloat16 скорость умножения двух матриц размером 32x16 занимает 16 процессорных тактов. Что составляет 3.7 TFLOPS для частоты 3.9 GHz. Это в 16 раз больше того, что можно достичь при использовании AVX-512 в формате float32.
А вы меня не слушаете и не слышите.
Я то знаю, где собака зарыта. Точнее 40 000 собак.
ronniko
для серверов и моделирования нейросетей
и моделирования нейросетей
Так они набирают популярность очень быстро.
ronniko
> А вы меня не слушаете и не слышите.
Ты до конца прочитай, штоли....
Причины низкой эффективности
Если кратко - AMX слишком быстрый для текущего размера кэша L1-L2 и пропускной способности L3 и основной памяти. В серии процессоров Xeon Max со встроенной высокоскоростной памятью HBM, эти проблемы в значительной мере устранены, однако проверить лично я этого пока к сожалению не могу. Лишь для Xeon Max AMX может раскрыть свой потенциал, однако эти процессора редки, да и ценник на них не совсем гуманный, мягко говоря.
Это все лирика.
Чем больше процов продадут с AMX, тем каждый проц выйдет по себистоимости дешевле.
Это законы рынка.
А вот это вери гуд. Хороший потенциал.
AMX слишком быстрый для текущего размера кэша L1-L2 и пропускной способности L3 и основной памяти.
ronniko
> Чем больше процов продадут с AMX, тем каждый проц выйдет по себистоимости дешевле.
И этот поц ещё будет учить Intel зарабатывать деньги.
ronniko
> Так они набирают популярность очень быстро
Ошибка вообще моделировать нейросети на Фон-Неймановском компьютере
ronniko, ты просто первую матрицу храни сразу в расшаффленном виде
И тогда у тебя количество команд на одно умножение упадет до 32 :)
Dmitry_Milk
ты просто первую матрицу храни сразу в расшаффленном виде
Я это знаю.
Но не всегда так бывает удобно делать.
Теже матрицы костей и иерархия скелетной анимации.
Dmitry_Milk
Надо множить в цикле, 16 дотов
ronniko
> иерархия скелетной анимации
Если иерархия - значит матрицы "родительских" костей переиспользуются. А это значит, что расшафленные значения можно сохранить в неиспользуемых регистрах (умножение двух произвольных матриц "в лоб" занимает всего 64 команды и 2 регистра), и не расшафливать для каждой "дочерней" матрицы значения из "родительской".