ФлеймФорумОбщее

Вопросы (2151 стр)

Страницы: 12150 2151 2152 21532558 Следующая »
#32250
(Правка: 16:00) 15:56, 10 июля 2024

monobogdan
Как ты иерахию костей будешь перебирать в вершинном шейдере то?
Например у персонажа 140 костей.
Я хочу повернуть туловище, выставить ногу вперед и поднять левую руку и согнуть спину.
Такой анимации нет.
Я её скомбинирую из 4 анимаций.

#32251
15:57, 10 июля 2024

ronniko
Замерь, сколько времени у тебя тратится на перемножение матриц и сколько на другие дела, скорее всего, матрицы - это копейки

#32252
15:58, 10 июля 2024

Intel уже давно всё сделал, но для мажоров.  А нищебродов они шлют...  вычислять матрицы ручками  - https://habr.com/ru/articles/807033/

#32253
15:59, 10 июля 2024

1Man1
> и сколько на другие дела, скорее всего, матрицы - это копейки

У него там человекогоды тратятся на реализацию сравнения строк, а ты про матрицы,...

#32254
(Правка: 16:07) 15:59, 10 июля 2024

Вот о чем и я говорил.

AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids).

Для чисел в формате bfloat16 скорость умножения двух матриц размером 32x16 занимает 16 процессорных тактов. Что составляет 3.7 TFLOPS для частоты 3.9 GHz. Это в 16 раз больше того, что можно достичь при использовании AVX-512 в формате float32.

А вы меня не слушаете и не слышите.
Я то знаю, где собака зарыта. Точнее 40 000 собак.

#32255
16:04, 10 июля 2024

ronniko
для серверов и моделирования нейросетей

#32256
16:04, 10 июля 2024

и моделирования нейросетей

Так они набирают популярность очень быстро.

#32257
16:06, 10 июля 2024

ronniko
> А вы меня не слушаете и не слышите.

Ты до конца прочитай, штоли....

Причины низкой эффективности

Если кратко - AMX слишком быстрый для текущего размера кэша L1-L2 и пропускной способности L3 и основной памяти. В серии процессоров Xeon Max со встроенной высокоскоростной памятью HBM, эти проблемы в значительной мере устранены, однако проверить лично я этого пока к сожалению не могу. Лишь для Xeon Max AMX может раскрыть свой потенциал, однако эти процессора редки, да и ценник на них не совсем гуманный, мягко говоря.

#32258
(Правка: 16:11) 16:07, 10 июля 2024

Это все лирика.
Чем больше процов продадут с AMX, тем каждый проц выйдет по себистоимости дешевле.
Это законы рынка.

А вот это вери гуд. Хороший потенциал.

AMX слишком быстрый для текущего размера кэша L1-L2 и пропускной способности L3 и основной памяти.

#32259
16:36, 10 июля 2024

ronniko
> Чем больше процов продадут с AMX, тем каждый проц выйдет по себистоимости дешевле.
  И этот поц ещё будет учить Intel зарабатывать деньги.

#32260
17:11, 10 июля 2024

ronniko
> Так они набирают популярность очень быстро
Ошибка вообще моделировать нейросети на Фон-Неймановском компьютере

#32261
17:23, 10 июля 2024

ronniko, ты просто первую матрицу храни сразу в расшаффленном виде

+ Показать

И тогда у тебя количество команд на одно умножение упадет до 32 :)

#32262
17:26, 10 июля 2024

Dmitry_Milk

ты просто первую матрицу храни сразу в расшаффленном виде

Я это знаю.
Но не всегда так бывает удобно делать.
Теже матрицы костей и иерархия скелетной анимации.

#32263
17:26, 10 июля 2024

Dmitry_Milk
Надо множить в цикле, 16 дотов

#32264
17:33, 10 июля 2024

ronniko
> иерархия скелетной анимации

Если иерархия - значит матрицы "родительских" костей переиспользуются. А это значит, что расшафленные значения можно сохранить в неиспользуемых регистрах (умножение двух произвольных матриц "в лоб" занимает всего 64 команды и 2 регистра), и не расшафливать для каждой "дочерней" матрицы значения из "родительской".

Страницы: 12150 2151 2152 21532558 Следующая »
ФлеймФорумОбщее