Войти
ПрограммированиеФорумГрафика

Recursive Tile-based architecture (комментарии) (7 стр)

Страницы: 13 4 5 6 7 8 Следующая »
#90
14:02, 29 янв 2022

innuendo
Ну и если говорить конкретно, то были у меня забавные конкурент, которые пытались победить связкой софтварного рейтрейсинга и фильтрации. На этот случай, я за год до начала их проекта шлёпнул демку на юнити с кучей разнородных отражений, источников света и т.п. которая это всё тянула в большем разрешении, качестве и частотой - при том, что мы практически не парились оптимизацией.
Особо доставляли заказчики со следующими требованиями:
- рейтрейсинг должен применяться к существующим продуктам и улучшать их.
- потребление энергии должно быть ниже, это приоритет номер один.
- разбираться в том, что вы делаете нам недосуг: некомпетентные люди так же важны, как и компетентные.

#91
14:10, 29 янв 2022

Mobile Developer
> Шоты/видео есть?

верь на слово :)
не помню, может в гите анрила осталось
ещё раз - там opencl на gpu, точнее compute shader из-под vulkan

#92
14:11, 29 янв 2022

/A\
> В чем-то они обгоняют нвидию
Тут тупо маркетинг: показывать жёсткие тени на растеризации и говорить, что это их специфика это обман заказчиков и потребителей. Ко всем остальным эффектам это тоже относится.

Всё что они тут показывают можно было сделать много лет назад на том же Юнити. Говорю так, потому, что мы как-то одних мошенников разоблачали. Воспроизвели всё это богатство из демки имаджинейшена за две недели, из которых неделя ушла на разработку плагинов, т.к. покупать их в рамках корпорации было бы слишком долго.

Правда те мошенники были совсем откровенными:
https://www.youtube.com/watch?v=AJ7eQlEhZ6o

+ Показать
#93
14:12, 29 янв 2022

innuendo
> ещё раз - там opencl на gpu, точнее compute shader из-под vulkan
Да я прямо с разработчиками этого рейтрейсинга из АМД работал.
Не, это дохлый путь. Для оффлайна - да. Так же как и оптик от нвидии.

#94
14:16, 29 янв 2022

Mobile Developer
> Ко всем остальным эффектам это тоже относится.
А как они сделали размытые отражения без шлейфов? Отрендерить в офлайне было бы слишком палевно.

#95
14:32, 29 янв 2022

Mobile Developer
> Да я прямо с разработчиками этого рейтрейсинга из АМД работал.

из какого отдела? как звать ?

#96
(Правка: 14:36) 14:34, 29 янв 2022

/A\
> А как они сделали размытые отражения без шлейфов?
Да не, я вполне уверен, что это сделано на рейтрейсинге: видно же, что трассируют, а затем фильтруют. Это вполне возможно. Просто то же самое на растеризации: 1. будет выглядеть так же или лучше (денойзер не требуется), 2. будет несопоставимо энергоэффективней. 3. универсальней (уже десять лет есть у всех).
Что они с отражениями показали - плоские? Это какая-то новость?
Изображение
(способов, понятное дело, можно штук много предложить, это просто пример).

Рейтрейсинг нужен для создания новых фич, которые на растеризации сделать нельзя: он дороже растеризации и не должен её подменять.

P.S.
Можно ещё посмотреть 0:54 - под человечком АО нет, а на всей сцене есть.

#97
14:35, 29 янв 2022

innuendo
но-но!

#98
14:54, 29 янв 2022

Mobile Developer
> денойзер не требуется

какой ? RadeonPro? :)

#99
15:27, 29 янв 2022

Mobile Developer
> В публичной сфере ничего подобного нет, как и намёков на такое. И существующие патенты и статьи на эту тему мы анализировали в огромных количествах.
Да ладно. Ну вот тебе схематический код пересечения луча с AABB:

+ Показать

Ты утверждаешь что ты придумал что-то радикально лучше? Или это и есть сакральная математика, недоступная в публичном пространстве?
> Речь шла про акселерационную структуру.
Даже если у тебя в листьях AABB-дерева по 8 треугольников - на 8 треугольников получается 12 байт, в которых в условиях бинарного дерева нужно сохранить 2 AABB. Байт на координату позиции - ну ладно, можно, но тогда тут не учтен объем трансформов, которые это будут обеспечивать, и еще с такой дискретизацией тебе постоянно надо будет перетрансформировать луч, и траверс будет ощутимо дороже. К тому же, тут опять таки нет ничего радикально нового - глупо предполагать что NVidia/AMD не исследовали подобные варианты и не внедрили их в свои решения в некотором целесообразном виде.
> Представь, что у тебя 100 модулей, на каждом в среднем по 10кб (предлагалась дифференцированная схема с несколькими группами памяти)
Так все таки каждый модуль только со своей собственной частью кеша взаимодействует, и, следовательно, только с определенной частью BVH? Дорогой, ну у тебя же все упрется в один модуль, который будет обрабатывать пересечение с корнем структуры :)
> Которая не обеспечит полезного рейтрейсинга на мобилах, а на десктопах обеспечит в десятки раз меньшую, на ватт.
Это очень сильное заявление, далеко не очевидное и ничем не подкрепленное. Да, в AMD нет специализированных блоков, ускоряющих именно траверс, только быстрые пересечения, но у них есть быстрые вычислителные юниты, развитая система кешей и т. п., которые при сравнении с конкретным специализированным RT-блоком могут работать даже лучше него, особенно если пойдет разговор про гибкость сценария траверса (привет DXR 1.1 и inline raytracing). В это время к твоему дизайну пока что очень много вопросов.
> Масштабируемый рейтрейсинг с производительностью достаточной для эффективной помощи в деле глобальной иллюминации?
Да-да, а новейшие RT-ядра в видеокартах NVidia решают все проблемы фотореалистичного рендеринга. Это просто рекламный слоган. Я спрашиваю про техническую деталь, которая делает твое решение лучшим, чем существующие. Пока что по сути ты просто пообещал, что у тебя математика лучше чем у других, BVH у тебя тоже лучше чем у других, и все это работает в специализированных блоках, которые тоже лучше чем у NVidia. Не вопрос, может ты непризнанный гений, который придумал то, что не осилила NVidia, потратив десятки тысяч попочасов исследователей мирового уровня. Но в такой ситуации слова джентельмена будет маловато. Да даже если ты расскажешь весь материал от корки до корки - этого тоже скорее всего не хватит: рейтрейсинг - очень непредсказуемая нагрузка, и реальную производительность можно увидеть только если запустить много разноплановых RT-задач на чипе, изготовленном по твоему дизайну.

#100
15:50, 29 янв 2022

phridrich
> Да ладно. Ну вот тебе схематический код пересечения луча с AABB:
Он флоатный и очень сильно избыточный.

> тебе постоянно надо будет перетрансформировать луч, и траверс будет ощутимо
> дороже
Да, ты прав, действительно ничего не придумали.

>исследовали подобные варианты и не внедрили их в свои решения в некотором целесообразном виде
Без патента? Ну если выяснится - будут платить.

>Так все таки каждый модуль только со своей собственной частью кеша взаимодействует, и, следовательно, только с определенной частью BVH? Дорогой, ну у тебя же все упрется в один модуль, который будет обрабатывать пересечение с корнем структуры :)
Я много раз говорил, что TLAS считается на CS. Он небольшой.
Кроме того, ничего не мешает дублировать особо нагруженные юниты: распределение дерева по ним это отдельная история.

>ускоряющих именно траверс, только быстрые пересечения, но у них есть быстрые вычислителные юниты, развитая система кешей и т. п., которые при сравнении с конкретным специализированным RT-блоком могут работать даже лучше него
Нет конечно. Это заведомо крайне низкоэффективная структура для рейтрейсинга. Специализированные модули не просто так нужны, это не прихоть, а обязательное требование для реалтаймового рейтрейсинга, и уж тем более для мобил, где разница в энергопотреблении в сотню раз где-то будет, между CS и эффективным решением.

>Я спрашиваю про техническую деталь, которая делает твое решение лучшим, чем существующие.
Десяти-стократный рост эффективности, в зависимости от скопа технологий, с которым идёт сравнение.

>Но в такой ситуации слова джентельмена будет маловато
Да я особо признания не ищу, занимаюсь своими делами и наблюдаю за происходящим.
Смысл всё равно такой, что рейтрейсинг на мобилах взлетит либо при каком-то качественном росте производительности мобильных чипов, либо по предложенному, защищённому патентами, методу. В остальных вариантах он останется игрушкой, на мобилах.

#101
16:18, 29 янв 2022

phridrich
Mobile Developer
всё это трололо и блаблабла - давайте конкретные примеры

#102
16:41, 29 янв 2022

Mobile Developer
> Ну и получишь дико ригидную структуру без ветвлений.
Гипертрединг — это не SIMD, у каждого потока своя независимая инструкция. Более того, внезапный бранч на случайный адрес не дает дополнительных штрафов вследствие отсутствия предсказателя ветвлений. В общем, это именно та архитектура, которая идеально ложится на стохастический рейтрейсинг.

Кстати, ты упомянул специализированные блоки BVH и обработки треугольников, но ведь после этого надо для каждого найденного пересечения запустить шейдер материала и существующие SIMD блоки тут плохо подходят. Не, можно, конечно, везде использовать один материал, но даже грузить текстуры по нескоррелированным координатам будет дорого.

> Десяти-стократный рост эффективности, в зависимости от скопа технологий, с которым идёт сравнение.
От того, что ты заменишь стандартный ALU на специализированный целочисленный вычислительный блок, ты улучшения на порядок не получишь. В лучшем случае раза в два, и это без учета обвязки, которая станет только сложнее за счет увеличения количества вычислительных блоков. В общем, ценой серьезного увеличения транзисторного бюджета, ты получишь увеличение производительности на 10–50%. А что будет с энергопотреблением, вообще, непонятно: усложнение обвязки и простаивающие ALU могут съесть весь потенциальный выигрыш.

> Смысл всё равно такой, что рейтрейсинг на мобилах взлетит либо при каком-то качественном росте производительности мобильных чипов, либо по предложенному, защищённому патентами, методу.
Опыт показывает, что настоящий расцвет технологий наступает только после истечения патентов на них.
Так что наличие большого количества разных патентов на технологию — это еще одна причина того, что "не взлетит".

#103
(Правка: 16:56) 16:50, 29 янв 2022

Mobile Developer
> Без патента? Ну если выяснится - будут платить.
А почему ты думаешь, что ты в этом был первым? NVidia исследования аппаратного рейтрейсинга начала 10 лет назад. Не говоря уже о том, что конкретно в огрублении дискретизации вершинных данных ничего нового нет в принципе, и запатентовать тебе это попросту не дадут.
> Я много раз говорил, что TLAS считается на CS. Он небольшой.
BLAS'ов это тоже касается. Все упрется в корень.
> Кроме того, ничего не мешает дублировать особо нагруженные юниты: распределение дерева по ним это отдельная история.
Ну тогда уже твое предложение с простым размещением BLAS'а в кеше перестает работать. Ну и плюс транзисторы/энергия на шедулинг, и латентность кеша увеличивается.
> Это заведомо крайне низкоэффективная структура для рейтрейсинга.
Смотря с кем сравнивать. С NVidia - да, там из того что я слышал - происходит некая сортировка лучей, естественно в железе она будет круче, чем можно в CS сделать. Но вот на счет блоков, которые ты описал - что ты по существу в них делаешь? Грузишь память, выполняешь пересечение. Так и RDNA2 грузит память и выполняет пересечение. У тебя быстрый кеш под BLAS? Так у RDNA2 тоже кеш; да, он гибкий и больше твоего, будет медленнее чем то что ты описал, но то что ты описал имеет проблемы с упором в корень структуры, который ты сам признал - после доработки еще неизвестно, что получится. При этом не стоит забывать, что блоки общего назначения могут работать всегда, тогда как твоим блокам нужна отдельная площадь на чипе, которая будет простаивать в не-рейтрейс задачах. Так что получается, что на стороне RDNA2 будет еще и численное превосходство, так как они на одинаковой площади уместят больше исполняемых процессоров.
> Десяти-стократный рост эффективности
Это маркетинговые цифры. Тут нет какой-либо оптимизации, удачной аппроксимации, какого-либо новейшего алгоритма, чтобы увидеть их и сказать - да, по любому это всех порвет. Просто попытка упрощенно реализовать RDNA 2 в специализированных блоках, причем в этих упрощениях куча проблем. Тут рост даже по сравнению с AMD не очевиден, не говоря уже про NVidia.
> Да я особо признания не ищу
Я не говорил о признании. Но ты вроде как статью написал, отвечаешь тут в комментариях - это для того чтобы поделиться информацией или просто похвастаться? Просто информацией то ты особо не поделился пока что. Ну а без нее заявления о квантовом превосходстве доверия не внушают.

#104
16:55, 29 янв 2022

}:+()___ [Smile]
>Гипертрединг — это не SIMD...
А, не разглядел гипертрейдинг.
Не понял, как он тут поможет.
>ведь после этого надо для каждого найденного пересечения запустить шейдер материала
Противоречие с предыдущим пунктом.
Если говорить практически, то такая проблема да, есть априори, независимо от способа реализации рейтрейсинга. Предположу, что текстуры в таком случае идут лесом - будет браться материал объекта целиком.
>От того, что ты заменишь стандартный ALU на специализированный целочисленный вычислительный блок, ты улучшения на порядок не получишь.
Конечно, для этого предназначен комплекс мероприятий, которые друг без друга не работают. Каждый в несколько раз улучшает производительность и поддерживает другую оптимизацию.

>В лучшем случае раза в два
Намного больше. Там же не 32 битные переменные используются.
>В общем, ценой серьезного увеличения транзисторного бюджета, ты получишь увеличение производительности на 10–50%.
Ты сейчас о чём-то своём думаешь. Живёшь в старой неработающей парадигме.
Простаивание ALU не потребляет энергии. И обвязка там тоже неправильно понимается. Это отдельный модуль, он связан с обычными компутюнитами только командной шиной.
>Так что наличие большого количества разных патентов на технологию — это еще одна причина того, что "не взлетит".
Ну значит я убийца мобильного рейтрейсинга на сколько-то там лет :)

Страницы: 13 4 5 6 7 8 Следующая »
ПрограммированиеФорумГрафика