Ну да, это я для тех, кто ошибочно ориентируется только на красивые рисунки из восторженных статей. :)
Вот что реально не хватает, так это как в нейросети GauGAN2 от NVIDIA можно обозначить то место, где будет генерация (там дерево - здесь человек). Это нужно для того, чтобы лучше контролировать композицию.
GDR
> Ну да, это я для тех, кто ошибочно ориентируется только на красивые рисунки из
> восторженных статей.
Просто там они умалчивают, что сначала картинка выбирается из 10,000 вариантов с тщательно выверенным промптом, после чего картинка дополнительно доводится нейросетью через img2img, чтобы избавиться от косяков.
711
Всё это есть - img2img
Интереснее было бы посмотреть кол-во исходников по лексемам, чтобы знать по каким тематикам сеть хорошо обучена, а по каким не очень (танки - явно, недообучена).
GDR
> танки - явно, недообучена
Да? Странно, вроде бы по аниме/мангам как раз проще всего было бы научить.
GDR
> Да? Странно, вроде бы по аниме/мангам как раз проще всего было бы научить.
Ощущение такое как будто по аниме тегам оно обучено еще году в 2010-м гуглом на оригинальной нейросетке.
Тогда просто тохо бум был и количество пикч по нему было огромным.
Год сам по себе значения не имеет, но да, если исходники выбран неудачно (а тупая выборка первых 1000 картинок по одному ключевому слову - это почти всегда неудачно), то будут вот такие эффекты.
По аниме проще, потому что ниша очень удачная - несколько десятков основных популярных наименований, большой датасет картинок неплохого (для своего жанра) качества и анализа. В отличие от советских мультиков, наверное.
Для НС хорошо соотношение keyword-data, грубо говоря, 30-70*200-1000, а не 5*1000 или 100*50.
arte_de_mort
> Вроде ж балдёжно генерит, или я чего-то не понимаю?
Да нормально генерит, зависит от поисковой строки и что хочется получить.
Просто доп.обработка нужна (неправильное ухо, недорисованное ожерелье, оторванная рука и т.д.)
arte_de_mort
> Вроде ж балдёжно генерит, или я чего-то не понимаю?
Это не совсем аниме стилистика. Это скорее скормленные аниме контуры обрисованные художественно, с чем оно справлется хорошо.
В дискорде дифьюжна много всякого аниме генерят, типа таких :) Вроде там ещё форк сделали под вайфу дивьюжн, значит скоро будет хорошо натренированный вайфу генератор.
arte_de_mort
> В дискорде дифьюжна много всякого аниме генерят, типа таких :)
хм, может проблема в обрезанном для памяти стейбл дифьюжне и туда просто не попало обучение
на современной аниме стилистике, поэтому оно и выдает 2005-ый год и тоху? :)
У тебя скорее всего промпты просто кривые, делай лучше! :)
Я в основном более детальные портреты пробовал, поэтому по аниме не знаю хороших промптов.