arte_de_mort
Согласен, но как-то нереально звучит то, что нейросеть может самостоятельно выдавать результаты, которые осмыслены только человеком. Она может генерить фракталы, очень красивые но абсолютно бессмысленные, но чтоб самостоятельно добиться такого уровня интеграции в человеческий контекст...
Какие слова ты вводил для получения этих картинок ? Если не секрет )
Кстати, я тут на каких то бесплатных серверах пробовал заказать пиксель арт… не, не умеет )
711
> И тут возникает вопрос - существует миллионы предметов, и неужели её обучили
> всем признакам этих предметов и тем более тому как они должны взаимодействовать?
Конечно, нет. В смысле, конечно, миллионы, но конечно не всё (далеко не всё) существующее и тем более не все их комбинации. Есть картинки, к картинкам привязан набор лексем (девушка, украшения, гора, река, улыбка), НС "учится" (тут происходит многоитерационная магия НС) по картинкам с девушкой, по картинкам с девушкой и украшениями, по картинкам с девушкой, украшениями и улыбкой и т.д., и далее по запросу "улыбающая девушка с серёжками" "выдаёт" (тут происходит другая, более простая магия НС по выдаче подходящего результата - и, если нужно, в случае конкретного StableDiffusion - доп. обработка в виде стилизации, цветовая обработка и пр. эффекты) 4-8 наиболее "подходящих картинок". У подобных НСок есть и очевидные минусы - портреты и, наоборот, абстракции она выдаст хорошо, а вот большую картину с мелкии деталями (условное Бородино/Ватерлоо с кучей мелких людей) - выдаст гораздо хуже.
> Получается нейросеть обучили тому, насколько плечо выступает вперёд
> относительно головы на которой растут волосы ?
Нет, конечно, она понятия об этом не имеет. Как и о ключице, большеберцовой кости (кроме как на анатомических картинках скелетов), гравицапе, пепелаце, барабульке, бурбуляторе и многом другом. Просто на картинках волосы облегали и так сложились коэффициенты слоев НС.
> Исправить не проблема. Вопрос больше о пригодности данного софта в будущем.
> Насколько он контролируем ? Насколько он последователен ?
Я не художник, но думаю, что он пригоден уже в настоящем. Не для всего, не с первого, не без проверки/обработки, но более чем пригоден. С мнением художницы, что это "внесёт корректировки" в индустрию полностью согласен. При чём, наверняка, в первую очередь это начнётся на западе, а потом у нас. Про контролируемость и последовательность не понял. Запросы можно и нужно уточнять, собственно, этим щас все и будут заниматься. Если конкретная сборка предоставляет простой интерфейс для доп.обучения - то и им тоже.
P.S. Несколько сложнее эффекты типа "вырезать человека со скамейки", но это частично инструмент Stamp из Photoshop-a, частично та же НС (но тут ошибок будет сильно больше, наверняка).
GDR
"Про контролируемость и последовательность"
Здесь я имел ввиду арт для игр или мультфильмов. Например мне нужно тридцать персонажей в одном стиле и в определенном ракурсе.
711
> Согласен, но как-то нереально звучит то, что нейросеть может самостоятельно
> выдавать результаты, которые осмыслены только человеком.
Она ж на основе миллионов картинок делает, поэтому звучит разумно, что научилась находить и повторять закономерности.
Забыл уже какой промпт делал конкретно эти) На https://lexica.art/? можно посмотреть что народ вводит для того или иного результата.
Пиксель арт делают обходными путями, сначала сгенерить иллюстрацию, и потом уже вручную пикселизировать.
GDR
> С мнением художницы, что это "внесёт корректировки" в индустрию полностью
> согласен. При чём, наверняка, в первую очередь это начнётся на западе, а потом
> у нас.
Скорее всего различные азиатские контент-фермы уже вовсю пилят. Ты можешь за считанные минуты нагенерить всяких гиперреалистичных платьев, волос, портретов и т.п., дать художнику скомпозить, обрисовать, поправить, и в итоге у тебя за день-два готово то, на что уходило больше недели руками.
Если стиль - стиль рисунка, то без проблем. Если стиль как жанр, то будут проблемы, надо будет перебором.
Насчёт ракурсов - тем более, сомневаюсь, что у неё есть соответствующие эффективные настройки. Т.е. "сзади", "со спины", "полубоком", "лёжа", "стоя", "сидя" она, наверняка, поймёт (на английском), но вот взгляд и повоторот головы в одном направлении - как повезёт (скорее всего, придётся хитрить, делать много попыток, доп.обработку и т.д.)
arte_de_mort
> Скорее всего различные азиатские контент-фермы уже вовсю пилят.
Наверное. Но она умеет пока только 2D, этого мало. Землетрясение начнётся, когда она научится генерить 3D. :)
GDR
> Наверное. Но она умеет пока только 2D, этого мало. Землетрясение начнётся,
> когда она научится генерить 3D. :)
Многие аспекты 3д уже давно автоматизированы: болванки, симуляции ткани для складок, различные меш-паттерны и прочее, а для текстур - однокнопочные заготовки из сабстанс дизайнера. Плюс фотограмметрия. В итоге рывок там был бы не настолько дикий, как может показаться.
Это мелочи, но и они дали достаточно эффекта. Mixamo был бы более удачным примером.
Построение 3D по фото и по описанию, анимация по описанию или по видео/аналогии - вот чего следует ждать.
Уровень детализации поражает не меньше чем подбор цвета и освещения.
Я вообще не вижу больше смысла в художниках. Как минимум в фоновщиках.
Но думаю анимацию всё же ещё будут ручками делать. Как минимум 2D.
GDR
> Это мелочи, но и они дали достаточно эффекта. Mixamo был бы более удачным
> примером.
Наоборот. Миксамо - тупо библиотека, всё. Ты не можешь делать кастомный функционал под себя. С нормальным сабстансом ты можешь крутить несколько ползунков и получать бесконечное количество вариаций нужной текстуры.
Видимо, мы о разном. Substance Designer и пр. это хорошо (как и Михамо), но ни то, ни другое не является аналогом НС для генерации контента.
Мне кажется, чтобы лучше понять некоторые принципы работы нейросети, нужно вспомнить про морфинг. Раньше людям приходилось выделять масками контрольные места (глаза, линия роста волос, объем головы…) и анимировать эту маску между двумя соседними изображениями, где промежуточные фазы можно было считать случайной генерацией. Сейчас всё немного автоматизировано. Программа сама создаёт маску в этих местах и автоматически морфит вариации в определённых рамках а чтобы получить готовое изображение, то под эту маску она кладёт текстуру. Вот и вся генерация.
Реализация такой программы мож и сложна, но принцип простой. Главное научить её подсовывать нужные текстуры под эти маски.
просто мысли вслух, я вообще в этом ничего не понимаю.
Было бы гораздо интереснее посмотреть на то, как это видит сама программа, увидеть как она распределяет веса и их границы во время генерации людей и архитектуры
711
> Главное научить её подсовывать нужные текстуры под эти маски.
Это никакого отношения к нейросети не имеет. В смысле, сделать для этого специальную НС и обучить её можно, но к конкретной обсуждаемой Stable-Diffusion (и ей подобным) это никак не относится. Разве что к последней части - алгоритму штамповки. Таким же способом можно, например, "снимать" с лица очки (если чёрные - цвет глаз будет почти рандомный, конечно). По сути, это не создание (выдумывание), а техобработка.
711
> Было бы гораздо интереснее посмотреть на то, как это видит сама программа,
> увидеть как она распределяет веса и их границы во время генерации людей и
> архитектуры
Едва ли Вам что-то дадут эти тысячи цифр... Есть возможность просмотреть промежуточные результаты (визуально) - они будут более интересны.
Тема в архиве.