Войти
ЗвукФорумОбщее

Синтез речи из готовых фраз (2 стр)

Страницы: 1 2 3 Следующая »
#15
12:15, 22 янв 2024

Dmitry_Milk
> То есть ради только превращения текста в речь тебе придется отожрать много
> процессора и памяти.
Между прочим, это же можно делать разового.
То есть, есть БД в которой все вот это хранится [обьект][субьект][персонаж]. Вовсе не обязательно забивать ее данными полностью еще до начала игры. Равно как и не надо генерить фразу каждый раз. Заполнять базу можно постепенно, по требованию игрока. То есть в случае когда игра пытается сформировать фразу и у нее чего-то не хватает, она обращается к генератору, тот генерит модуль и модуль записывается в БД для дальнейшего использования. И в следующий раз игра возьмет уже готовый модуль.

Впрочем, всем на это наплевать.

#16
10:29, 4 апр 2024

Спустя много времени я понял что мне нужен не синтезатор голоса, к просто читалка. Которая читает текст. Разными голосами.

Может есть у кого понимание как это делается?

Ну и еще раз не могу не отметить потрясающую живость это раздела.

#17
11:45, 4 апр 2024

Ren
Наговаривается/записывается звучание пяти тысяч слогов. Текст разбивается по слогам, из словаря расставляются ударения. На основе знаков препинания, близости к началу/концу предложения и ударений добавляются модификаторы темпа. После чего можно воспроизводить.

#18
(Правка: 12:53) 12:27, 4 апр 2024

Ren

Может есть у кого понимание как это делается?

Есть.
Но не на сетях, а на фонемах.
Попозже выложу примеры(уже неоднократно выкладывал, но стёр за ненадобностью.) и как это делается.
Вся беда любых синтезаторов, на нейро-сетках ли и на фонемном синтезе ли, заключается в правильном определении (снятии омонимии) омографов (подкласс омонимов).
ЗАмок-замОк, СкалЫ-скАлы, пОлы(плаща)- полЫ(в помещении)
"По улице шла девушка с косой."
В своё время я решил эту задачу.
Но вот в чём дело - разработчики зашорены и не видят что справа, что слева. Они хреначат и хреначат...
Не в одном(современном) движке нет инструмента для коррекции ударений, а есть только коррекция SAMPA - написание звучания(трудно воспроизводимых сочетаний и слов 'значками' в понятиях фонетики. - понятно в чего это всё выливается?
Одно дело фразу, или абзац откорректировать, другое дело объёмный текст.

+ Показать

Вообще это дело муторное - фонемный синтез.
Не знаю как на нейронках, но тоже дело муторное в смысле обучения. - в принципе то же самое, но вид с боку на одно и то-же яйцо.
В своё время делал методы спектрального и последовательного анализа, вейвлет преобразование, самоорганизующиеся карты Кохонена - не пригодились(карты и вейвлет преобразование).
Всё сохранилось но всё в delphi - портировать, думаю, не составит труда.
Не ржать https://disk.yandex.ru/d/H8Utaw69h5LKE это моя самая первая программа которую я написал. Она про ударения.

+ Показать

P.S.
Редактор заточен под https://disk.yandex.ru/d/nQF8Euog-1KduA
и под мою разработку.
Разумеется по другие голоса не подходит - везде своя специфика, кроме 'ё' и омографов.
P.S.

+ Показать
#19
12:44, 4 апр 2024

Ren
> мне нужен не синтезатор голоса, к просто читалка

Так читалка это синтезатор, чем он еще может быть, если у тебя исходные данные только текст?

Либо ты неверно сформулировал свою мысль, и у тебя есть (или может быть) аудиозапись, пусть даже одним голосом. Тогда изменить тембр голоса (не под конкретный, а просто, скажем, из женского сделать мужской или детский) - это другая задача, которую можно решать гораздо проще, например, гранулярным ресинтезом.

#20
(Правка: 12:57) 12:53, 4 апр 2024

flint2
> Вся беда любых синтезаторов, на нейро-сетках ли и на фонемном синтезе ли
Мне нужен максимально упрощенный вариант, чтобы интегрировать его в свой проект. По сути мне нужно чтобы персонажи говорили стандартные фразы "Да, капитан", "Ремонт завершен", "Пробоина по правому борту" разными голосами.

flint2
> понятно в чего это всё выливается?
я это делал вручную. В моей теме осталось видео где "электронный болван Мелисса" говорит фонетически верные фразы. То есть я каждую фразу шлифовал значками. Это я могу сделать еще раз. Если каждый голос будет читать фонетически одинаково. Шлифовать на каждый голос и на каждый голос записывать константую фразу - по моему овердохера.

Это как загонять таблицу умножения в константы.

flint2
> Я тебя боюсь!
> Ты колдун?
У меня большой опыт поведения индивидуумов в инете. Не даром я тебе намекнул про клан - ведь в первую очередь это сообщество самых разных людей, а задача лидера сделать так чтобы всем им в куче было комфортно друг с другом))

#21
12:55, 4 апр 2024

Dmitry_Milk
> Либо ты неверно сформулировал свою мысль, и у тебя есть (или может быть) аудиозапись, пусть даже одним голосом
Ты то должен знать мой проект и, соответвенно, мои задачи.

А подход я стараюсь менять чтобы добиться результата небольшими усилиями, ведь у меня нет студии энтуазистов (и логтипа)

#22
13:00, 4 апр 2024

Zab
> Наговаривается/записывается звучание пяти тысяч слогов. Текст разбивается по слогам, из словаря расставляются ударения. На основе знаков препинания, близости к началу/концу предложения и ударений добавляются модификаторы темпа. После чего можно воспроизводить.
На каждый голос потратить по полгода?

Это и есть загнать таблицу умножения в константы.

#23
(Правка: 14:11) 13:39, 4 апр 2024

Ren

Мне нужен максимально упрощенный вариант, чтобы интегрировать его в свой проект. По сути мне нужно чтобы персонажи говорили стандартные фразы "Да, капитан", "Ремонт завершен", "пробоина по правому борту"

"пробоина по правому борту"

В Кейптаунском порту с пробоиной в борту
"Жанетта" поправляла такелаж
Но прежде, чем уйти в далекие пути
На берег был отпущен экипаж

Плёвое дело! Надеюсь помогу.
Ren

разными голосами.

А вот дело сложнее!
Все голоса сделаны с разным качеством.(не бит-райт и дискретизация) они изначально в разных условиях записывались.
Равнозначных нет! - будет диссонанс по ушам бить и подкорочке.
(Ведь мы же художники!)
Думаю, но это не точно, голосовые (TTS) движки не подключать!
Пошло это всё.

+ Показать

Да, я подключал озвучивание титров сериала Аттенборо и всё работает.
Причём, раньше движки были с настройкой:

+ Показать

И не все читалки это могут.
В смысле "stress", "pronounce".
И не в сетях дело то, а в понимании дела.

На счёт изменения "тембра" и других параметров, чтоб сделать мужской из женского - полная чушь.
Человек не в теме. отличаются даже произношения окончаний(начиная с гласной) и в середине слова. - будем спорить?

Я тоже думал тексты озвучивать для своих поделок....
Не так всё просто.  - не в смысле привинчивания движка. - таких нет, а что есть говно(даже на сетках).
Дело в том, как это коряво всё будет выглядеть.

+ Показать
#24
(Правка: 13:58) 13:50, 4 апр 2024

flint2
> А вот дело сложнее!
> Все голоса сделаны с разным качеством.
А если записать два голоса мужской/женский и применить генерируемые настройки: скорость, артикуляция, светофильтры.
С учетом того что это должна быть не сильно сложная програмка, она же совершенно вторичная.

Сейчас в корабле пять  перцев, хочется чтоб они отличались по голосам.

#25
14:48, 4 апр 2024

Ren

А если записать два голоса мужской/женский и применить генерируемые настройки: скорость, артикуляция, светофильтры.

"светофильтры" -  FFT -Фурье?

+ Показать

Моя твоя не понимать.
Сам то понял чего говоришь?
"пять  перцев," дело плёвое по голосам развести, только где мужские голоса найдёшь достойные. - я писал, что женские не подходят. (по половой ориентации) - не так гласные с согласными строятся.

скорость, артикуляция, светофильтры.

Может я отстал, но сейчас я не видел подобных движков чтоб с API на
"SpellingLevel"="pronounce"
"ProsodicPauses"="punctuation"
"ShortPauseLenght"=....
"PitchUserScale"=....
"SpeedUserScale"=.....
"TimbreUserScale"=.....
Вопрос сложный и простой.
Бросай это дело с озвучкой.
Уверяю - ничего хорошего не получится.

+ Показать
#26
15:39, 4 апр 2024

flint2
> "светофильтры" -  FFT -Фурье?
Ну звукофильтры. Высокие/низкие, альфа/бета, квинта/сикста, мажор/минор. Тебе лучше знать.

Случайно генеришь параметры голоса для  голоса персонажа.

Прогоняешь фразу через синтезатор, руками правишь фонетику.

function голосовое сообщение («отказ системы управления», голосом с параметрами {…})

Соответсвенно вопросов два. Есть ли понимание как это реализовать? И как реализовать не_сложно

#27
(Правка: 18:08) 17:18, 4 апр 2024

Ren, склифасовский!
Ну барин, ты и задачи ставишь.
Про Фурье:https://disk.yandex.ru/d/WH458Y0CgFh_0g
Или не о том?
(Перетащить mp3 на окошко. Дам тебе горошка. ))
С голосами чутка посложнее...
Не то что бы всё похерил...
Условно DB, с голосами вообще усечённая, а всё на старой железяке осталось...
Ну и не в этом дело!
Надо движок восстановить. - дело не лёгкое, будем попробовать.
(я с Фурье колупался минут сорок с +.)
Попробую сегодня чего то выдать.

+ Показать

P.S.
В принципе, можно и голосом Георгия Вицина озвучивать.
Пробовал, без ужимок и прыжков,  - не кисло получается!
Но дело сложное. Надо брать всё из коробки, конструктор, а иначе из трясины не вылезишь! - засасывает.

#28
(Правка: 18:10) 17:53, 4 апр 2024

Ren

альфа/бета, квинта/сикста,

Терция, кварта, гармония - ашь жуть, как люблю непонятные слова!
Ну ты барин, и задачу поставил, и я её  сейчас думаю. ))

#29
(Правка: 23:14) 22:08, 4 апр 2024

Ren
Ну ты брат даёшь!
Заставил на дыбы встать.

+ Показать

https://disk.yandex.ru/d/4ZynAxH-CIaQeQ
https://disk.yandex.ru/d/GwhZe_FVogh6eA
Разница есть и она очевидна.
А в чём фишка?
Голос скрипучий? - да.
Объяснять, как фазы стыкуются разных частот?
Почему скрипучий - потому что легче.

+ Показать
Страницы: 1 2 3 Следующая »
ЗвукФорумОбщее