

Екипът за реч на Tongyi Lab на Alibaba пусна два нови модела — Fun-CosyVoice3.5 и Fun-AudioGen-VD — и двата поддържащи генериране на глас на базата на инструкции „FreeStyle“ чрез команди на естествен език.
Според Alibaba Group, моделите позволяват на потребителите да генерират и контролират гласов изход директно чрез текстови подкани – независимо дали фина настройка на вокалното изразяване или проектиране на изцяло нови тембри и звукови пейзажи от нулата. Въпреки че и двата модела поддържат синтез на реч, контролиран от естествен език, те са насочени към различни случаи на употреба: Fun-CosyVoice3.5 се фокусира върху многоезично гласово клониране и фино експресивен контрол, докато Fun-AudioGen-VD се фокусира върху гласовия дизайн и поглъщащото аудио генериране на сцена.
Fun-CosyVoice3.5 надгражда възможностите на Instruct-TTS на компанията, позволявайки на потребителите да генерират реч свободно с едно изречение инструкция. Потребителите могат да опишат стила на предаване на естествен език – като „звучи по-решително“, „намалете леко тона и забавете темпото“ или „добавете фина емоционална вариация“ – и моделът интерпретира и изобразява желания ефект.
Сега моделът добавя поддръжка за тайландски, индонезийски, португалски и виетнамски. Alibaba твърди, че на 13 езика Fun-CosyVoice3.5 поддържа водеща в индустрията производителност в показателите за степен на грешка в думите (WER) и подобие на говорителя (SpkSim). Той също така е оптимизиран за редки знаци и сложни изречения, като намалява процента на неправилно произношение на необичайни знаци от 15,2% на 5,3%, като същевременно осигурява по-стабилна производителност при текст с дълга форма.

Чрез фина настройка, базирана на обучение за подсилване, моделът подобрява цялостната естественост и изразителното наслояване. От страна на производителността, честотата на кадрите на токенизатора е намалена наполовина, а латентността на първия пакет намалена с 35%, позволявайки по-бързи отговори и по-гладко преживяване в сценарии на взаимодействие в реално време.
Междувременно Fun-AudioGen-VD позволява на потребителите да генерират не само гласове, но и пълни звукови сцени, базирани на описания на естествен език – интегриране на характер и среда в унифициран изход.
Моделът поддържа детайлен контрол върху:
- Основни атрибути: пол, възраст, акцент, височина, скорост на речта
- Качества на тембър: дрезгав, ярък, дълбок, магнетичен
- Емоции: гняв, тъга, вълнение, решителност
- Симулация на роли: агент за обслужване на клиенти, ветеран, дете, AI асистент, телевизионен оператор
- Сложни психологически състояния: нюансирани изрази като „спокоен на повърхността, но треперещ отвътре“

Отвъд генерирането на глас, Fun-AudioGen-VD може да създава завладяващи звукови среди, включително наслоен фонов шум (градски улици, кафенета, бойни полета), пространствени реверберационни ефекти (катедрали, метални клетки, подводна акустика), аудио филтри в стил устройство (ретро радио, уоки-токи, дихателна маска) и динамични взаимодействия на околната среда, като променлив шум от вятъра или преместване ехо.
Заедно, двата модела сигнализират за продължаващия стремеж на Alibaba към контролируемо, висококачествено генериране на реч и аудио – разширявайки границите на управляваното от AI гласово взаимодействие и създаването на потапяща медия.
Източник: IT Home
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта
