Alibaba Tongyi разкрива Fun-CosyVoice3.5 и Fun-AudioGen-VD с FreeStyle Voice Generation

Екипът за реч на Tongyi Lab на Alibaba пусна два нови модела — Fun-CosyVoice3.5 и Fun-AudioGen-VD — и двата поддържащи генериране на глас на базата на инструкции „FreeStyle“ чрез команди на естествен език.

Според Alibaba Group, моделите позволяват на потребителите да генерират и контролират гласов изход директно чрез текстови подкани – независимо дали фина настройка на вокалното изразяване или проектиране на изцяло нови тембри и звукови пейзажи от нулата. Въпреки че и двата модела поддържат синтез на реч, контролиран от естествен език, те са насочени към различни случаи на употреба: Fun-CosyVoice3.5 се фокусира върху многоезично гласово клониране и фино експресивен контрол, докато Fun-AudioGen-VD се фокусира върху гласовия дизайн и поглъщащото аудио генериране на сцена.

Fun-CosyVoice3.5 надгражда възможностите на Instruct-TTS на компанията, позволявайки на потребителите да генерират реч свободно с едно изречение инструкция. Потребителите могат да опишат стила на предаване на естествен език – като „звучи по-решително“, „намалете леко тона и забавете темпото“ или „добавете фина емоционална вариация“ – и моделът интерпретира и изобразява желания ефект.

Сега моделът добавя поддръжка за тайландски, индонезийски, португалски и виетнамски. Alibaba твърди, че на 13 езика Fun-CosyVoice3.5 поддържа водеща в индустрията производителност в показателите за степен на грешка в думите (WER) и подобие на говорителя (SpkSim). Той също така е оптимизиран за редки знаци и сложни изречения, като намалява процента на неправилно произношение на необичайни знаци от 15,2% на 5,3%, като същевременно осигурява по-стабилна производителност при текст с дълга форма.

Fun-CosyVoice3.5-1.avif Fun-CosyVoice3.5-2.avif Fun-CosyVoice3.5-3.avif

Чрез фина настройка, базирана на обучение за подсилване, моделът подобрява цялостната естественост и изразителното наслояване. От страна на производителността, честотата на кадрите на токенизатора е намалена наполовина, а латентността на първия пакет намалена с 35%, позволявайки по-бързи отговори и по-гладко преживяване в сценарии на взаимодействие в реално време.

Междувременно Fun-AudioGen-VD позволява на потребителите да генерират не само гласове, но и пълни звукови сцени, базирани на описания на естествен език – интегриране на характер и среда в унифициран изход.

Моделът поддържа детайлен контрол върху:

Основни атрибути: пол, възраст, акцент, височина, скорост на речта
Качества на тембър: дрезгав, ярък, дълбок, магнетичен
Емоции: гняв, тъга, вълнение, решителност
Симулация на роли: агент за обслужване на клиенти, ветеран, дете, AI асистент, телевизионен оператор
Сложни психологически състояния: нюансирани изрази като „спокоен на повърхността, но треперещ отвътре“

Отвъд генерирането на глас, Fun-AudioGen-VD може да създава завладяващи звукови среди, включително наслоен фонов шум (градски улици, кафенета, бойни полета), пространствени реверберационни ефекти (катедрали, метални клетки, подводна акустика), аудио филтри в стил устройство (ретро радио, уоки-токи, дихателна маска) и динамични взаимодействия на околната среда, като променлив шум от вятъра или преместване ехо.

Заедно, двата модела сигнализират за продължаващия стремеж на Alibaba към контролируемо, висококачествено генериране на реч и аудио – разширявайки границите на управляваното от AI гласово взаимодействие и създаването на потапяща медия.

Източник: IT Home

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта