Чт. Ноя 21st, 2024

Исследователи Университета Флориды разработали метод обнаружения аудиодипфейков, измеряющий различия между образцами органической и синтетической речи.

По словам ученых, сегодня существуют способы восстановления голоса по анатомическому строению органов дыхания. Благодаря подобным методам можно услышать, как звучали даже динозавры.

Для распознания дипфейков исследователи совершили обратную процедуру. Они смоделировали речевой тракт для органического и синтетического голоса, используя аудиозаписи. Это позволило им воссоздать анатомию органов дыхания говорящего по сегменту звукового отрывка.

В результате ученые выяснили, что дипфейковые записи не ограничены анатомией речевого тракта человека. В процессе моделирования они увидели такие формы, которых нет у людей.

По словам исследователей, точность метода на тестовом наборе данных достигла 99%.

Ученые заявили, что исследование не только подтвердило выдвинутые гипотезы, но и выявили другие особенности. Например, по аудиодипфейку модель часто создавала голосовые пути того же относительного диаметра и консистенции, что и соломинка для питья. На самом деле человеческие органы намного шире и более сложны в строении, отметили авторы.

По мнению исследователей, их подход позволит распознать даже убедительные для человеческого слуха подделки.

«Тонкие, но биологически ограниченные аспекты генерирования речи людьми, не учитываются современными моделями […]. Следовательно, [анатомия] может выступать в качестве мощного инструмента для обнаружения аудиодипфейков», — считают авторы.

Напомним, в октябре 2021 года стало известно, что в Объединенных Арабских Эмиратов мошенники подделали голос руководителя крупной компании и украли $35 млн.

В том же месяце исследователи заявили о способности аудиодипфейков обманывать как устройства распознавания речи, так и слушателей.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!