Синтез речи (TTS - Text-to-Speech). Преобразование произвольной текстовой информации в речь - Кодировщики голоса

Синтез устной речи - это преобразование заранее не известной текстовой информации в речь. Речевой вывод информации - это речевого интерфейса, без которой общение не может состояться. Фактически, благодаря синтезу речи предоставляется еще один канал передачи данных от компьютера, мобильного телефона к человеку, аналогично монитору. Конечно, передать рисунок голосом невозможно, но вот прослушать электронную почту или расписание на день в ряде случаев довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу, готовясь к переговорам, Вы могли бы поправлять у зеркала галстук или прическу, в то время как компьютер читает вслух последние новости, почту или напоминает важную информацию для переговоров.

Технология синтеза устной речи нашла широкое применение для людей, имеющих проблемы со зрением. Для всех остальных она создает новое измерение удобства пользования техникой и значительно снижает нагрузку на зрение, на нервную систему, позволяет задействовать слуховую память.

Любой текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы - от знаков препинания. Наконец, произнесение зависит и от смысла слова! Соответственно, для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

Существует несколько подходов к решению поставленных задач:

Системы аллофонного синтеза - обеспечивают стабильное, но недостаточно естественное, роботизированное звучание.

Системы, основанные на подходе Unit Selection - обеспечивают гораздо более естественное звучание, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости.

Гибридная технология, основанная на подходе Unit Selection и дополненная единицами аллофонного синтеза.

На основе этой технологии была создана система VitalVoice, которая обеспечивает стабильное и естественное звучание на акустическом уровне.

Области применения:

    -Корпоративные решения:
      А) Построение автоматизированных информационно-справочных телефонных систем голосового самообслуживания в Контакт-центрах (СГС - система голосового самообслуживания) Б) Интеграция в корпоративные информационные системы В) Системы оповещения Г) Озвучивание информации, размещенной на сайтах (Голосовой интернет)
    -Мобильные устройства:
      А)Навигационные системы Б)Чтение информации с интернет сайтов (новостные ленты, блоги и т. д.) В)Автоматические переводчики Г)Портативные устройства для людей с ограниченными возможностями по зрению и речи
    -Приложения на базе ПК:
      А)Чтение электронной почты, быстрый доступ к бизнес информации Б)Программы обучения русскому языку В)Создание аудиокниг Г)Компьютерные игры Д)Интеграция в устройства (терминалы оплаты, автоматические газетные киоски)
    -Потенциальные потребители:
      А)Владельцы и разработчики новостных сайтов, а также сайтов с часто обновляемым содержанием Б)Государственные органы, размещающие в сети Интернет сайты, информация которых должны быть максимально доступна всем категория граждан В)Частные компании, чьи сайты нацелены на наибольшую доступность информации о деятельности компании широкой аудитории Г)Компании, заинтересованные в создании и размещении собственных подкастов из неограниченного объема контента без использования дикторов и специальных акустических условий

Похожие статьи




Синтез речи (TTS - Text-to-Speech). Преобразование произвольной текстовой информации в речь - Кодировщики голоса

Предыдущая | Следующая