Физическое обоснование - Вокодеры с линейным предсказанием
Работа вокодера (voice coder) основана на анализе характерных особенностей человеческой речи. На рис. 2 показаны условно частотные характеристики речи как функция от времени.
Рис. 2. Пример распределения энергии в частотных диапазонах
На рисунке изображены частотные полосы (от 0 до 1 КГц, от 1 КГц до 2 КГц и т. д.) и распределение энергии по ним при произнесении фразы.
Как видно из рисунка, энергия распределяется во времени только в некоторых частотных диапазонах и различается по величине. Отдельные пики энергии, возникающие в одном частотном диапазоне, называются фонемами.
Эта картина может изменяться в больших диапазонах, в зависимости от тембра голоса и особенностей произношения, но нам сейчас важно рассмотреть общие закономерности построения. На рисунке видно, что буквы отличаются не только частотным диапазоном, но и структурой. Для каждого звука характерны пики (резонансы) энергии в определенных частотных диапазонах и провалы в других. Частоты, на которых в данный момент возникают комбинации пиков (фонем), называются "частотами формант" или просто "формантами". Гласные и звонкие согласные звуки речи содержат обычно от трех до четырех формант. Эти свойства и иллюстрируются рис. 2.
Изображенная "спектрограмма" представляет собой распределение энергии речи в виде функции времени и частоты. Горизонтальная ось представляет время, вертикальная -- частоту, уровень энергии условно показан частью синусоиды. Периоды между сменами формант составляют от 10 до 30 мс. Изучение образцов речи показало, что в русском языке содержится 42 фонемы: это 6 гласных звуков и остальные согласные. Чтобы закодировать их номера, достаточно 6 битов.
Человек в среднем произносит в секунду 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы передаются со скоростью 10 [log2±2] = 60 бит/c. Это вычисление порождает иллюзию, что речь имеет небольшой объем информации и может быть передана с небольшой скоростью. Однако если рассмотреть подробнее, как образуется звук, то можно обнаружить, что при передаче речи требуется передать больше информации. При разговоре грудная клетка сжимается и расширяется, поток воздуха проходит через трахею и гортань в полости глотки, рта и носа. Голосовой тракт простирается от голосовой щели (отверстие между голосовыми складками гортани) до губ и в процессе речи его форма меняется. Если произносятся звонкие звуки (гласные, носовые, звонкие согласные), называемые также вокализованными (voiced), голосовые складки в гортани смыкаются и размыкаются с частотой, которая называется частотой основного тона (pitch). Получается последовательность импульсов воздушного потока, которые возбуждают полости голосового тракта. В процессе разговора человек меняет геометрические размеры этих полостей, соответственно меняются и резонаторные частоты, "форманты".
При произнесении глухих невокализированных (unvoiced) звуков голосовые связки расслаблены. Проходя по суженному голосовому тракту, воздух создает турбулентный поток (завихрение), т. е. в полости рта и носа возбуждаются шумоподобные сигналы. Взрывные (смычные, stop) звуки получаются путем кратковременного выхлопа -- полного перекрытия речевого тракта, нагнетания давления и внезапного открытия тракта. Взрывные звуки бывают звонкие (б, д, г) и глухие (п, т, к), т. е. могут образовываться с участием голосовых складок и без них. Таким образом, в терминах спектра сигналов, когда человек говорит, он производит спектральновременную модуляцию широкополосного сигнала, генерируемого голосовыми складками и представляющего своего рода несущую. Полезная информация содержится только в интонации (изменении частоты основного тона) и в смене спектра с тонального на шумовой и наоборот.
Линейная модель речеобразования представляет речь как систему, состоящую из генератора возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровая функция), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез. Для экономичной передачи и хранения речи надо определить параметры генераторной и фильтровой функций. В генераторной функции изменяется частота и амплитуда основного тона (высота и громкость голоса) и происходит смена вида функции (основной тон или шум). У фильтровой функции происходит постоянное изменение коэффициента передачи, проявляющееся в изменении огибающей спектра.
Эта модель представляет речь человека, который "гудит" на одной частоте, периодически изменяя ее на другую и меняя громкость, а основная информация "добавляется" в "подтонах".
Рассматриваемые ранее принципы и реализующая их аппаратура были предназначены в первую очередь для воспроизведения формы входного сигнала на приеме как можно точнее в форму сигнала на выходе приемной стороны. Ниже рассмотрим принципы построения аппаратуры, которая моделирует человеческую речь, используя при этом методы цифрового кодирования. Они называются вокодеры (это слово получено объединением двух английских слов voice coder -- кодер речевого сигнала).
По принципу определения параметров фильтровой функции различают следующие типы вокодеров:
- - канальные (полосовые, channel); - формантные; - ортогональные; - вокодеры с линейным предсказанием (липредеры -- с линейным предсказанием речи).
Ранее вокодеры выполнялись только на основе аналоговой техники на протяжении всего разговорного тракта. Теперь наиболее распространена цифровая техника.
В упрощенном виде вышесказанное выглядит таким образом:
В формировании того или иного звука речи человека участвует та или иная часть этих элементов. Если звук формируется с участием голосовых связок, поток воздуха из легких вызывает их колебание, что порождает звуковой гон. Последовательность формируемых таким образом звуков составляет тоновую речь (или тоновый сегмент речи). Если звук формируется безучастия связок, тон в нем отсутствует, и последовательность таких звуков составляет нетоновую речь (нетоновый сегмент речи). Спектр тонового звука может быть смоделирован путем подачи специальным образом сформированного сигнала возбуждения на вход цифрового фильтра с параметрами, определяемыми несколькими действительными коэффициентами. Спектр нетоновых звуков - практически равномерный, что обусловлено их шумовым характером.
В реальных речевых сигналах не все звуки можно четко разделить на тоновые и нетоновые, а приходится иметь дело с некими переходными вариантами, что затрудняет создание алгоритмов кодирования, обеспечивающих высокое качество передачи речи при низкой скорости передачи информации.
Описанный принцип кодирования получил название LPC (Linear Prediction Coding - кодирование с линейным предсказанием), поскольку центральным элементом модели голосового тракта является линейный фильтр. Наиболее известный стандартный алгоритм, построенный по описанному принципу, был стандартизован министерством обороны США под названием LPC-10, где число 10 соответствует количеству коэффициентов фильтра. Данный кодер обеспечивает очень низкую скорость передачи информации 2.4 Кбит/с, однако качество воспроизводимых речевых сигналов оставляет желать лучшего и не удовлетворяет требованиям коммерческой речевой связи - речь носит ярко выраженный "синтетический" характер.
В следующих главах детально разберем вокодеры с линейным предсказанием, принципы их устройства, различные методы их работы, области применения и другие аспекты. Также будет затронута тема кодеков, базирующихся на использовании вокодеров.
Похожие статьи
-
Прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей,...
-
Принцип метода линейного предсказания - Вокодеры с линейным предсказанием
Вокодер информация кодирование синтезатор В вокодерах с линейным предсказанием при анализе речевого сигнала в передающем устройстве определяются...
-
Липредеры на основе ковариационного метода - Вокодеры с линейным предсказанием
Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр в работах и впервые...
-
Одним из возможных и наиболее важных применений линейного предсказания является низкоскоростная (2400--3600 бит/с) надежная передача речи по телефонным...
-
: Кодеки - Вокодеры с линейным предсказанием
Рассмотрим теперь более широкое понятие - кодеки. Кодек (англ. codec, от coder/decoder -- кодировщик/декодировщик или compressor/decompressor) -- это...
-
Вокодеры с линейным предсказанием (липредеры) - Вокодеры с линейным предсказанием
Этот тип вокодера (рис. 3, рис. 4), в отличие от остальных типов, для передачи речи применяет не фильтры, а систему линейного предсказания. В линию...
-
Устройства для параметрического частотного сжатия речи получили название вокодеров. Вокодер (от англ. voice - голос и coder - кодировщик голоса)...
-
Заключение, Список используемой литературы - Вокодеры с линейным предсказанием
Алгоритмы кодирования формы сигнала основываются на наличии корреляционных связей между отсчетами сигнала, которые дают возможность линейного...
-
: Вокодеры в современности - Вокодеры с линейным предсказанием
В таблице 5 приведены основные виды вокодеров и требуемая пропускная способность канала связи. Сегодня вокодеры применяют для кодировании телефонных...
-
Передача параметров с переменной скоростью - Вокодеры с линейным предсказанием
Большая часть разговорной речи содержит паузы. Кроме того информация, необходимая для точного представления исходного речевого сигнала, существенно...
-
Возбуждение синтезатора и выбор коэффициента усиления - Вокодеры с линейным предсказанием
Атал и Ханауэр предложили способ согласования энергии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала...
-
Преобразование коэффициентов Основным набором передаваемых параметров в вокодере с линейным предсказанием являются М коэффициентов фильтра с...
-
Введение - Вокодеры с линейным предсказанием
Вокодеры - это системы параметрического кодирования речи, широко применяемые в современной цифровой телефонной связи, в том числе - Internet-телефонии....
-
Кодирование и декодирование - Вокодеры с линейным предсказанием
Для вокодеров, возбуждаемых квазипериодическим сигналом, передаваемые параметры представляют собой обычно преобразования сигнала основного тона Р,...
-
Формулировка задачи - Линейное программирование
Даны линейная функция Z=С1 х1 +С2 х2 +...+СN xN (1.1) И система линейных ограничений A11 x1 + a22 x2 +... + a1N ХN = b1 A21 x1 + a22 x2 +... + a2N ХN =...
-
Физическая среда передачи в локальных сетях - Методы доступа к передающей среде в ЛВС
Весьма важный момент - учет факторов, влияющих на выбор физической среды передачи (в ЛВС - кабельной системы). Среди них можно перечислить следующие:...
-
Линейная замкнутая система Рассмотрим линейную стационарную непрерывную управляемую систему: (1.1) - вектор состояния системы, - управление, - выход...
-
Транспортная задача - Линейное программирование
Одна из наиболее распространенных задач математического программирования -- транспортная задача. В общем виде ее можно представить так: требуется найти...
-
Теоретическая основа линейного программирования, Симплекс метод - Линейное программирование
Симплекс метод Симплекс метод - метод линейного программирования, который реализует рациональный перебор базисных допустимых решений, в виде конечного...
-
Кратко напомним некоторые фундаментальные определения и теоремы линейной алгебры и выпуклого анализа, которые широко применяются при решении проблем как...
-
Линейные блоковые коды - Кодек каскадного кода Хэмминга
Код называется групповым, если кодовые комбинации образуют некоторую подгруппу группы всех последовательностей длиной n Линейные коды задаются с помощью...
-
Линейное программирование - Линейное программирование
Линейный программирование математический графический Что же такое линейное программирование? Это один из первых и наиболее подробно изученных разделов...
-
Уровни модели OSI и их функции, Физический уровень - Принципы построения открытых графических систем
Физический уровень Физический уровень (Physical layer) имеет дело с передачей битов по физическим каналам связи, таким, например, как коаксиальный...
-
Следующим этапом, когда документация найдена, источники изучены, а другие решения проанализированы, является реализация автоматизированной системы...
-
Концентраторы - Построение локальных сетей по стандартам физического и канального уровней
Основные и дополнительные функции концентраторов Практически во всех современных технологиях локальных сетей определено устройство, которое имеет...
-
Концентраторы вместе с сетевыми адаптерами, а также кабельной системой представляют тот минимум оборудования, с помощью которого можно создать локальную...
-
Физические модели БД - Банки и базы данных. Системы управления базами данных
Под физической моделью БД понимается способ размещения данных на устройствах внешней памяти и способ доступа к этим данным. Каждая СУБД по-разному...
-
Под критическим значением параметра регулятора (K или Т) понимается такое значение (Ккр или Ткр), при котором система оказывается на границе...
-
Геометрический метод, Двойственная задача - Линейное программирование
Применяется для задач с двумя переменными. Метод решения состоит в следующем: На плоскости строятся прямые, которые задают соответствующие ограничения:...
-
Методика решения задач ЛП графическим методом - Линейное программирование
I. В ограничениях задачи (1.2) заменить знаки неравенств знаками точных равенств и построить соответствующие прямые. II. Найти и заштриховать...
-
При разработке функций программного обеспечения диалог с пользователем должен быть организован через графический интерфейс. Все элементы графического...
-
Информационное обеспечение Данные в системе будут храниться в базе данных на жестком диске. Для защиты данных от разрушения необходимо использовать...
-
Таблица 3.9 - Функции: логическая и физическая организация и элементы управления Функция Наименование элемента управления Элемент управления, за которым...
-
Моделирование предметной области Этапом проектирования базы данных любого типа начинается с анализа предметной области, который заканчивается построением...
-
Должна обеспечиваться сохранность информации при наступлении следующих событий: - отключение питания на сервере баз данных; - отказ линий связи; - отказ...
-
Режим эксплуатации АРМ должен соответствовать режиму работы сотрудников, то есть пользователей в соответствии со штатным расписанием рабочего дня,...
-
Персонал должен обладать минимальными навыками в работе с компьютером, операционной системой семейства Windows, а именно персонал должен иметь такие...
-
Обоснование актуальности и необходимости разработки Целью дипломной работы является разработка программной системы управления контентом портала с архивом...
-
Назначение системы Автоматизированное рабочее место начальника ДЧ ЛОП предназначено для автоматизации деятельности начальника дежурной части линейного...
-
Задачи и функции линейного отдела полиции Отдел возглавляет начальник, назначаемый на должность и освобождаемый от должности в установленном порядке....
Физическое обоснование - Вокодеры с линейным предсказанием