Кодирование и декодирование - Вокодеры с линейным предсказанием

Для вокодеров, возбуждаемых квазипериодическим сигналом, передаваемые параметры представляют собой обычно преобразования сигнала основного тона Р, коэффициента усиления а и коэффициентов фильтра {аi}. На практике кодирование сигнала основного тона и коэффициента усиления обычно осуществляется по логарифмическому закону. Типичным является логарифмическое кодирование сигнала основного тона на 5 или 6 бит и логарифмическое кодирование коэффициента усиления на 5 бит. Основное внимание далее будет уделено коэффициентам отражения {ki,}, представляющим собой преобразование от {ai}, и различным нелинейным преобразованиям, поскольку их свойства недостаточно известны.

В вокодерах с линейным предсказанием широко используются коэффициенты отражения (и такие параметры, как логарифм площадей). В автокорреляционном методе они легко получаются как часть результатов анализа, а в ковариационном методе -- вычисляются с помощью процедуры пошагового понижения порядка. Необходимым и достаточным условием устойчивости синтезирующего фильтра при этом является то, что значения модулей коэффициентов отражения должны быть меньше единицы. Поэтому линейная интерполяция коэффициентов отражения устойчивых фильтров гарантирует устойчивость полученных в результате интерполяции фильтров.

Коэффициенты отражения имеют неразномерную спектральную чувствительность, причем наибольшая чувствительность будет, когда модуль коэффициента близок к единице. Это свойство было теоретически доказано Грэем и Маркелом. Они показали, что в процедуре пошагового повышения порядка на т-м шаге изменение логарифмического спектра фильтра 1/Am(z), вызванное изменением km на Дkm, будет осциллировать (при изменении частоты от нуля до fJ2) между значениями

Ln[1+ Дkm /(1+km)] и ln[1- Дkm /(1-km)]

Таким образом, значения km, модули которых приближаются к единице, наиболее чувствительны к малым изменениям спектра. Неравномерная спектральная чувствительность была также подробно изучена Висваназаном и Макхоллом.

Известно, что для многих вокализованных звуков первые коэффициенты отражения имеют асимметричное распределение (k1 почти равен -- 1, а k2 близок к +1), а коэффициенты более высокого порядка имеют центрированное около нуля распределение, близкое к гауссовскому. Это было замечено эмпирически рядом исследователей. Аналитически (используя аппроксимацию) было показано, что такая асимметрия имеет место для k1 и k2 в случае отсутствия предыскажения для устранения корреляции. Было также замечено, что при низких частотах дискретизации (10 кГц и меньше) величины коэффициентов отражения kз, k4... с высокой вероятностью меньше 0,7.

Линейное квантование коэффициентов отражения на отрезке [--1, 1] нецелесообразно, так как значения, близкие к единице, обычно характерны только для k1 и k2. Поэтому следует применять нелинейное квантование в силу неоднородной спектральной чувствительности. Использовалось несколько схем преобразования и кодирования. Хаски и другие изучили многие типы преобразований и пришли к выводу, что наиболее эффективно логарифмическое кодирование отношений площадей, т. е.:

Ln[1- km /(1+k)].

К такому же заключению пришли Висваназан и Макхолл на основании экспериментальной оценки спектральной чувствительности коэффициентов отражения. Велч использовал модифицированный логарифм отношения площадей ln[F - km/(F+ km)] со значениями F более единицы из-за того, что для коэффициентов отражения, близких к единице, квантование логарифма отношений площадей может стать настолько точным, что превысит точность исходных данных.

Для облегчения процедуры синтеза при использовании нормализованной структуры фильтра Маркел и Грэй предложили кодирование коэффициентов отражения по закону арксинуса иm=sin-1(km). При этом достигается большая точность квантования коэффициентов отражения, близких к единице, и такое кодирование является единственным преобразованием, осуществляющим равномерное распределение углов для непосредственного поиска параметров фильтра в приемнике по тригонометрической таблице (такие таблицы в виде стандартных программ имеются в памяти ПЗУ высокоскоростных процессорных систем). Несмотря на то, что такое кодирование не соответствует усредненным кривым чувствительности Висваназана и Макхолла так же, как и кодированию логарифма отношения площадей, тем не менее оно приемлемо и более эффективно, чем линейное квантование коэффициентов отражения. Кодирование по закону арксинуса встречает такую же трудность, связанную с чрезмерной точностью квантования при значениях модулей, близких к единице, как и кодирование логарифма площади.

Некоторые подходы, применяемые для сокращения числа передаваемых двоичных единиц, относительно просты, в то время как другие являются более сложными. Маркел и Грэй устранили смещение k1 и k2 (путем добавления и вычитания 0,3 соответственно), а затем равномерно квантовали несмещенные результаты для всех коэффициентов отражения от --0,7 до + 0,7, используя меньшее число бит для коэффициентов отражения высокого порядка. Итакура и Саито применили динамическое программирование для распределения двоичных единиц, предназначенных для кодирования коэффициентов отражения. Было обнаружено, что предыскажение речевого сигнала значительно сокращает разницу между распределением двоичных единиц при динамическом программировании и равномерном распределении. Макхолл и другие использовали метод кодирования Хаффмана применительно к логарифму отношения функции площади для повышения эффективности представления. Эта процедура имеет то преимущество, что используется меньшее число двоичных единиц без какого-либо ухудшения точности представления. Мак-Кендлес использовал метод равномерного кодирования площадей, основанный на гистограммах, полученных статистическим путем. При этом методе требуется отличное от других (но эффективное) кодирование каждого отдельного коэффициента отражения. Специфический вид такого кодирования зависит от статистических средних значений, полученных путем обработки большого числа сегментов данных, и зависит от таких параметров системы, как частота дискретизации, характеристики предыскажающего фильтра и типа записывающей аппаратуры.

Маловероятно, что можно определить единственную оптимальную схему кодирования-декодирования в том смысле, что получится наилучшее субъективное качество восприятия синтезированной речи при самой низкой скорости передачи. Когда критерий качества основывается на восприятии, выбор схемы кодирования-декодирования зависит от разных факторов и всегда имеется различие в мнениях слушателей.

При моделировании неквантованные параметры (при использовании системы счисления с плавающей запятой или целых чисел с максимальной точностью) обычно преобразуются в группу целых чисел {0, 1, ..., 2в--1}, где в -- число бит, используемых для представления параметра. Такое представление соответствует преобразованию множества значений в одно и может быть эффективно выполнено с помощью таблицы, например, на основе двоичного поиска. Эти передаваемые параметры однозначно соответствуют декодируемым параметрам и могут быть, следовательно, использованы в приемнике для табличного декодирования с помощью таблицы.

Специальные примеры передачи речи с минимальной скоростью на основе различных преобразований параметров будут представлены ниже при рассмотрении вокодерных систем и моделирования.

Похожие статьи




Кодирование и декодирование - Вокодеры с линейным предсказанием

Предыдущая | Следующая