Дискретизация речи с последующим шифрованием (цифровое скремблирование) - Кодировщики голоса

Альтернативным аналоговому скремблированию методом передачи речи в закрытом виде является шифрование речевых сигналов, преобразованных в цифровую форму, перед их передачей ( см. рис. 1-С и 1-D). Этот метод обеспечивает более высокий уровень закрытия по сравнению с описанными выше аналоговыми методами. В основе устройств работающих по такому принципу, лежит представление речевого сигнала в виде цифровой последовательности, закрываемой по одному из криптографических алгоритмов. Передача данных, представляющих дискретизированные отсчеты речевого сигнала или его параметры, по телефонным сетям, как и в случае устройств шифрования алфавитно-цифровой и графической информации, осуществляется через устройства, называемые модемами.

Основной целью при разработке устройств цифрового закрытия речи является сохранение тех ее характеристик, которые наиболее важны для восприятия слушателем. Одним из путей является сохранение формы речевого сигнала. Это направление применяется в широкополосных цифровых системах закрытия речи. Однако использование свойств избыточности информации, содержащейся в человеческой речи, более эффективно. Это направление разрабатывается в узкополосных цифровых системах закрытия речи.

Ширину спектра речевого сигнала можно считать приблизительно равной 3,3 кГц, а для достижения хорошего качества восприятия необходимое соотношение сигнал/шум должно составлять 30 дБ. Тогда, согласно теории Шеннона, требуемая скорость передачи дискретизированной речи будет соответствовать величине 33 кбит/с.

С другой стороны, структура речевого сигнала представляет собой последовательность звуков (фонем), передающих информацию. Поскольку в английском языке около 40 фонем, а в немецком - 70, то для представления фонетического алфавита потребуется 6-7 бит. Максимальная скорость произношения не превышает 10 фонем в секунду. Следовательно, минимальная скорость передачи основной технической информации речи не ниже 60-70 бит/с.

Сохранение формы сигнала требует высокой скорости передачи и, соответственно, использования широкополосных каналов связи. Например, при импульсно-кодовой модуляции (ИКМ), используемой в большинстве телефонных сетей, необходима скорость передачи, равная 64 кбит/с. В случае применения адаптивной дифференциальной ИКМ она понижается до 32 кбит/с и ниже. Для узкополосных каналов, не обеспечивающих такие скорости передачи, требуются устройства, исключающие избыточность речи до ее передачи. Снижение информационной избыточности речи достигается параметризацией речевого сигнала, при которой характеристики речи, существенные для восприятия, сохраняются.

Таким образом, правильное применение методов цифровой передачи речи с высокой информационной эффективностью является крайне важным направлением разработок устройств цифрового закрытия речевых сигналов. В таких системах устройство кодирования речи (вокодер), анализируя форму речевого сигнала, производит оценку параметров переменных компонент модели генерации речи и передает эти параметры в цифровой форме по каналу связи на синтезатор, где согласно этой модели по принятым параметрам синтезируется речевое сообщение. В таких моделях речевой сигнал представляется в виде нестационарного процесса с ограниченной скоростью изменения параметров из-за механической инерции голосовых органов человека. На малых интервалах времени (до 30 мс) параметры сигнала могут рассматриваться как постоянные. Чем короче интервал анализа, тем более точно может быть представлена динамика речи, но при этом требуется более высокая скорость передачи данных. В большинстве практических случаев используются 20-миллисекундные интервалы и достигается скорость передачи данных 2400 бит/с.

Наиболее распространенными типами вокодеров являются полосные и с линейным предсказанием. Целью любого вокодера является передача параметров, характеризующих речь и имеющих низкую информационную скорость. Полосный вокодер достигает этого путем передачи амплитуды нескольких частотных полос речевого спектра. Каждый полосовой фильтр такого вокодера возбуждается при попадании энергии речевого сигнала в его полосу пропускания. Так как спектр речевого сигнала изменяется относительно медленно, набор амплитуд выходных сигналов фильтров образует пригодную для вокодера основу. В синтезаторе параметры амплитуды каждого канала управляют коэфициентами усиления фильтра, характеристики которого подобны характеристикам фильтра анализатора. Таким образом, структура полосного вокодера базируется на двух блоках фильтров - для анализа и синтеза. Увеличение числа каналов улучшает разборчивость, но при этом требуется большая скорость передачи. Компромиссным решением обычно становится выбор 16-20 каналов при скорости передачи около 2400 бит/с.

Полосовые фильтры в цифровом исполнении строятся на базе аналоговых фильтров Баттерворта, Чебышева, эллиптических и других. Каждый 20-миллисекундный отрезок времени кодируется 48 битами, из них 6 бит отводится на информацию об основном тоне, один бит на информацию "тон-шум", характеризующую наличие или отсутствие вокализованного участка речевого сигнала, остальные 41 бит описывают значения амплитуд сигналов на выходе полосовых фильтров.

Существуют различные модификации полосного вокодера, приспособленные для каналов с ограниченной полосой пропускания. При отсутствии жестких требований на качество синтезированной речи удается снизить количество бит передаваемой информации с 48 до 36 на каждые 20 миллисекунд, что обеспечивает снижение скорости до 1800 бит/с. Уменьшение скорости передачи до 1200 бит/с возможно в случае передачи каждого второго кадра речевого сигнала и в нем дополнительной информации о синтезе пропущенного кадра. Потери в качестве синтезированной речи от таких процедур не слишком велики, достоинством же является снижение скорости передачи сигнала.

Наибольшее распространение среди систем цифрового кодирования речи с последующим шифрованием получили системы, основным узлом которых являются вокодеры с линейным предсказанием речи (ЛПР).

Математическое представление модели цифрового фильтра, используемого в вокодере с линейным предсказанием, имеет вид кусочно-линейной аппроксимации процесса формирования речи с некоторыми упрощениями, а именно: каждый текущий отсчет речевого сигнала является линейной функцией Р предыдущих отсчетов. Несмотря на несовершенство такой модели, ее параметры обеспечивают приемлемое представление речевого сигнала. В вокодере с линейным предсказанием анализатор осуществляет минимизацию ошибки предсказания, представляющей собой разность текущего отсчета речевого сигнала и средневзвешенной суммы Р предыдущих отсчетов, где Р - порядок предсказания, а весовые коэффициенты являются коэффициентами линейного предсказания. Оценка качества проводится по минимуму среднеквадратической величины ошибки предсказания. Существует несколько методов минимизации ошибки. Общим для всех является то, что при оптимальной величине коэффициентов предсказания спектр сигнала ошибки приближается к белому шуму и соседние значения ошибки имеют минимальную корреляцию. Известные методы делятся на две категории: последовательные и боковые, которые получили наибольшее распространение.

В вокодере с линейным предсказанием речевая информация передается тремя параметрами: амплитудой, решением "тон/шум" и периодом основного тона для вокализованных звуков. Так, согласно федеральному стандарту США, период анализируемого отрезка речевого сигнала составляет 22,5 мс, что соответствует 180 отсчетам при частоте дискретизации 8 кГц. Кодирование в этом случае осуществляется 54 битами, что соответствует скорости передачи 2400 бит/с. При этом 41 бит отводится на кодирование десяти коэффициентов предсказания, 5 - на кодирование величины амплитуды, 7 - на передачу периода основного тона, и 1 бит определяет решение "тон/шум". При осуществлении подобного кодирования предполагается, что все параметры независимы, однако в естественной речи параметры коррелированы и возможно значительное снижение скорости передачи данных без потери качества, если правило кодирования оптимизировано с учетом зависимости всех параметров. Такой подход известен под названием векторного кодирования. Его применение к вокодеру с линейным предсказанием позволит снизить скорость передачи данных до 800 бит/с и менее с очень малой потерей качества.

Основной особенностью использования систем цифрового закрытия речевых сигналов является необходимость использования модемов. В принципе возможны следующие подходы при проектировании систем цифрового закрытия речевых сигналов:

    - цифровая последовательность параметров речи с выхода вокодерного устройства подается на вход шифратора, где подвергается преобразованию по одному из криптографических алгоритмов, затем поступает через модем в канал связи, на приемной стороне которого осуществляются обратные операции по восстановлению речевого сигнала, в которых задействованы модем и дешифратор (см. рис.1.D). Шифрующие/дешифрующие функции обеспечиваются либо в отдельных устройствах, либо в программно-аппаратной реализации самого вокодера; - шифрующие/дешифрующие функции обеспечиваются самим модемом (так называемый засекречивающий модем) обычно по известным криптографическим алгоритмам типа DES и другим. Цифровой поток, несущий информацию о параметрах речи, с выхода вокодера непосредственно поступает на такой модем. Организация связи по каналу аналогична вышеприведенной.

Похожие статьи




Дискретизация речи с последующим шифрованием (цифровое скремблирование) - Кодировщики голоса

Предыдущая | Следующая