Липредеры на основе ковариационного метода - Вокодеры с линейным предсказанием
Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр в работах и впервые представили результаты анализа-синтеза на основе ковариационного метода линейного предсказания. К статье была приложена звукозапись, чтобы продемонстрировать качество синтеза, полученное при различных информационных скоростях. Исходная речь была записана при большом отношении сигнал/шум, пропущена через НЧ фильтр с частотой среза 5 кГц, а затем дискретизирована с частотой f= 10 кГц. Сегмент анализа устанавливался равным одному периоду Р основного тона для вокализованных участков и ' 10 мс для невокализованных. Коэффициенты предсказания {а*} рассчитывались на основе ковариационного метода, причем N=Pfs - Коэффициент усиления а вычислялся с помощью первой из процедур, описанных выше, так что энергия речи на каждом синтезируемом сегменте согласовывалась с энергией сигнала на соответствующем анализируемом сегменте. Выделение ОТ выполнялось на основе автокорреляционного анализа сигнала, полученного путем фильтрации исходной речи и возведения в куб для подчеркивания участков речевого колебания с большой амплитудой.
Для проверки на устойчивость фильтра с характеристикой 1/A(z) на анализируемом сегменте применялась процедура пошагового понижения порядка. Если фильтр неустойчив, то корни функции получались по программе нахождения корней полинома. Пусть функции
М
A(z) = П (1- zm*z-1)
M=1
Опиcывают полиномиальную характеристику фильтра. Если корни zm лежат вне единичной окружности, т. е. |zm|>1, то заменим zm на z*m/|zm|2. Такая замена гарантирует, что форма спектра останется неизменной, хотя исходный критерий минимизации уже не удовлетворяется.
Полином, все корни которого лежат внутри единичной окружности, может быть тогда составлен рекурсивно
A'm(z) = A'm-1(z)*(1-zmz-1)
При m=1, 2, ..., М, причем AM'(z) заменяет полином A(z). Отметим, что корень обычно оказывается комплексным. Полученные в результате такого преобразования коэффициентов фильтра параметры кодировались и квантовались двумя различными способами: (1) частота и ширина полос корней zm на сегменте в целом кодировались 60 двоичными единицами (в предположении, что М=2) 2) площади акустической трубы Am кодировались 60 двоичными единицами. Оба этих способа гарантируют устойчивость фильтра синтезатора, даже если применяется линейная интерполяция. Другими передаваемыми параметрами были период Р основного тона, признак вокализованности "тон-шум" (V/UV) и коэффициент усиления, которые кодировались соответственно шестью, одной и пятью двоичными единицами. Поэтому скорость передачи составляла Br=fr*(6+1+5+60) =72*fr,.. Так как использовались частоты сегментов, равные 100, 67 и 33 Гц, то результирующие скорости составляли 7200, 4800 и 2400 бит/с соответственно.
Для синтеза речи применялся фильтр прямой формы, управляемый синхронно с периодом ОТ. Функция возбуждения представляла собой выходной сигнал генератора в виде единичных отсчетов в начале каждого периода, умноженных на коэффициент усиления о, или равномерно распределенных псевдослучайных отсчетов с нулевым средним значением и единичной дисперсией. По признаку вокализованности V ("тон-шум") определялось, какой вид функции возбуждения применять. Поскольку параметры передаются с постоянной частотой fr, то для осуществления синтеза синхронно с периодом ОТ использовалась линейная интерполяция.
Для того чтобы гарантировать устойчивость, последовательность {ai} пересчитывалась в первые М+1 отсчеты автокорреляционной последовательности {r(п)}. После интерполяции последовательность {r(п)} пересчитывалась обратно в интерполированный ряд параметров {ai}, а затем последний применялся для синтеза в фильтре прямой формы.
Субъективно оцениваемое качество синтезированной речи было очень близко к качеству исходной речи. Некоторые факторы, касающиеся качества синтезированной речи, полученной в этой системе, будут рассмотрены далее. При построении этой системы преследовалась цель получения наивысшего возможного качества при заданной информационной скорости без учета сложности вычислений. Для проведения анализа с длительностью временного окна, зависящей от периода ОТ, требуется очень точно определять этот период. Как отмечал Шредер, частота возникновения ошибок, равная 1%, при выделении ОТ может быть недопустимой. Используемый алгоритм анализа периода ОТ требует много логических операций и обработки четырех или пяти задержанных в буферной памяти сегментов для определения того, классифицировать сегмент как вокализованный или как невокализованный и т. д. Чтобы достигнуть такого же качества синтеза, как в исходной записи, необходимо обеспечить большое отношение сигнал/шум (45--50 дБ). Более того, результаты отчасти зависят от того, насколько хорошо речь описывается комплексно-экспоненциальной моделью в пределах одного периода ОТ. Следует отметить, что все операции выполнялись в режиме с плавающей запятой с полной точностью.
При реализации такой системы можно не получить ожидаемых хороших результатов, если рассчитывать на то, что проведение вычислительных операций с малыми ошибками устранит потери качества восприятия. В настоящее время не существует прямых процедур (в тем смысле, что алгоритм может быть представлен последовательностью алгебраических соотношений) для реализации систем с высоким качеством и низкими скоростями. Например, автокорреляционный анализ является прямым в том смысле, что если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/A(z) теоретически гарантируется. Но, к сожалению, качество синтеза при этом часто ниже, чем при ковариационном методе при идеальных условиях (например, анализ синхронный с ОТ, большое отношение сигнал/шум). С другой стороны, ковариационный метод требует проведения дополнительных операций для обеспечения устойчивости синтезирующих фильтров (проверка корней полиномов и смещение корней внутрь единичной окружности, после которого критерий минимума ошибки предсказаний уже не удовлетворяется).
Вокодерная система на основе линейного предсказания, использующая такой принцип анализа-синтеза, была исследована Хаски и другими. При этом была поставлена задача оптимизировать систему с точки зрения качества ее работы и точности реализации для самых разных дикторов при скоростях передачи информации 3600 и 7200 бит/с. В этом исследовании речь была ограничена полосой до 4000 Гц и дискретизировалась с частотой fs = 8000 Гц. Кроме того, длительность сегмента анализа была фиксирована. С целью определения требуемого числа коэффициентов фильтра М и длины сегмента анализа N было обработано шесть различных предложений от разных дикторов.
Из набора возможных значений длины сегмента N=64, 128 и 256 отсчетов был выбран сегмент с N= 128 (16 мс). Выбор более короткого интервала приводил к неустойчивости синтезирующего фильтра, в то время как при сегменте большей длительности появлялось чрезмерное сглаживание спектра. Порядок предсказателя М был выбран равным 12 при частоте дискретизации fs=8 кГц для обеспечения хорошего качества синтеза в различных условиях. При этом не наблюдалось существенного улучшения в синтезе при частоте сегментов выше 200 Гц и качество речи плавно снижалось при уменьшении частоты анализа от 200 до 30 Гц.
С точки зрения объема вычислений было целесообразно не определять корни полиномов. Вначале характеристика фильтра A (z) пересчитывалась в характеристику соответствующей акустической трубы. Необходимым и достаточным условием устойчивости фильтра l/A(z) является положительность Затем вычисляется новая функция площадей. Эта процедура продолжается до тех пор, пока модифицированный полином не будет иметь все функции площадей положительными. Кроме того, была установлена необходимость того, чтобы ширина каждой полосы была больше 30 Гц. Это требование удовлетворяется, если сжатие единичной окружности в 1,01 раза не приводит к неустойчивым функциям площадей.
Значительные усилия были приложены для определения эффективного метода кодирования функций площадей. Было установлено, что наиболее эффективным законом кодирования является логарифмическое кодирование отношений площадей. Было найдено, что наилучшим выбором распределения бит при скорости передачи данных 3600 бит/с и частоте анализа fr=50 Гц является следующее:
Отношение площадей 1--2 6 бит;
- --"-- 3--8 5 бит; --"-- 9--12 4 бит;
ОТ и "тон-шум" 8 бит;
Коэффициент усиления 5 бит.
Для получения системы со скоростью передачи 7200 бит/с было решено просто удвоить частоту анализа, чтобы получить наилучшие результаты.
Качество восприятия сигнала в системе со скоростью передачи 3600 бит/с оценивалось при помощи сбора мнений слушателей. Было обработано 30 предложений (десять дикторов произносили по три предложения каждый). Слушатели (30) оценивали эти предложения (каждый 2 раза) по тексту, содержащему 60 пунктов, при использовании следующих категорий: отлично, хорошо, удовлетворительно, плохо, очень плохо. Слушатели были "настроены" на экспериментальные категории с помощью прослушивания речи стандартного телефонного канала и речи, полученной в полосном вокодере со скоростью 3600 бит/с. Результаты показывают, что качество, полученное при моделировании системы со скоростью передачи 3600 бит/с, находится между удовлетворительным и хорошим. Имеются основания полагать, что эти оценки чувствительны к дикторам и, в меньшей степени, к тексту. Обычно мужские голоса получают более высокие оценки, чем женские, но существуют и исключения из этого правила. Для большинства дикторов и текстов система со скоростью 3600 бит/с обеспечивает улучшение качества по сравнению с предшествующими полосными вокодерами.
Была проведена также сравнительная проверка для того, чтобы оценить разницу в качестве между системами со скоростями 3600 и 7200 бит/с. Тридцать предложений, использовавшихся при проверке по установлению категорий, были обработаны в модели вокодера со скоростью 7200 бит/с, в которой длительность сегмента была равна 10 мс, причем на сегмент отводилось по 72 двоичных единицы. Предложения для обеих систем (с 3600 и 7200 бит/с) были объединены в тест, включающий 30 разделов.
Результаты для всех дикторов и предложений показали, что в 53% случаев предпочтение было отдано системе с более высокой скоростью передачи данных. Когда же рассматривались только дикторы женщины, в результате получили цифру 58%. Этот результат объясняется ухудшением интерполяции коротких периодов ОТ в сигнале, соответствующем женскому голосу при сегменте анализа длительностью 20 мс. Такое небольшое предпочтение показывает, что нет существенного роста в субъективном качестве при увеличении скорости передачи свыше 3600 бит/с.
Исследование соображений по реализации вокодеров привели к следующей оценке числа операций на сегмент: 4200 операций для передатчика и 5000 операций для приемника (всего 9200 операций на сегмент или, при скорости передачи 3600 бит/с, 461 000 операций в секунду). Предполагалось, что для выполнения всех этих операций необходим процессор, работающий в режиме с плавающей запятой.
Уэлч и другие, основываясь на системе Атала -- Ханауэра и исследовании Хаски и других, ввели некоторые модификации, которые позволили реализовать систему при использовании быстродействующего цифрового процессора.
Похожие статьи
-
Прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей,...
-
: Кодеки - Вокодеры с линейным предсказанием
Рассмотрим теперь более широкое понятие - кодеки. Кодек (англ. codec, от coder/decoder -- кодировщик/декодировщик или compressor/decompressor) -- это...
-
: Вокодеры в современности - Вокодеры с линейным предсказанием
В таблице 5 приведены основные виды вокодеров и требуемая пропускная способность канала связи. Сегодня вокодеры применяют для кодировании телефонных...
-
Передача параметров с переменной скоростью - Вокодеры с линейным предсказанием
Большая часть разговорной речи содержит паузы. Кроме того информация, необходимая для точного представления исходного речевого сигнала, существенно...
-
Принцип метода линейного предсказания - Вокодеры с линейным предсказанием
Вокодер информация кодирование синтезатор В вокодерах с линейным предсказанием при анализе речевого сигнала в передающем устройстве определяются...
-
Вокодеры с линейным предсказанием (липредеры) - Вокодеры с линейным предсказанием
Этот тип вокодера (рис. 3, рис. 4), в отличие от остальных типов, для передачи речи применяет не фильтры, а систему линейного предсказания. В линию...
-
Одним из возможных и наиболее важных применений линейного предсказания является низкоскоростная (2400--3600 бит/с) надежная передача речи по телефонным...
-
Возбуждение синтезатора и выбор коэффициента усиления - Вокодеры с линейным предсказанием
Атал и Ханауэр предложили способ согласования энергии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала...
-
Физическое обоснование - Вокодеры с линейным предсказанием
Работа вокодера (voice coder) основана на анализе характерных особенностей человеческой речи. На рис. 2 показаны условно частотные характеристики речи...
-
Преобразование коэффициентов Основным набором передаваемых параметров в вокодере с линейным предсказанием являются М коэффициентов фильтра с...
-
Заключение, Список используемой литературы - Вокодеры с линейным предсказанием
Алгоритмы кодирования формы сигнала основываются на наличии корреляционных связей между отсчетами сигнала, которые дают возможность линейного...
-
Теоретическая основа линейного программирования, Симплекс метод - Линейное программирование
Симплекс метод Симплекс метод - метод линейного программирования, который реализует рациональный перебор базисных допустимых решений, в виде конечного...
-
Кодирование и декодирование - Вокодеры с линейным предсказанием
Для вокодеров, возбуждаемых квазипериодическим сигналом, передаваемые параметры представляют собой обычно преобразования сигнала основного тона Р,...
-
Устройства для параметрического частотного сжатия речи получили название вокодеров. Вокодер (от англ. voice - голос и coder - кодировщик голоса)...
-
Введение - Вокодеры с линейным предсказанием
Вокодеры - это системы параметрического кодирования речи, широко применяемые в современной цифровой телефонной связи, в том числе - Internet-телефонии....
-
Составление частотного уравнения методом последовательного расщепления Рисунок 3.1 - Исходная модель. Расщепим ее на массе 2 Рисунок 3.2 - Расщепление на...
-
По Р. Шеннону (Robert E . Shannon - профессор университета в Хантсвилле, штат Алабама, США ), "имитационное моделирование - Есть процесс конструирования...
-
Определение методов реинжиниринга информационных систем Основные задачи, которые стоят перед проектировщиком, занимающимся реинжинирингом информационных...
-
1 Характеристика технологий xDSL - Разработка корпоративной сети на основе технологий xDSL
HDSL (High-bit-rate DSL) , или технология высокоскоростной цифровой абонентской линии, - это первенец семейства xDSL, разработанный в конце 80-х гг....
-
Предложенный подход к решению задач исследования Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к...
-
Описание классов и методов - Обзор проблематики и теоретических основ электронного документооборота
В данной работе реализован один публичный класс Form1, в котором и происходит основной функционал программы, посредством выполнения методов по кнопкам....
-
Используемые на магистральных линиях (прежде всего в пригородной зоне) системы высокочастотного уплотнения типа KAMA и К-60 требуют больших затрат на...
-
Технологии DSL - Разработка корпоративной сети на основе технологий xDSL
Медные кабельные линии связи являются и сегодня важной составляющей сети связи Российской Федерации, их цифровизация по праву относится к приоритетным...
-
Собственными называют периодические колебания консервативной системы, совершающиеся исключительно под воздействием инерционных и упругих сил. Для...
-
Задача поведенческой сегментации, формирование портретов клиентов по поведению Одними из основных задач анализа являлись: поведенческая сегментация...
-
Понятие KPI "Ключевые показатели эффективности (англ. Key Performance Indicators, KPI) -- показатели деятельности подразделения (предприятия), которые...
-
Любой объект можно связать с набором процедур, исполняемых в строго определенные моменты. Процедура ( Procedure ) - это группа операторов языка....
-
Методика решения задач ЛП графическим методом - Линейное программирование
I. В ограничениях задачи (1.2) заменить знаки неравенств знаками точных равенств и построить соответствующие прямые. II. Найти и заштриховать...
-
Дана система линейных уравнений (СЛУ) с n неизвестными: В матричной форме записи система (1) имеет вид: (2) Где : n - порядок системы; - матрица...
-
Методы Рунге-- Кутты-- важное семейство численных алгоритмов решения обыкновенных дифференциальных уравнений и их систем. Данные итеративные методы...
-
Математический аппарат Для понимания всего дальнейшего полезно знать и представлять себе геометрическую интерпретацию задач линейного программирования,...
-
Теоретические предпосылки исследования Системы поддержки принятия решений Системы поддержки принятия решений (СППР), представляют собой приложения узкого...
-
На основе описания методов можно с уверенностью сказать, что данная система может успешно справляться с автоматизацией анализа документации. При этом...
-
Комплектной называют поверку, при которой определяются MX СИ, присущие ему как единому целому. Поэлементной называют поверку, при которой значения MX СИ...
-
- Не требует прокладки новых линий связи. - Непрерывность. После включения питания компьютеры остаются постоянно подключенными к сети, электронная почта...
-
Все внешние элементы технических средств системы, находящиеся под напряжением, должны иметь защиту от случайного прикосновения, а сами технические...
-
Корпоративная интеграционная подсистема на базе IBM WebSphere Business Integration Message Broker [28] отвечает за выстраивание корпоративной...
-
Работа с окном - Основы работы с системой MathCAD 2000 PRO
Как известно, система Windows позволяет быстро переключаться с решения одной задачи на решение другой (в частности, путем одновременного нажатия клавиш...
-
Для построения эффективной системы мониторинга необходимо определить объекты наблюдения, отслеживаемые показатели и сроки их представления, программные...
-
Физическая среда передачи в локальных сетях - Методы доступа к передающей среде в ЛВС
Весьма важный момент - учет факторов, влияющих на выбор физической среды передачи (в ЛВС - кабельной системы). Среди них можно перечислить следующие:...
Липредеры на основе ковариационного метода - Вокодеры с линейным предсказанием