Задачи шумоочистки речевых сигналов, анализ методов их решения, Обзор существующих методов и алгоритмов очистки речевого сигнала - Разработка и исследование алгоритма очистки речевого сигнала

В настоящей главе анализируются особенности, свойства и характеристики речевых сигналов. Виды шумов акустических помех и искажений, а так же особенности их воздействия на речевые сигналы, формулируются задачи шумоочистки речевых сигналов. Проводится обзор уже существующих методов и алгоритмов.

Обзор существующих методов и алгоритмов очистки речевого сигнала

Голос и речь являются основным средством коммуникации во всех сферах человеческой деятельности, а передаваемая с их помощью информация может иметь исключительную ценность в обеспечении безопасности, например, раскрытии и предотвращении преступлений.

Человеческая речь представляет собой шумоподобный акустический сигнал, несущий амплитудную и частотную модуляции (рис.1.1)

Рис. 1.1 Амплитудная и частотная модуляции

При чем амплитудная модуляция (АМ) - модуляция, при которой незатухающие колебания изменяются по амплитуде в соответствии с модулирующими его колебаниями более низкой частоты, а частотная модуляция (ЧМ) - модуляция, при которой несущая частота сигнала изменяется в соответствии с модулирующим колебанием. [5]

Основная энергия акустических колебаний речевого сигнала заключена в диапазоне 70 Гц - 7 кГц, причем более 95% смысловой информации размещается в более узком диапазоне - 200 Гц - 5 кГц.

Акустические колебания выше и ниже этих частот несут информацию об эмоциях и личности говорящего, способствуют узнаваемости и несколько повышают разборчивость речи в условиях повышенных шумов. [21]

Основной причиной низкого качества и разборчивости записанной речевых сигналов является присутствие в ней искажений и помех.

Искажениями принято называть видоизменения самого полезного речевого сигнала, приводящие к снижению его качества. При искажениях собственные составные части речевого сигнала изменяются по отношению к своему первоначальному виду, приобретают новое, иногда недопустимое звучание.

Помехой называется стороннее возмущение, действующее в системе передачи и препятствующее правильному приему сигналов, а также вызывающее искажение передаваемой информации. [5]

Источники помех могут находиться как вне, так и внутри самой системы передачи.

В зависимости от вида информации помехи проявляются:

1. в виде ошибок при передаче телеграмм и передаче данных; 2. в виде шорохов, тресков, в плохой разборчивости речи и слышимости разговоров, ведущихся по соседним каналам, при телефонной связи; 3. в искажении команд в системах телемеханики и телесигнализации и т. д.

Действие помехи зависит от множества причин и, как правило, носит случайный характер.

Помехи можно разделить на две группы - неаддитивные и аддитивные.

К неаддитивным, относят помехи, вызывающие паразитную модуляцию сигнала. Они возникают из-за нелинейной зависимости характеристик канала связи от параметров сигнала и от времени и существенно влияют на передачу сигналов в основном в каналах проводной связи большой протяженности.

К аддитивным относят помехи, которые складываются с сигналом линейно. Аддитивную помеху часто называют шумом.

Шум - звучание, соответствующее восприятию независимого от полезного сигнала источника мешающего звука. [28]

Другими словами, шум - звук нежелательного дополнительного источника, как правило, добавленный к полезному сигналу во время его записи или его передачи по каналам связи. Появление в звуковом сигнале шумов обусловлено раздельным или, чаще, одновременным действием целого ряда факторов процесса записи или передачи сигнала: дополнительного источника звука, находящегося вблизи от полезного источника речи, а также электромагнитных наводок и собственных "технических" шумов различных компонентов канала записи/воспроизведения. То есть шумом может являться как речь другого человека или, например, звук работающего двигателя, так и шум трансформатора или шипение магнитной ленты.

Шум бывает стационарный и нестационарный. Стационарный шум характеризуется постоянством средних параметров: интенсивности (мощности), распределения интенсивности по спектру (спектральная плотность). Идеальным стационарным шумом является так называемый "белый шум" - шум с абсолютно равномерным спектром. В реальности такой шум не может существовать, потому что его мощность была бы бесконечной.

Нестационарный шум - это шум, длящийся короткие промежутки времени (меньшие, чем время усреднения в измерителях). [29]

Классификация шума:

- механический (работа машин и механизмов) - создается колебаниями твердой и жидкой поверхности; - аэро - и гидродинамический - в результате турбулентности газовой или жидкой среды; - электродинамический - электрическая дуга, коронные разряды.

- низкочастотный до 300 Гц, - среднечастотный от 300 до 800 Гц, - высокочастотный свыше 800 Гц.

- широкополосный, - тональный.

Спектром шума называется зависимость уровня звукового давления от частоты. Шум считается широкополосным, если его спектр превышает 1 октаву, и тональным, если звуковая энергия распределяется неравномерно, с преобладанием большей ее части в области одной октавы.

- квазистационарный - уровень звукового давления в течение рабочей смены меняется не более чем на 5 дБ, - стационарный - меняется в любую сторону более чем на 5 дБ и подразделяется: колеблющийся - уровень звуков непрерывно плавно изменяется во времени; прерывистый - изменяется ступенчато более чем на 5 дБ, оставаясь на ступени не менее 1 сек; импульсный - состоит из одного или нескольких звуковых сигналов продолжительностью менее 1 сек.

Шум измеряют прибором, который называется шумомер. Он состоит из микрофона, усилителя, измерительного прибора и источника питания. [27]

Выделим некоторые типы шумов/помех:

1. Белый Шум - это шум с постоянной спектральной плотностью в речевом диапазоне частот, который имеет одинаковое распределение мощности для всех частот. Примером белого шума может быть звук ненастроенного телевизора или шум водопада.

Белым шумом является такой шумовой сигнал, у которого на единицу частоты всюду приходится равная энергия.

Поэтому в полосе частот от 100 Гц до 101 Гц сосредоточено энергии столько же, сколько в полосе от 1000 до 1001 Гц. Так как на каждый герц энергии приходится поровну, то в полосе частот 1000 - 5000 Гц ее будет в 10 раз больше, чем в полосе 100 - 500 Гц. Таким образом, белый шум звучит для человека менее приятно на высоких частотах.

2. Розовый Шум имеет одинаковое распределение энергии для каждой октавы (октавные полосы - частотные диапазоны, в которых верхний предел каждой полосы вдвое больше нижнего предела) вместо одинаковой энергии для каждой частоты подобно белому шуму.

Он представляет собой психоакустический эквивалент белого шума. У розового шума на каждую октаву приходится энергии поровну: от 40 до 80 Гц - столько же, сколько от 400 до 800 Гц и от 10 до 20 кГц.

У розового шума энергия, приходящаяся на единицу частоты, уменьшается кратно частоте. Однако на каждую октаву энергии приходится одинаково.

Согласно психоакустической модели слуховой системы, наилучшей маскирующей помехой является комбинация белого шума и розового шума.

Известно, что белый или розовый шум, применяемый в качестве маскирующего сигнала в устройствах защиты речевой информации, по своей структуре имеет значительные отличия от речевого сигнала.

На знании и использовании этих отличий основаны алгоритмы шумоочистки речевых сигналов, используемые специалистами технической разведки.

Одним из направлений повышения эффективности защиты речевой информации является использование в качестве помехи, применяемой для зашумления каналов утечки речевой информации, следующих речеподобных сигналов (речевых сигналов низкой разборчивости): окрашенный шум, шумовая речеподобная помеха и комбинированная речеподобная помеха.

3. Окрашенный Шум - это шум с огибающей амплитудного спектра, подобной речевому сигналу, формирующийся из белого шума в соответствии с огибающей амплитудного спектра скрываемого речевого сигнала.

Для формирования окрашенного шума в пятиоктавных полосах диапазона 100?6000 Гц производится оценка параметров речевого сигнала и осуществляется корректировка уровня шума в тех же полосах с помощью встроенных эквалайзеров.

Речеподобные

Наиболее эффективными являются помехи типа розовый шум, комбинация белого и розового шумов и речеподобная помеха. Помеха типа белого шума по сравнению с помехами типов розовый шум и шумовая речеподобная обладает несколько худшими маскирующими свойствами, проигрывая по энергетике. Значительно более низкими маскирующими свойствами обладает шумовая помеха со спадом спектральной плотности 6 дБ на октаву в сторону высоких частот (коричневый шум). По сравнению с помехами типов розовый шум и речеподобная она проигрывает по энергетике, а при равной мощности приводит к повышению разборчивости речи. [24]

Для решения практической задачи шумоочистки наиболее важными являются такие специфические свойства слуха человека, как частотная и временная маскировка. [20]

Частотная маскировка - явление, возникающее в частотной области, когда сигнал низкого уровня (маскируемый) становится неслышимым (замаскированным) при звучании одновременно с ним более сильного сигнала (маскирующего) при условии, если маскирующий и маскируемый сигналы достаточно близки друг другу по частоте (рис. 1.2).

Рис.1.2 Мгновенная маскировка в частотной области для слуховой системы человека

По горизонтальной оси отложена частота звучания звуковых компонент сигнала, по вертикальной оси - их уровень в дБ. Длинным светло-серым прямоугольником отображен сильный узкополосный сигнал-маскер. Он маскирует (делает неслышимыми) 4 слабых сигнала (черные прямоугольники), расположенных в окрестности сигнала-маскера с уровнями ниже порога маскировки, отмеченного линиями. Другая черная толстая линия показывает кривую порога обнаружения звукового сигнала данной частоты в тишине.

Временная маскировка - это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука, маскируемый некоторое время продолжает быть неслышимым. В обычных условиях эффект от временной маскировки длится относительно недолго. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс. Эффект временной маскировки почувствовать очень просто: близко взорвавшаяся хлопушка приводит к временному "закладыванию" одного из ушей (закладывание обоих ушей маловероятно, но тоже возможно).

На рис.1.3 представлен график, иллюстрирующий временную маскировку.

Рис. 1.3 Пример временной маскировки

По горизонтальной оси отложено время в миллисекундах, по вертикальной оси отложен уровень звучания сигналов. Белым прямоугольником представлен сигнал-маскер, кривыми линиями - пороги обнаружения звука при маскировке. Маскируются (становятся неслышимыми) слабые сигналы, лежащие ниже порога слышимости при маскировке, отмеченного линиями. [20]

В связи с вышесказанным, достаточно часто возникает потребность в проведении специальной обработки или шумоочистки, звукового сигнала, главной целью которой является повышение качества и разборчивости записанной на фонограмме речи, для ее последующего комфортного прослушивания и понимания.

Как правило, грамотно выполненная шумоочистка, во многих случаях, позволяет уменьшить отрицательное влияние шумов и искажений.

Основной принцип шумоочистки заключается в подчеркивании полезного сигнала или в подавлении компонент зашумленного сигнала в тех областях, где помеха велика, а полезный сигнал мал, и в усилении только компонент полезного сигнала. Наиболее полно эту задачу решают методы цифровой фильтрации, аналоговая обработка обычно позволяет решить эту задачу лишь частично.

Перечислим некоторые типовые способы обработки речевых сигналов (РС), позволяющие воплотить основной принцип шумоочистки на практике: [20]

1. "Размаскировка" полезного речевого сигнала в частотной и временной областях (устранение эффекта слуховой маскировки полезного сигнала помехами и искажениями). 2. Устранение фоновых шумов различных типов с целью снижения напряженности внимания и утомляемости оператора при прослушивании. 3. Допустимое для сохранения разборчивости сокращение полосы частот прослушиваемого зашумленного сигнала с целью снижения утомления оператора, удаление низкочастотного гула и высокочастотного шипа. 4. Выравнивание больших пиков и перепадов амплитуды сигнала и громкости отдельных участков обрабатываемой исходной звукозаписи, снижение амплитуды сигнала в паузах без речи. 5. Удаление или снижение амплитуды импульсных помех и других интенсивных посторонних звуков. 6. Удаление регулярных медленно меняющихся помех (музыкальных, транспортных, производственных, сетевых, снижение эффекта реверберации). 7. Сглаживание и выравнивание спектра сигнала (амплитудно-частотной характеристики канала). 8. Дополнительная режекция (вырезание из спектра одной или нескольких узких полос частот) узкополосных помех. 9. Удаление аддитивных широкополосных шумов ("шипа" магнитофонной ленты, радиоканала, микрофона). 10. Формирование у выходного сигнала амплитудной и частотной характеристики, оптимальной именно для слуха конкретного оператора. 11. Компенсация существенных фазовых искажений сигнала.

При этом каждый из перечисленных способов наиболее эффективен для определенного типа помех.

Наиболее общим подходом в определении типа искажений является анализ спектра и осциллограммы, автокоррелограммы и других сигналограмм. На основе знаний о характере шумов и искажений можно выбрать оптимальный метод или ряд последовательно (в определенном порядке) реализуемых методов обработки речевых сигналов.

Если характеристики помехи изменяются во времени, то необходимо использовать алгоритмы обработки, автоматически подстраивающие (адаптирующие) параметры фильтра к характеристикам помехи. Это может быть обеспечено алгоритмами адаптивной фильтрации.

Эффективность алгоритмов адаптивной фильтрации определяется способностью быстрой (0,1-1 сек) адаптации к изменяющимся характеристикам сигналов. Данное свойство дает возможность устранить нестационарные помехи, что принципиально отличает данные алгоритмы от аналогичных, рассчитанных на обработку лишь стационарных сигналов, параметры которых (амплитуда, спектр и т. п.) не изменяются во времени. Адаптация обеспечивает возможность эффективной автономной работы программы в течение длительного времени без вмешательства оператора после задания режима обработки, что снижает требования к квалификации пользователя. [20]

Рассмотрим более детально особенности фильтров различных типов по отношению к шумоочистке.

Фильтры, имеющие Постоянные Характеристики, вносят в сигнал искажения, которые либо несущественны для последующих измерений, либо могут быть легко учтены с помощью соответствующих поправок. [23]

Субъективное качество речи после прохождения сигнала через постоянные фильтры меняется. Однако если фильтр построен корректно и речь после фильтрации становится более близкой к оригиналу по своим основным характеристикам, то оценки идентификационно значимых признаков голоса и речи будут более достоверными.

Адаптивные фильтры с Переменными Свойствами могут внести в динамику свойств сигнала нежелательные изменения, поэтому их необходимо применять более осторожно и умело. Для большинства таких фильтров предполагается, что устраняемая фильтром помеха меняется медленнее, чем речевой сигнал.

Адаптивный фильтр, в зависимости от типа своего устройства, удаляет стационарные или медленно меняющиеся гармонические, регулярные помехи, широкополосные шумы, неравномерности АЧХ канала звукозаписи. Обычно все измеряемые и используемые при идентификации признаки речевого сигнала связаны с реализацией отдельных звуков и характерными изменениями сигнала при переходе от одного звука к другому. В свою очередь, адаптивный фильтр при большой постоянной времени адаптации на протяжении каждого слова и даже короткой фразы не меняет своих свойств, то есть не вносит изменений в динамику спектров. Стоит отметить, что речь, не относящаяся к "нормативной" (например, пение), требует скорректированного подхода к выбору параметров шумоочистки.

Рассмотрим основные алгоритмы обработки и шумоочистки речевых сигналов. [23]

Обзор существующих методов и алгоритмов очистки речевого сигнала

Похожие статьи