Понятность и разборчивость речи

Понятность речи - основная характеристика, определяющая пригодность тракта для передачи речи. Непосредственное определение этой характеристики может быть осуществлено статистическим методом с привлечением большого числа слушателей и дикторов. Количественное определение понятности речи – разборчивость .

Разборчивостью речи называют относительное или процентное число правильно принятых элементов речи из общего числа переданных по тракту. Элементы речи – сложные звуки, слова, фразы, цифры. Соответственно различают слоговую , звуковую , словесную , смысловую и цифровую разборчивости . Между ними существует статистическая взаимосвязь. В практике преимущественно используют слоговую, словесную и смысловую разборчивости.

Для измерений разборчивости разработаны специальные таблицы слогов с учетом встречаемости их в русской речи. Эти таблицы называются артикуляционными . Разборчивость измеряют с помощью тренированной бригады слушателей без нарушений слуха и речи путем проведения субъективно-статистических экспертиз. При этом измерения могут проводиться различными методами, например, методом бальной оценки, методом определения процента правильно принятых слов и т.д.

Зависимость между разборчивостью речи и ее понятностью, приведена в табл. 16.1. В этой таблице понятность речи оценена четырьмя градациями:

1) отличная, если понятность полная, без переспросов;

2) хорошая, если у слушателей возникла необходимость в отдельных переспросах редко встречающихся слов или отдельных названий;

3) удовлетворительная, если слушатели сообщили, что им трудно понимать, имели место частые переспросы;

4) предельно допустимая, если требовались неоднократные переспросы одного и того же материала с передачей отдельных слов по буквам при полном напряжении слуха.

Таблица 16.1

Причинами снижения разборчивости являются акустические шумы в помещении, помехи от реверберации и диффузного звука, недостаточное усиление сигналов первичного источника звука.

Системы озвучения и звукоусиления должны обеспечивать требуемую понятность речи. При передаче информационных программ, проведении митингов и собраний необходима отличная понятность речи, которая обеспечивается при 80 % слоговой и 98 % словесной разборчивостях. Для диспетчерской связи полная разборчивость речи (удовлетворительная понятность) получается при 40...50 % слоговой и 87...93 % словесной разборчивостях. Поэтому при расчете диспетчерской связи ориентируются на меньшие величины разборчивости, чем при расчетах систем широкого применения.

Существует связь между разборчивостью речи, условиями приема и характеристиками трактов передачи, которую удалось установить при помощи формантной теории, разработанной Флетчером и Коллардом.

Области концентрации энергии в том или ином участке частотного диапазона называются формантами . Их расположение зависит как от положения звука в слове или фразе, так и от индивидуальных особенностей артикуляционного аппарата человека. Каждый звук имеет несколько формант. Форманты звуков речи заполняют частотный диапазон от 150 до 7000 Гц.

Этот диапазон частот условились поделить на 20 полос, в каждой из которых вероятность появления формант одинакова. Такие полосы частот назвали полосами равной разборчивости . Они определены для ряда языков, в том числе для русского. Установили, что вероятность появления фомант подчиняется правилу аддитивности. При достаточно большом количестве звукового материала вероятность появления формант в каждой полосе равна 0,05.

Форманты имеют различные уровни интенсивности: у звонких звуков они выше, чем у глухих. При увеличении уровня акустических шумов сначала маскируются форманты с низкими уровнями, а затем с более высокими. В результате маскировки уменьшается вероятность восприятия формант. Коэффициент, определяющий это уменьшение в к - й полосе, называют коэффициентом восприятия или разборчивости к ф . Иначе говоря, в к -ой полосе вероятность приема формант

где коэффициент восприятия формант к ф зависит от уровня ощущения, который в свою очередь определяется разностью между средним спектральным уровнем речи В р в полосе равной разборчивости и спектральным уровнем шумов и помех в той же полосе В ш :

Е ф = В р - В ш . (16.2)

Коэффициент восприятия (разбогрчивости) может быть определен по графику, представленному на рис. 16.1. На этом графике приведены уровни ощущения Е ф и соответствующие им коэффициенты восприятия к ф .

Для уровней ощущения 0-18 дБ к ф может быть определен приближенно по формуле k ф =(Е+ 6)/30.

Рисунок 16.1.Интегральное распределение уровней речи.

В общем случае для каждой полосы равной разборчивости коэффициент восприятия будет разным. Общая формантная разборчивость в речевом диапазоне частот определяется из

(16.3)

Рисунок 16.2.Зависимость слоговой разборчивости от формантной.

Зависимость между формантной и другими видами разборчивости была найдена экспериментально. Такая зависимость для слоговой разборчивости показана на рис. 16.2. Из этого рисунка видно, что почти полная понятность речи (слоговая разборчивость равна 80 %) получается при приеме лишь половины всех формант (формантная разборчивость равна 0,5), что свидетельствует об избыточности речи и комбинационной способности мозга.

Определение разборчивости речи для озвучиваемых помещений прежде всего осуществляют для точек озвучиваемой поверхности с минимальным уровнем прямого звука и максимальным уровнем акустичеких шумов. Спектральный уровень прямого звука у слушателя, находящегося в такой точке,

, (16.4)

где В рм -спектральный уровень речи у микрофона (определяется из таблиц);

где r м - удаление микрофона от оратора; - спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц);
- индекс усиления (индекс тракта - разность между уровнями звука, создаваемыми громкоговорителем системы звукоусиления у уха слушателя и первичным источником звука на входе микрофона).

Эти данные определяют для каждой полосы равной разборчивости. Для этих же полос спектральные уровни шумов и помех в месте слушания

где В аш - спектральный уровень акустических шумов (определяется из справочных таблиц); В п - спектральный уровень помех от речи (самомаскировка речи),

где
- поправка на помехи от диффузного звука(R - акустическое отношение в расчетной точке); N д - дифракционная поправка, поправка на отражение от головы слушателя (определяется из справочных таблиц);
- поправка на реверберационные помехи (Т р - время реверберации).

Уровень акустических шумов не зависит от индекса тракта, в то время как уровень помех от речи растет с увеличением индекса тракта (16.4), (16.6). Поэтому для повышения уровня ощущения целесообразно увеличивать индекс тракта. После достижения условия

В п = В аш + 6 (16.7)

дальнейшее увеличение индекса тракта не рационально, так как уровень ощущения в пределе может повыситься лишь на 1 дБ. Это условие с учетом (16.4), (16.6), (16.7) определяет индекс тракта

Такой индекс тракта называют рациональным . Он в основном определяется максимальным значением акустического отношения
в расчетной точке и временем реверберации.

При рациональном усилении из (16.5) следует, что

В ш = В п + 1, (16.9)

т.е. вклад акустических шумов В аш в общий уровень шумов и помех незначителен.

Полученные выражения позволяют определить разборчивость и понятность речи. Для этого по формулам (16.4), (16.6), (16.9) находят уровни речи, шумов и помех и далее по формуле (16.2) определяют уровень ощущения формант Е ф для каждой полосы равной разборчивости. Графическая зависимость, представленная на рис. 16.1, позволяет найти коэффициенты разборчивости к ф , соответствующие полученным значениям Е ф . Общая формантная разборчивость А в речевом диапазоне частот находится из выражения (16.3), а соответствующая ей слоговая разборчивость определяется по рис. 16.2. Понятность речи определяется по табл. 16.1.

Методы повышения разборчивости речи

Снижение уровней помех. (На практике этого достигнуть удается не всегда). Стараются увеличивать L p у слушателя(приближение микрофона, увеличение уровня голоса говорящего).

Повышение уровня звукового давления у слушателя по прямому звуку, приближением микрофона к источнику звука, повышением уровня голоса говорящего, увеличением индекса тракта.

Сжатие D речевого сигнала - повышение уровней звукового давления слабых звуков при сохранении максимальных уровней звукового давления.

Предельным случаем сжатия D является амплитудное ограничение - клиппирование . При этом речевой сигнал превращается в последовательность импульсов постоянной амплитуды, но с меняющимися интервалами между нулевыми переходами (телеграфный режим работы). В результате все звуки речи будут иметь одинаковый (максимальный) уровень при приеме. Качество звучания в этом случае ухудшается, но разборчивость резко повышается, так как слабые звуки не клиппированной речи, маскирующиеся помехами, при таком способе передачи окажутся выше уровней помех.

Применение вокодеров.

Вокодер представляет собой устройство, в передающей части которого из речевого сигнала выделяются параметры, определяющие информативность речи: спектральные огибающие звуков речи и параметры основного тона речи, т.е. медленно меняющиеся во времени признаки звуков речи.

В приемной части вокодера имеется сложный фильтр, имитирующий акустическую систему речевого тракта для звонких звуков речи и глухих. Уровнем синтезируемых звуков и параметрами фильтров управляют сигналы, выделенные на передающем конце вокодера, в результате чего восстанавливается спектральная огибающая речевого сигнала. Качество и разборчивость восстановленного сигнала получаются достаточно высокими.

Увеличение средней мощности сигнала, а следовательно разборчивости, за счет разделения сигнала на огибающую и мгновенную фазы и их особая обработка.

Расчет разборчивости речи

Вычисляем спектральные уровни речи с поправкой на расстояние от микрофона

, (16.10)

где В’ p – спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц).

2. По заданному спектру и уровню акустических шумов находим его спектральные уровни В а (определяется из справочных таблиц).

3. Определяем суммарную поправку ΣΔ L .

4. Определяем фактический индекс тракта Q мс .

5. Все данные заносятся в таблицу.

6. Вычисляем спектральные уровни речи у слушателя

(16.11)

7. Вычисляем спектральные уровни помех

. (16.12)

8. Суммируем спектральные уровни помех со спектральными уровнями акустических шумов

9. Вычитаем из спектрального уровня речи спектральный уровень суммарных помех и шумов и получаем уровень ощущения формант

. (16.14)

10. По найденному уровню ощущения находим коэффициент разборчивости k ф;

для 0. (16.15)

или находим его точные значения по таблице. Все вычисленные значения заносим в сводную таблицу.

11. Суммируем полученные величины коэффициентов разборчивости и находим формантную разбочивость

. (16.16)

По формантной разборчивости определяем слоговую S и словестную W разборчивсти и понятность речи.

Из анализа данных коэффициента разборчивости следует, что нижние частоты передаются намного хуже верхних. Так как есть запас по предельному индексу тракта на этих частотах, то можно спроектировать их примерно на 4 дБ. Разборчивость от этого практически не изменится, но повысится качество звучания.

Для ориентировочного определения разборчивости речи можно воспользоваться сокращенной методикой расчета. Если спектры речи и шумов изменяются по частоте не очень резко,то нет смысла вычислять их для всехполос равной разборчивости, а достаточно расчитать из на октавных частотах.

Октаве 173-350 Гц соотетствует одна полоса равной разборчивости (200-350 Гц).

Октава 350-700 Гц охватывает три полосы (330-465);

Октава 700-1400 Гц включает в себя 4 полосы (750-900);

Октава 1400-2800 Гц → 6 полос (1410-2840).

Октава 2800-5600 Гц → 5 полос (2840-5640).

Участок дапазона 5600-7000 Гц соответствует последней полосе равной разборчивости (5640-7000).

С учетом этого формантная разборчивость определяется по формуле

где k ф1 - k ф6 – коэффициенты разборчивости на октавных частотах.

Мы разговариваем по телефону, мы слушаем выступления и речи в концертных залах. Некоторые из нас пытаются подслушать чужой разговор, иные – сделать прослушку невозможной. Однако для всех наведенных выше случаев бывали такие ситуации, когда посторонний шум настолько мешал услышать нужное, что слова становились попросту неразборчивыми. Чтобы таких проблем не возникало, перед эксплуатацией трактов проводится акустическая экспертиза каналов речевой коммуникации.

Канал, либо тракт речевой коммуникации (или канал передачи речевой информации) – это физическая среда, путь, который проходит звук от отправления к приему. Это может быть воздушный, электроакустический, вибрационный, параметрический, оптико-электронный канал, однако не будем останавливаться на их рассмотрении, так как наша цель – измерение важнейшего критерия качества тракта – разборчивость речи.

Методы измерения разборчивости речи можно коротко подать в виде списка:

Субъективные:
- Чисто субъективный метод;
- Объективизированный;
- Тональный;
Объективные:
- Формантные:
  - AI (Индекс артикуляции);
  - SII (Индекс разборчивости речи);
- Модуляционные:
  - STI (Speech transmission index – Индекс передачи речи);
  - RASTI (Быстрый STI);
  - STIPA (STI для систем звукоусиления);
  - STITEL (STI для телекоммуникационных систем);
- %ALcons (Оценка потерь артикуляции согласных);

Конечно, есть еще советские методы Покровского, Быкова, Сапожкова, однако трогать их не будем, по крайней мере пока, так как приведенные выше методы обеспечивают лучший результат.

Разумеется, охватить все и сразу мы не в силах, потому для начала рассмотрим отличия объективных методов от субъективных, а также поподробнее остановимся на последних.

Чистый субъективизм

В оценке разборчивости речи чистым субъективным методом участвует пара диктор-аудитор. Их работу удобно рассматривать на примере тестирования радиостанции по рекомендациям МККР (Международного Консультативного Комитета по Радиосвязи): на передающей стороне радиоканала диктор читает текст, в то время как аудитор на принимающей стороне выставляет оценку тракта по пятибалльной (или какой-либо другой) шкале. Тяжело не заметить очевидный большой недостаток такого подхода, а именно неизбежное влияние на результат особенностей речи и слуха тестирующих людей.

Решение этой проблемы такое же очевидное, как и сама проблема.

Объективизированность

Наиболее распространенным объективизированным методом является метод артикуляции. Он заключается в том, что перед началом измерений в испытуемом канале создаются нормальные акустические условия (уровни шумов). Участвуют несколько аудиторов, а диктор вместо обычного текста читает специально составленные таблицы слогов (артикуляционные таблицы). Аудиторы записывают услышанное и по окончанию сеанса передачи сверяют свои таблицы с дикторскими. Отношение правильно услышанных слогов к их общему числу и есть оценка разборчивости речи, которая выражается в процентах либо в долях единицы.

Отметим, что при большем числе продиктованных и соответственно принятых слогов влияние различных факторов усредняется. Влияние факторов еще более усредняется, если в испытаниях принимают участие различные группы дикторов и аудиторов. В этом и заключается объективизированность артикуляционного метода. Однако не только в этом. Получить объективные результаты помогает начитка именно звукосочетаний, не имеющих смысловой нагрузки, так как при приеме слов или фраз можно додумать и восстановить искаженный трактом элемент.

Что касается аудиторов, есть мнение, что это должны быть специально натренированные бригады, однако ГОСТ Р 50840-95 требует совершенно обратное. Лично я больше склоняюсь к последнему.

Достоинства:

Универсальность (метод применим к любому типу тракта);
Простота (метод не требует у операторов специальных технических знаний)

Недостатки:

Громоздкость процедуры измерений (требуются значительные затраты временных, материальных и человеческих ресурсов);
Создание артикуляционных таблиц (с каждым новым типом таблиц результаты измерений отличаются);
Зависимость результатов от степени тренерованости операторов;
Человеческий фактор (влияние на результат особенностей речи и слуха)

Объективизированность. Часть 2

Рассмотрим еще один объективизированный субъективный метод – тональный, согласно которому диктор заменяется генератором чистых тонов. Этот искусственный голос на деле – обычный громкоговоритель без диффузора, который генерирует сигналы таким образом, чтобы уровень звуковых давлений, создаваемый на различных частотах, соответствовал бы кривой спектра формант. Аудиторы никуда не деваются. Теперь их задача – это просто определить, слышен ли сигнал на данной частоте или нет.

Частоты, на которых проводятся измерения
250	500	650	800	990	1125	1300	1500	1700	1875
2050	2225	2425	2725	3100	3500	3850	4550	6150	8600

Уровень ощущения формант измеряется путем плавного ввода затухания до исчезновения слышимости звука, затем затухание следует убавлять до момента появления звука. Два значения затухания усредняются – это и есть результат измерения.

Формантная разборчивость речи определяется по таблице:

дБ	%	дБ	%	дБ	%	дБ	%	дБ	%	дБ	%
1	0.04	10	0.65	19	1.92	28	3.22	37	4.28	46	4.75
2	0.09	11	0.76	20	2.07	29	3.37	38	4.37	47	4.78
3	0.14	12	0.89	21	2.2	30	3.51	39	4.46	48	4.8
4	0.19	13	1.03	22	2.36	31	3.64	40	4.52	49	4.82
5	0.24	14	1.18	23	2.5	32	3.75	41	4.57	50	4.85
6	0.3	15	1.32	24	2.65	33	3.87	42	4.62	51	4.88
7	0.37	16	1.47	25	2.79	34	3.97	43	4.66	52	4.95
8	0.46	17	1.62	26	2.93	35	4.08	44	4.69
9	0.55	18	1.77	27	3.08	36	4.18	45	4.72
дБ - уровень ощущения тона; % - формантная разборчивость речи

Общая формантная разборчивость определяется как сумма составляющих:
Для окончания измерения разборчивости речи достаточно определить слоговую разборчивость:

Достоинства:

Не нужна бригада дикторов;
Значительно сокращается время измерений;
Не нужны артикуляционные таблицы

Недостатки:

Повышенные требования к технической образованности измеряющего персонала;
Невозможность автоматизации процесса;
Человеческий фактор

А как же…

… отличия объективных методов от субъективных? Думаю, вы уже догадались, что все дело в человеческом факторе, а точнее в его отсутствии, так как для измерений используют искусственный голос, рот и ухо.

Рассмотрим простейший объективный метод.

Прежде всего, на приемном конце испытуемого тракта создается уровень шума, соответствующий условиям работы. Далее измеряется уровень шума на выходе искусственного уха в критической полосе частот слуха, при этом средняя частота этой полосы равна частоте измерительного тона. Этот уровень шума обязательно нужно зафиксировать, он нам еще понадобится. После этого вместо шума на вход тракта подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затухания распределение звуковых давлений соответствовало кривой спектра формант. Далее с помощью регулирования затухания добиваются, чтобы уровень тонального сигнала на выходе тракта стал равен зафиксированному нами ранее уровню шума. Показания регулятора затухания – результат измерения.

Чтобы определить формантную и слоговую разборчивости, пользуются теми же способами, что и в тональном методе.

Достоинства:

Точность и быстрота;
Не требуются дикторы и аудиторы;
Возможность полной автоматизации процедуры измерений

Недостатки:

Повышенные требования к технической образованности измеряющего персонала

The End

Обычно после этих слов и быть ничего не должно, ну разве что титры, потому буду предельно краток: это был «никнейм_внизу», смотрите нас в любое удобное для вас время. И спасибо за внимание!

Степень разборчивости речи принято определять по проценту правильно воспринятых слушателями1 бессвязных слогов, произносимых, диктором. Для этой цели разработаны специальные таблицы слогов. ¦, наиболее характерных для слов речи. Испытания при помощи слогов производятся с целью исключить влияние «догадки» при диктовке связного текста. Если из 100 слогов правильно воспринимаются 4Ф или 70, то разборчивость, называемая также артикуляцией, считается соответственно равной 40 или 70%. Для понятности связной речи не требуется точно разбирать все слоги. На рис. 14 показана связь между понятностью связных фраз и слоговой разборчивостью . Из этого рисунка видно, что даже при 40% разборчивости слогов понятность фраз еще удовлетворительна (94 о/о).[ ...]

О -полностью отсутствует, понятно до 5% чисел; 1-очень плохая, понятно до 30% чисел; 2 - плохая, понятно до 50%; 3 - удовлетворительная, понятно до 70%, 4 - хорошая, понятно (без; напряжения внимания) 85%; 5 - отличная, понятно 95-100% чисел.[ ...]

Разборчивость речи при шуме зависит от громкости речи и шума, от соотношения их уровней и от частотного спектра шума. В гулких помещениях (помещениях с большим временем реверберации) разборчивость ухудшается.[ ...]

Общая теория разборчивости речи, разработанная советскими акустиками Л. Л. Мясниковым, Ю. С. Быковым , Л. А. Варшавским, Н. Б. Покровским и др. позволяет достаточно точно определить разборчивость в зависимости от характеристик шума. Вследствие относительной сложности общей теории мы изложим здесь этот вопрос в приближенной форме, основываясь на результатах работ лаборатории ЛИОТ.[ ...]

Опыты, проведенные автором в лабораторной обстановке и в условиях различных производственных шумов, показали, что очень тихая речь, с уровнями до 20-25 фон, даже в тихой обстановке почти полностью непонятна. При более высоких уровнях речи благодаря способности слуха к анализу сложных звуков разборчивость вполне удовлетворительна, если уровень шума не более чем на 10-15 дб превышает уровень речи. При больших превышениях уровня шума разборчивость резко падает. Когда уровень шума превысит уровень речи примерно на 20-25 дб, речь становится совершенно непонятной. Превышение в 30 дб полностью заглушает все звуки речи.[ ...]

Опыты, проведенные нами в залах электростанций, в машинных отделениях судов и в шумных заводских цехах, показали, что при шуме с уровнем 95-100 фон можно удовлетворительно понимать речь на расстоянии 1 -1,5 м при переговорах повышенным голосом (уровень речи около 80 фон). Более высокие уровни шума сильно ухудшают разборчивость. При уровне 110-115 фон разборчивость почти полностью исчезает даже при переговорах сильно напряженным голосом на расстоянии от слушателя 0,2-0,3 м (уровень речи около 102 фон). Шум с уровнями 120 фон и выше обычно полностью исключает возможность понимать речь даже при усилении ее с помощью электроакустических устройств!.[ ...]

Как показали наши опыты , при передаче речи с усилением через громкоговорители, например в шумных цехах, для улучшения разборчивости целесообразно в наибольшей степени усиливать звуки речи в этой области частот от 800 до 2 500 гц (рис. 16).[ ...]

Приближенная оценка разборчивости речи в условиях шумов различного характера может быть произведена по составленному нами графику рис. 17. Если уровень шума в полосе частот от 800 до 2 500 гц превышает порог маскировки речи (пунктирные линии) данной громкости, то речь, произносимая с расстояния в 1 м, становится неразборчивой. Для примера на рис. 17 показаны три различных по характеру спектра шума. Хотя общие уровни шумов 1 и 2 различны, разборчивость речи в условиях этих шумов будет примерно одинаковой (при речи несколько повышенным голосом - удовлетворительной), так как в полосе частот от 800 до 2 500 гц спектры шумов I и 2 одинаковы по уровню. С другой стороны, в условиях шума 3 разборчивость будет лучше, хотя общий уровень шума почти такой же, как в случае 2.[ ...]

Рисунки к данной главе:

се мы не раз оказывались в ситуации, когда различные шумовые помехи настолько мешали разговору, что слова собеседника становились совершенно неразборчивыми. А если проводить в таких условиях видеосъемку, то речь, звучащая в кадре, станет абсолютно непонятной, поскольку исчезнет и визуальный контакт с собеседником.

К сожалению, оставляет желать лучшего и качество речи при передаче ее через Интернет. В этом может убедиться любой, кто воспользуется одной из существующих коммуникационных программ для передачи голоса через IP на базе, например, протоколов Н.323. При этом принципиального улучшения качества передачи речи при существующих методах маршрутизации в Интернете ждать не приходиться, ведь до сих пор считалось, что круг пользователей такой связи весьма ограничен. Казалось, что это могло заинтересовать лишь индивидуальных владельцев персональных компьютеров, жаждущих доступного по цене общения со своими друзьями на другом конце света, или корпоративных пользователей, пытающихся максимально удешевить связь между офисами в разных городах. Но если делать Интернет-телефонию общедоступной услугой, за которую можно взымать деньги, то, естественно, необходимо повышать качество связи, которое она обеспечивает.

Разборчивость речи

то же такое разборчивость речи? В принципе, разборчивость является некоторой интегральной оценкой речевого сигнала и в соответствии с международным стандартом ISO/TR 4870 определяется как «степень, с которой речь может быть понята (расшифрована) слушателями». Под этим понимается степень, с которой слушатели могут понять смысл фразы, идентифицировать слова, слоги и фонемы. В соответствии с этим различают различные виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, однако, все тесно связаны друг с другом и могут быть пересчитаны одна в другую.

Однако подобное определение субъективно и предполагает организацию некой экспертизы. Для определения разборчивости, в частности при оценке акустических свойств аудиторий, театральных, концертных залов, студий и других помещений, на практике используются различные методы и стандарты: ГОСТ 25902-83, ГОСТ 51061-97, ANSI S3.2 и др. Но все они предлагают довольно сложные, длительные и дорогостоящие процедуры, а объективные методы определения разборчивости, позволяющие получить быстрые и автоматизированные оценки, которые хорошо совпадают с субъективными экспертизами, пока еще разработаны недостаточно, хотя работа ведется уже на протяжении многих лет.

В настоящее время разработано большое количество таких методов: AI (Articulation Index) - индекс артикуляции; %ALcons (Percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (Speech Transmission Index) - индекс передачи речи; RASTI (Rapid Speech Transmission Index) - быстрый индекс передачи речи; SII (Speech Intelligibility Index) - индекс разборчивости речи и многие другие, соответствующие стандартам ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и пр.

Так, например, один из критериев, регламентированный международными нормативными документами, представляет собой безразмерный коэффициент, который может изменяться от 0 до 1. При этом его значения соотносятся с субъективной оценкой разборчивости речи в соответствии со следующей стандартизованной зависимостью:

Для расчетов разборчивости выбирается частотная полоса речевого сигнала в диапазоне от 150 до 7000 Гц (или с запасом - от 125 до 8000 Гц), поскольку внутри этой полосы располагаются практически все гласные и согласные русской речи. Как видите, речевой сигнал в этом случае достаточно широкополосный для того, чтобы различные помехи смогли внести свой негативный вклад в понижение разборчивости. При этом основная энергия согласных звуков сосредоточена вокруг 2000 Гц, из-за чего в результате маскировки шумом примерно на такой частоте значительно уменьшается вероятность восприятия (отметим также, что согласные звуки ниже по уровню и поэтому пропадают быстрее), а следовательно, падает уровень разборчивости речи. Интересно отметить, что при потере почти половины звуковой разборчивости слоговая разборчивость сохраняется на уровне 80%, то есть речь обладает достаточным запасом в плане информационной избыточности.

Как показывает анализ, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал, модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит фразы, то есть скоростью артикуляции. Эксперименты показали, что частоты модуляции обычной речи лежат в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5-7 Гц. Соответственно уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой, а потому приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи, с учетом искажений и шумов, происходит снижение разборчивости сигнала, что может быть оценено по степени уменьшения глубины его модуляции (изменения формы огибающей сигнала).

Как решают эту проблему профессионалы

адо сказать, что профессионалы стараются вообще не связываться с неразборчивой речью и предпочитают сразу записывать чистый звук - либо отдельно, либо при помощи специальных узко направленных микрофонов.

В результате длительных поисков оборудования, хоть как-то подходящего для решения проблемы повышения разборчивости уже записанной речи, автору удалось обнаружить лишь безумно дорогое устройство полосового обесшумливания фирмы Dolby Laboratories, именуемое Cat. No. 43 (просьба не путать с устройствами шумопонижения той же фирмы).

Действительно, из, казалось бы, широкополосного речевого спектра можно выделить частотные полосы, в которых имеются максимумы акустической энергии от речевой составляющей, и обрабатывать их по отдельности, добиваясь тем самым очищения полезного сигнала. Надо ли говорить, что вас ожидает кропотливая ручная работа, если, конечно, вы хотите улучшить разборчивость произносимого - без ущерба для динамического диапазона оригинальной фонограммы. Безусловно, придется поработать над средней плотностью фонограммы в каждом «новом» канале и с соотношением «полезный сигнал/помеха».

Профессионалы предпочитают сразу записывать чистый звук, иначе последующая обработка в системах типа Dolby Laboratories Cat. No. 43 обойдется им очень дорого

Но почему не решать эту проблему программно, с использованием «умных» компьютеров? Производители подобных продуктов вроде бы имеются (например, компании SIA Software, DAC или та же Dolby Laboratories), но успехи в этой области, похоже, находятся на том же уровне, что и в отношении программ автоматического распознавания речи и преобразования ее в текст. Таким образом, в настоящее время таких программ для реальной работы (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, весьма нескоро.

Однако петербуржская компания «Центр речевых технологий» (ЦРТ), которая работает в этой области с 1990 года, кажется, добилась определенных успехов. Компания ЦРТ (www.speechpro.ru) имеет в своем арсенале целый набор программных и аппаратных средств, предназначенных для шумоочистки и повышения качества звуковых, и в первую очередь речевых сигналов, - это компьютерные программы, автономные устройства, платы (DSP), встраиваемые в устройства каналов записи или передачи речевой информации. В частности, компания разработала такие программы, как SIS, SoundCleaner, а также аппаратные устройства серии «Золушка», «Тишина» и др. Данные устройства повышают разборчивость речи в условиях воздействия шумов и искажений, делают ее прослушивание более комфортным, что необходимо экипажам самолетов, авиадиспетчерам, операторам служб экстренной помощи, машинистам локомотивов и пр. При этом подобное устройство может быть встроено практически в любой аналоговый или цифровой телефонный аппарат, радиостанцию, телефонную гарнитуру и т.п.

Так, например, первым покупателем платы «Тишина» стала американская компания, которая использует ее в гонках NASCAR для обеспечения качественной связи между пилотом, командой и болельщиками.

Специалисты фирмы принимали участие в восстановлении аудиоинформации, записанной на борту затонувшей подлодки «Курск» (итогом полугодовой работы стали 23 компакт-диска со 120 часами восстановленной звуковой информации и 340 страниц дословного содержания фонограмм речи), на потерпевших катастрофу воздушных судах, а также при расследовании ряда уголовных дел, для которых требовалось установить содержание фонограмм речи.

SoundCleaner

есомненным лидером в линейке продуктов шумоочистки ЦРТ является программный пакет SoundCleaner. В 2000 году программа SoundCleaner официально зарегистрирована Российским агентством по патентам и товарным знакам.

Комплекс шумоочистки речи SoundCleaner представляет собой профессиональный набор программно-аппаратных средств, предназначенных для восстановления разборчивости речи и очистки звуковых сигналов, записанных в сложных акустических условиях или передаваемых по каналам связи.

Портативная система шумоочистки речи SoundCleaner может помочь в повышении
разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях

Это действительно уникальный программный продукт, предназначенный для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала. И именно он может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях (в том числе архивных).

Естественно, он эффективнее работает в отношении шумов и искажений звука известной природы, таких как типовые шумы и искажения каналов связи и звукозаписи, шумы помещений и улицы, работающих механизмов, транспортных средств и бытовой техники, голосовой «коктейль», медленная музыка, электромагнитные наводки систем питания, как шумы компьютерной и другой техники, эффекты реверберации и эха. В принципе, чем регулярнее и равномернее шум, тем успешнее SoundCleaner с ним справится.

Однако при двухканальном съеме информации он существенно снижает влияние шумов любого типа. Так, например, SoundCleaner имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Эти методы основываются на том, что при выделении полезного сигнала используется дополнительная информация о свойствах помехи, представленная в опорном канале.

Если возникает необходимость решать нестандартные задачи по обработке тех или иных фонограмм, то программа SoundCleaner предоставляет возможность гибкой настройки процедуры обработки сигнала, включая редактирование самой схемы обработки. Таким образом, пользователи любого уровня подготовки могут успешно решать задачи шумоподавления, пользуясь автоматическими или ручными настройками программы. Для менее опытных существует 13 готовых схем обработки наиболее типичных зашумлений и искажений сигналов (электронаводка, шум транспорта, частотные и амплитудные искажения, помехи радиосвязи и др.), которые помогут в борьбе с различными видами известных шумов и помех. При этом каждая схема поддается корректировке, а более опытные пользователи могут разработать собственные схемы, которые потом можно сохранить в качестве типовых для повторного применения.

В комплект поставки включаются звуковые файлы примеров зашумленных речевых сигналов и оптимизированных для их обработки конфигураций и схем фильтрации, так что освоение и работа с программой будут происходить просто и довольно эффективно.

Начиная с версии 5.10 SoundCleaner может работать в качестве DirectX plug-in, сохраняя при этом все возможности для автономной работы. В этом режиме программа может работать в составе таких известных звуковых редакторов, как Adobe Audition (1.0 и выше), Sound Forge (6.0 и выше) или Wave Lab 4.0. В принципе, для работы в автономном режиме в SoundCleaner есть свой звуковой редактор Wave Assistant editor, который включает набор стандартных средств для редактирования сигнала и проведения его подробного электроакустического и спектрального анализа с целью выбора оптимального режима обработки.

Структурно программа представляет собой набор автономных модулей работы со звуком (всего имеется 19 таких модулей), объединенных в основной оболочке. Каждый модуль имеет свою панель управления и обрабатывает звук по собственному алгоритму, после чего передает его на следующий модуль. Общее количество одновременно используемых модулей ограничено только вычислительными возможностями компьютера.

Архитектура программного комплекса позволяет легко наращивать количество используемых типов модулей, обеспечивая тем самым длительный жизненный цикл программы (ибо компания создает все новые и новые модули). В программе предусмотрена возможность создания из таких модулей и использования схем обработки трех различных типов: одноканальной для сигнала моно или двухканальной с независимой обработкой в левом и правом каналах (в ряде случаев чрезвычайно эффективным оказывается использование для выделения полезного сигнала двух разных каналов).

Сигнал (до и после обработки) непрерывно отображается в виде осциллограммы и мгновенного спектра. Управление шумоочисткой осуществляется в масштабе реального времени: изменять настройки каждого модуля можно в любой момент, не прерывая воспроизведения, причем без потери сигнала, что очень важно для оперативного выбора параметров буквально на слух.

Ввод и обработка звукового сигнала могут производиться как от внешнего источника (линейного выхода аудиоаппаратуры, микрофона), так и из звукового wav-файла. Программа может работать с моно- или стереосигналами форматов ИКМ 8 и 16 бит, mu(a)-Law или 24 бит float с частотой дискретизации от 8 до 48 кГц и сохранять их после обработки с исходной частотой дискретизации в формате ИКМ 16 бит.

ClearVoice Denoiser демонстрационная программа автоматического подавления шумов

SoundCleaner работает под управлением ОС Windows 9х/Ме/NT/2000/XP на стандартном PC (начиная с Pentium II или Celeron с 64 Мбайт оперативной памяти) со стандартной Windows-совместимой полнодуплексной звуковой картой. Для получения гарантированно высокого качества входного и выходного сигналов для старших версий продукта предусмотрена поставка профессиональных устройств ввода/вывода сигнала: 16-разрядного STC-H216 или 24-разрядного STC-H246 «Камертон». У программы есть русскоязычный пользовательский интерфейс. С сайта компании можно скачать ClearVoice Denoiser - демонстрационную программу автоматического подавления шумов. Основные алгоритмы шумоочистки из программы SoundCleaner реализованы также в виде набора встраиваемых программных модулей (SDK), которые могут использоваться другими разработчиками программного обеспечения. Демо-версии SDK доступны на сайте производителя.

Компьютерный транскрайбер, к сожалению, пока еще не является программой автоматического распознавания речи и преобразования ее в текст. В настоящее время таких программ для реальной работы на русском языке не существует, и появятся они, скорее всего, не скоро. Транскрайбер - это, скорее, компьютерный цифровой магнитофон, управляемый из специализированного текстового редактора.

Данные устройства предназначены для повышения скорости и комфортности документирования звукозаписей устной речи при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, при безбумажном делопроизводстве и во многих других случаях. Их отличает простота, удобство использования и доступность для непрофессиональных операторов: скорость работы по набору текста возрастает для профессиональных операторов, печатающих вслепую, в 2-3 раза, а для непрофессионалов - в 5-10 раз! Кроме того, значительно уменьшается механический износ магнитофона и ленты, если речь идет об аналоговом источнике. При этом у компьютерных транскрайберов существует интерактивная возможность сверки набранного текста и соответствующего звукового трека. Связь текста и речи устанавливается автоматически и позволяет в набранном тексте при подведении курсора к исследуемому фрагменту текста мгновенно автоматически находить и прослушивать соответствующие звуковые фрагменты речевого сигнала.

Повышения разборчивости речи можно добиться здесь как путем замедления скорости воспроизведения без искажения тембра голоса, так и путем многократного повторения неразборчивых фрагментов в режиме кольца.

По желанию заказчика компания может продать транскрайбер с ножной педалью, посредством которой осуществляется управление функциями цифрового магнитофона, что тоже повышает производительность и комфортность работы. Возможен и вариант программы под стандартную звуковую карту типа Sound Blaster.

Заключение

Настоящее время созданием международных рекомендаций по оценке разборчивости речи занимается специальная группа Комитета стандартов AES (председатель П.Мапп). Однако специалисты этой группы занимаются преимущественно сравнительным анализом различных методов оценки этой разборчивости.

Но если так сложна проблема оценки разборчивости речи, что уже тогда говорить о методах, автоматически повышающих эту разборчивость! Ведь разборчивость речи зависит не только от факторов, которые поддаются объективным измерениям (уровень шумов и др.), но и от таких субъективных факторов, как уровень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состояние его слуха и др. Как видите, создание любой автоматизированной компьютерной системы, работающей с речью, - задача чрезвычайно сложная, но поскольку она важна для многих областей, особенно для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, то можно надеяться, что когда-нибудь надежные системы будут созданы и для точного распознавания речи.

На нашем CD-ROM вы найдете демонстрационные версии программ SoundCleaner и ClearVoice Denoiser.

Понятность и разборчивость речи

Понятность речи - основная характеристика, определяющая пригодность тракта для передачи речи. Непосредственное определение этой характеристики может быть осуществлено статистическим методом с привлечением большого числа слушателей и дикторов. Количественное определение понятности речи – разборчивость .

Разборчивостью речи называют относительное или процентное число правильно принятых элементов речи из общего числа переданных по тракту. Элементы речи – сложные звуки, слова, фразы, цифры. Соответственно различают слоговую, звуковую, словесную, смысловую и цифровую разборчивости. Между ними существует статистическая взаимосвязь. В практике преимущественно используют слоговую, словесную и смысловую разборчивости.

Для измерений разборчивости разработаны специальные таблицы слогов с учетом встречаемости их в русской речи. Эти таблицы называются артикуляционными. Разборчивость измеряют с помощью тренированной бригады слушателей без нарушений слуха и речи путем проведения субъективно-статистических экспертиз. При этом измерения могут проводиться различными методами, например, методом бальной оценки, методом определения процента правильно принятых слов и т.д.

1) отличная, если понятность полная, без переспросов;

3) удовлетворительная, если слушатели сообщили, что им трудно понимать, имели место частые переспросы;

Таблица 16.1

Области концентрации энергии в том или ином участке частотного диапазона называются формантами. Их расположение зависит как от положения звука в слове или фразе, так и от индивидуальных особенностей артикуляционного аппарата человека. Каждый звук имеет несколько формант. Форманты звуков речи заполняют частотный диапазон от 150 до 7000 Гц.

Этот диапазон частот условились поделить на 20 полос, в каждой из которых вероятность появления формант одинакова. Такие полосы частот назвали полосами равной разборчивости. Они определены для ряда языков, в том числе для русского.Установили, что вероятность появления фомант подчиняется правилу аддитивности. При достаточно большом количестве звукового материала вероятность появления формант в каждой полосе равна 0,05.

Форманты имеют различные уровни интенсивности: у звонких звуков они выше, чем у глухих. При увеличении уровня акустических шумов сначала маскируются форманты с низкими уровнями, а затем с более высокими. В результате маскировки уменьшается вероятность восприятия формант. Коэффициент, определяющий это уменьшение в к- й полосе, называют коэффициентом восприятия или разборчивости к ф. Иначе говоря, в к -ойполосе вероятность приема формант

где коэффициент восприятия формант к ф зависит от уровня ощущения, который в свою очередь определяется разностью между средним спектральным уровнем речи В р в полосе равной разборчивости и спектральным уровнем шумов и помех в той же полосе В ш:

Е ф = В р -В ш. (16.2)

Коэффициент восприятия (разбогрчивости) может быть определен по графику, представленному на рис. 16.1. На этом графике приведены уровни ощущения Е ф и соответствующие им коэффициенты восприятия к ф.

Для уровней ощущения 0-18 дБ к ф может быть определен приближенно по формуле k ф =(Е+ 6)/30.

Рисунок 16.1.Интегральное распределение уровней речи.

(16.3)

Рисунок 16.2.Зависимость слоговой разборчивости от формантной.

,(16.4)

где В рм -спектральный уровень речи у микрофона (определяется из таблиц);

где r м - удаление микрофона от оратора; - спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц); - индекс усиления (индекс тракта- разность между уровнями звука, создаваемыми громкоговорителем системы звукоусиления у уха слушателя и первичным источником звука на входе микрофона).

(16.5)

где В аш - спектральный уровень акустических шумов (определяется из справочных таблиц); В п - спектральный уровень помех от речи (самомаскировка речи),

(16.6)

где - поправка на помехи от диффузного звука (R - акустическое отношение в расчетной точке); N д - дифракционная поправка, поправка на отражение от головы слушателя (определяется из справочных таблиц); - поправка на реверберационные помехи (Т р - время реверберации).

В п = В аш + 6 (16.7)

(16.8)

Такой индекс тракта называют рациональным. Он в основном определяется максимальным значением акустического отношения в расчетной точке и временем реверберации.

При рациональном усилении из (16.5) следует, что

В ш = В п + 1, (16.9)

т.е. вклад акустических шумов В аш в общий уровень шумов и помех незначителен.

Полученные выражения позволяют определить разборчивость и понятность речи. Для этого по формулам (16.4), (16.6), (16.9) находят уровни речи, шумов и помех и далее по формуле (16.2) определяют уровень ощущения формант Е ф для каждой полосы равной разборчивости. Графическая зависимость, представленная на рис. 16.1, позволяет найти коэффициенты разборчивости к ф, соответствующие полученным значениям Е ф. Общая формантная разборчивость А в речевом диапазоне частот находится из выражения (16.3), а соответствующая ей слоговая разборчивость определяется по рис. 16.2. Понятность речи определяется по табл. 16.1.

Основы электроакустики учебное пособие для студентов высших учебных заведений культуры и искусств. Основы психоакустики

Чистый субъективизм

Объективизированность

Объективизированность. Часть 2

А как же…

The End

Разборчивость речи

Как решают эту проблему профессионалы

SoundCleaner

Заключение

Понятность и разборчивость речи