WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 

Pages:   || 2 | 3 |

«Шестой междисциплинарный семинар Анализ разговорной русской речи 3 АР - 2012 27 – 28 августа 2012 года, Санкт-Петербург, СПИИРАН Санкт-Петербург 2012 ББК 32.965+81.1 А64 ...»

-- [ Страница 1 ] --

Федеральное государственное бюджетное учреждение науки

Санкт-Петербургский институт информатики и автоматизации

Российской академии наук

Санкт-Петербургский государственный университет

Шестой

междисциплинарный семинар

«Анализ разговорной русской речи»

3

АР - 2012

27 – 28 августа 2012 года,

Санкт-Петербург, СПИИРАН

Санкт-Петербург 2012 ББК 32.965+81.1 А64 Анализ разговорной русской речи» (АР3-2012): Труды шестого междисциплинарного семинара – СПб.: Филологический факультет СПбГУ, 2012. – 96 с.

ISBN 978-5-8465-1266-5 Издание представляет собой сборник докладов, сделанных на заседаниях шестого междисциплинарного семинара «Анализ разговорной русской речи» (АР3-2012), проходившего 27 – 28 августа 2012 года в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук при финансовой поддержке СПбГУ (НИР 31.41.237.2012) и Российского фонда фундаментальных исследований (грант № 12-06-06006-г). Семинар посвящен обсуждению особенностей разговорной речи и возможных подходов к автоматическому анализу русской речи. Междисциплинарный подход к изучению речи позволит скорее продвинуться в моделировании речевой деятельности и решить фундаментальную проблему человеко-машинного диалога.

ББК 32.965+81. Издание осуществлено за счет средств гранта Российского фонда фундаментальных исследований № 12-06-06006-г ISBN 978-5-8465-1266-5 © СПИИРАН, © Коллектив авторов, © С. Лебединский, оформление 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Оглавление Г.Е. Кедрова, А.В. Вартанов. Экспериментальное исследование акустических коррелятов кинакем в русском языке...……………………………………………………………………… С.В. Андреева. «Докоммуникативные знаки» в разговорной речи …………………………… А.А. Горлова, Н.А. Слепокурова. Редукция предударных компонентов словоформ в спонтанной речи..……………………………………………………………………………….... В.О. Верходанова, А.А. Карпов. Анализ подходов к устранению речевых сбоев при распознавании спонтанной речи ………………………………………………………………... Г.В. Дорохина. Анализ методов распознавания речевых команд на основе алгоритма DTW А.А.Конев, Р.В. Мещеряков, И.А. Ходашинский. Распознавание гласных звуков по информации о первой и второй гармонике …………………………………………………….. С. О. Тананайко, К.Р. Садуртинова. Фонетические варианты морфологических единиц.

Опыт создания словаря.…………………………………………………………………………. И.С. Кипяткова. Программный модуль ARTTranscriber-2 для автоматического создания базовых и альтернативных транскрипций слов ………………………………………………... М.Ю. Зулкарнеев, С.Х. Сальман, Н.Г. Шамраев. Исследование факторной модели языка для распознавания русской речи ………………………………………………………………... М.А. Мясоедова, З.П. Мясоедова, Н.В. Петухова, М.П. Фархадов. Русский жестовый язык:

банк жестов РЖЯ в письменной форме ………………………………………………………… В.Ю.Пискунова. Синтез речи как средство исследования интонационных характеристик высказывания …………………………………………………………………………………….. Е.А. Огородникова, Э.И. Столярова, А.А. Балякова, С.П. Пак, Т.В. Кузьмина. Адаптация методик тренинга слухоречевой функции к задачам освоения русского языка инофонами.. А.И. Савельев, А.Л. Ронжин. Комплекс средств для обработки речевых сигналов в интерактивных мобильных приложениях ……………………………………………………… В.Ю. Будков, М.В. Прищепа, К.Ю. Баранов. Моделирование психологически комфортных условий речевого взаимодействия пользователя с информационным мобильным роботом.. 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Экспериментальное исследование акустических коррелятов кинакем Московский государственный университет имени М.В. Ломоносова, Отношения артикуляции и производимого в результате артикуляционных действий акустического эффекта, как и извлечение полезных признаков из акустического сигнала всегда стояло в ряду первоочередных задач фонетики и экспериментальной фонетики в том числе. Еще в начале 20 в. Л.В. Щерба в своей фундаментальной работе «Русские гласные в качественном и количественном отношении» писал: «… самый главный недостаток в наших системах гласных – это незнание связи между акустическими и физиологическими их качествами» [1]. На важность понимания единства речевой артикуляции и акустики речи указывал уже И.А. Бодуэн де Куртенэ, который не только настаивал на необходимости четкого различения понятий «фонема», «кинема», «акусма», но также предложил и новый термин – «кинакема» в качестве синтеза двух последних понятий, необходимого для построения адекватной фонетической теории. Кинакема определялась Бодуэном де Куртенэ как «сочетание в сложном двуликом представлении произносительной, фонационной стороны со слуховой, аудиционной стороной» [2]. Впоследствии именно эти его идеи легли в основании так называемой кинакемной теории восприятия речи, которая в течение многих лет разрабатывается В.Я. Плоткиным [3, 4].

Хотя с момента публикации щербовского высказывания прошло достаточно много времени, тем не менее, проблема установления корреляции между артикуляторным и акустическим представлением речевого сигнала не потеряла своей актуальности. Среди разнообразных подходов к решению этой проблемы выделяется подход, сформулированный в русле так называемой моторной теории восприятия речи. Основоположники этой теории, как в России, так и за рубежом, полагали, что разрабатываемая ими теория взаимосвязи артикуляционных и акустических параметров речи, которая концентрировалась на изучении релевантных для фонетической системы языка артикуляционных (моторных) действий и их комплексов в их связи с акустическими характеристиками речевого сигнала, позволит со временем эффективно моделировать ментальные стратегии, используемые человеком при восприятии речи [5, 6]. Позже эти идеи были переработаны и развиты в русле так называемой нео-моторной теории [7, 8, 9]. Постулирование существования некоторого особого специального промежуточного модуля (механизма), который является единым как для производства, так и для восприятия речи, позволяет соединить фонетические (фонологические) представления и акустику речи [10]. Предполагалось, что таким образом ученые смогут как бы «перекинуть мостик» между представлении о функционировании языковых механизмов при производстве речи, основанным, в первую очередь, на фонемной теории, и современными знаниями о физических свойствах речевого сигнала, который отличает крайне высокая степень вариативности всех его акустических параметров (см., напр., обзор вариативности акустических характеристик русской речи в работе [11]).

Поэтому именно артикуляторные модели языка и лежащие в их основе нейрофизиологические механизмы становятся в последнее время все чаще предметом углубленного, чаще всего междисциплинарного, исследования. Результаты экспериментальных работ в этой области подтверждают наличие некоего внутреннего промежуточного психофизиологического механизма, практически мгновенно осуществляющего «фильтрацию» акустического сигнала, соответствующего речевому высказыванию, с целью вычленения в нем «полезных» признаков и подавления 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург информационного «шума», нерелевантного для распознавания и понимания речи [12, 13], [14, 15, 16]. Использование новейших экспериментальных методов и техники (напр., исследование активности коры головного мозга с использованием функциональной магниторезонансной томографии при восприятии и распознавании речевых стимулов [17]) позволило получить новые эмпирические данные, также подтверждающие некоторые базовые положения моторной теории.

Для изучения возможной корреляции между базовыми параметрами динамических артикуляторных моделей, описываемыми в терминах кинакемной теории, и акустическими характеристиками звучащей речи нами было предпринято пилотное экспериментальное исследование. В качестве экспериментального материала были взяты фонозаписи чтения в нормальном и убыстренном темпе двумя дикторами (мужской и женский голоса) специально подготовленного набора русских слов (280 слов), сбалансированного по представленности в нем базовых параметров русской фонетической системы. В соответствии с кинакемной теорией В.Я. Плоткина в качестве основы описания речевых артикуляций была взята система кинакем, разработанная им для русского языка и изложенная в книге «Фонологические кванты» [4]. В ней кинакема рассматривается как некоторый элемент речевой программы, неразрывно связанный со звуком, который служит его реализации и опознанию, но это не звук, а квант деятельности, работы по производству и восприятию звука, который непосредственно связан также и с артикуляторными паттернами. Предметом нашего исследования стал поиск возможных акустических коррелятов для следующих базовых признаков системы кинакем русского языка: огубленность, узкорастворность, широкорастворность, палатализация, активная предцентральность, активная зацентральность, пассивная зацентральность, смычность, проточность, шумность, сонорность.

В соответствии с поставленной задачей базовые параметры кинакемной теории были положены в основу алгоритма полуавтоматической (исполняемой вручную в специальной программной среде) разметки экспериментальных звуковых файлов. Предполагалось, что для каждого кинакемного признака можно будет таким образом определить соответствующие изменения в спектральной картине речевого сигнала, которые непосредственно связаны с его реализацией. В качестве основной гипотезы предполагалось, что наиболее адекватным способом отражения этих изменений является подсчет разностного изменения спектра сигнала в заданном временном промежутке (временном окне).

Для достижения поставленных в ходе лингвистического анализа целей и последующей математической обработки были созданы оригинальные программные средства для визуализации, редактирования и разметки звуковых файлов. Соответствующая программа представлена в виде открытого кода, работающего под управлением программного пакета Matlab, и состоит из нескольких m-файлов. Она позволяет одновременно проводить слуховой анализ речевого сигнала и анализ его акустического представления, визуально представленный в виде спектрограммы (последовательного набора мгновенных спектров), синхронизированного с ним графика интенсивности исходного звукового сигнала (амплитудный график) и картинки мгновенного спектра в позиции курсора. Имеется также средство для установления различных маркеров, которые далее используются для сохранения и анализа данных о динамике спектральных изменений в определенном (заданном заранее) временном окне в окрестностях каждого маркера. На первой стадии исследования в качестве маркеров использовались перечисленные выше кинакемные признаки. С помощью разработанного программного средства двумя экспертами-фонетистами – сотрудниками филологического факультета МГУ была осуществлена разметка подготовленных фонозаписей с целью временной фиксации моментов реализации теоретически выделяемых речевых единиц низшего (субфонемного) уровня – кинакем и их признаков.

Необходимо отметить, что уже на первом этапе исследования в ходе обработки экспериментального материала было обнаружено, что кинакемная теория в ее каноническом 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург виде не дает возможности полностью и адекватно отразить все потенциально релевантные для восприятия и опознавания носителями русского языка значимых звуковых последовательностей русской речи акустико-артикуляционные параметры. В первую очередь, это относится к звукотипам русского языка, реализация которых представляют собой сложные артикуляционные комплексы, т.е. соответствующие этим звукотипам фонемы являются неоднородными в отношении исполняемой артикуляционной программы.

К таким языковым единицам относятся смычные согласные [т], [т’], [д], [д’], [б], [б’], [п], [п’], [к], [к’], [г], [г’], аффрикаты [ц], [ч’], вибранты [р], [р’]. Для проверки гипотезы о значимости данного параметра на предварительном этапе было проведено два варианта кинакемной разметки звучащего экспериментального материала – с учетом признака артикуляционной неоднородности фонемы и без учета данного признака. Полученные результаты свидетельствуют о релевантности данного признака, поэтому для дальнейшей обработки аналогичных фрагментов звуковых файлов были разработаны и применены специальные правила учета неоднородности фонемной артикуляционной программы. Кроме того, уже на начальном этапе исследования нами были опробованы разные временные окна подсчета динамики спектральных изменений – 100 мсек. и 60 мсек., в результате этой апробации была принята рекомендация по установлению оптимальной величины окна в мсек. как временного промежутка рассмотрения динамики спектральных изменений, дающего наиболее стабильные результаты.

В целом полученные на первом этапе экспериментального исследования данные подтверждают выдвинутые нами гипотезы. В частности, они свидетельствуют о том, что каждой выделяемой экспертом (в полуавтоматическом или в автоматическом режиме) кинакеме из заявленного списка может быть поставлен в соответствие определенный достаточно устойчивый паттерн спектральной динамики акустического представления звукового сигнала. Этот паттерн достаточно стабилен как в нормальном темпе произнесения, так и при убыстренном темпе речи (хотя и не для всех рассмотренных кинакем в равной степени). Мы считаем, что, используя разработанные экспериментальные методики, такой паттерн в дальнейшем может быть выделен экспертом (и/или в автоматическом режиме) по разным образцам речи (например, с учетом разных типов эмоционально окрашенной речи), а также – в перспективе – может быть применен для разработки антропоморфных моделей автоматической идентификации артикуляторных моторных комплексов (как и соответствующих им звукотипов и/или фонем).

В качестве иллюстрации некоторых полученных на первом этапе результатов мы даем в Приложении на рисунках 1–4 для наиболее дифференцированных кинакемных признаков (таковыми по нашим данным оказались признаки широкорастворности, узкорастворности, шумности, палатализации) результаты их выделения в виде усредненного по всем образцам (и по способам разметки) разностного изменения спектра речевого сигнала с необходимой статистикой, показывающей степень надежности и воспроизводимости выделения данных признаков речевого сигнала.

Экспериментальное исследование проведено в рамках проекта, поддержанного грантом РФФИ № 11-06-12036.

1. Щерба Л.В. Русские гласные в качественном и количественном отношении. С.Петербург, 1912, 73 с.

2. Baudouin de Courtenay, J., “Rznica midzy fonetyk a psychofonetyk”, in Sprawozdania z posiedze Towarzystwa Naukowego Warszawskiego, Wydzia I jezykoznawstwa i literatury, XIX, Warszawa, 1927, pp. 3-9.

3. Plotkin, V., “The Kinakeme as the Ultimate Unit of Language”, Kwartalnik Neofilologiczny, XXV(3), 1978, pp. 275–288.

4. Плоткин В.Я. Фонологические кванты. Новосибирск: ВО «Наука». Сибирская издательская фирма, 1993.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 5. Чистович Л.А., Галунов В.И. О связи моторной теории с общей проблемой распознавания речи. Акустический журнал, Т. 11, 1965, C. 417-426.

6. Liberman, A., Cooper, F., Shankweiler, D. and Studdert-Kennedy, M., “Perception of speech code”, Physiological review, 74 (6), 1967, pp. 431– 461.

7. Liberman, A. and Mattingly, I., “The motor theory of speech perception revised”, Cognition, 21, 1985, pp. 1–36.

8. Lindblom, B., “Role of articulation in speech perception: Clues from production”, JASA, 99(3), 1996, pp. 1683–1692.

9. Сорокин В.Н., 2007. Моторная теория восприятия речи и теория внутренней модели. Информационные процессы, Том 7, № 1, C. 1 – 12.

10. Сорокин В.Н., Теория речеобразования. Радио и связь, М., 1985.

11. Скрелин П. А., Евдокимова В. В. Вариативность реализаций гласных фонем в спонтанной речи и чтении. Второй междисциплинарный семинар «Анализ русской разговорной речи» (АР3- 2008). Россия, СПИИРАН, Санкт-Петербург. 27– 12. Lindblom, B. and Lfqvist, A., “Speech motor control”, Current Opinion in Neurobiology, 4, 1994, pp. 823–826.

13. Fowler, C.A. and Turvey, M.T., “Immediate compensation in bite-block speech”, Phonetica, 37, 1980, pp. 306-326.

14. MacFarland, D.H. and Baum, S.R., “Incomplete compensation to articulatory perturbation”, JASA, 97(3), 1995, pp. 1865–1873.

15. Gracco, V. and Lfqvist, A., “Speech motor coordination and control: evidence from lip, jaw, and laryngeal movements”, The Journal of Neuroscience, 14(11), 1994, pp. 6585Honda, M. and Kaburagi, T., “Speech compensation to dynamical structural perturbation of the palate shape”, in Proc. 5th Seminar on Speech Production, Kloster Seeon, Bavaria, 17. Vatikiotis-Bateson, E., Hirayama, M. and Kawato, M., “Neural Network Modeling of Speech Motor Control Using Physiological Data”, ATR Auditory and Visual Perception Research Laboratories, Inuidani, Seika-cho, Soraku-gun, 1998. Kyoto 6199/02, Japan. In the Web: URL: http://www.haskins.yale.edu/Reprints/HL1083.pdf. (дата обращения:

Рис. 1. Разностные изменения спектра речевого сигнала для кинакемного признака широкорастворность. (Слева: при временном окне в 60 мсек., справа: при временном окне в 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Рис. 2. Разностные изменения спектра речевого сигнала для кинакемного признака узкорастворность. (Слева: при временном окне в 60 мсек., справа: при временном окне в Рис. 3. Разностные изменения спектра речевого сигнала для кинакемного признака шумность. (Слева: при временном окне в 60 мсек., справа: при временном окне в 60 мсек Рис.4. Разностные изменения спектра речевого сигнала для кинакемного признака палатализация. (Слева: при временном окне в 60 мсек., справа: при временном окне в 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Первосигнальные речевые проявления, когда звучание опережает осмысление эмоций, мы условно называем «докоммуникативными знаками», или звуковыми жестами.

Оттолкнувшись от идеи И.Н. Горелова о разграничении условно-рефлекторных и безусловно-рефлекторных звучаний [1], положим в основу нашей классификации оппозицию: условно-рефлекторные речевые проявления (УРРП) – безусловно-рефлекторные речевые проявления (БРРП). Безусловно-рефлекторные речевые проявления – это первичная система непроизвольных восклицаний, связанная с подсознанием и сближающая человека с животным миром1:

Ой-ёё! (1) (вставая) Ну/ пойду//;

(Сморщившись) О-ох! (2) Что-то опять колет!;

(Автомобиль «подрезала» другая машина. Водитель, вспыхнув) У-ух! Блин! (3).

Выделенные безусловно-рефлекторные речевые реакции (1,2,3), непроизвольно возникающие в ответ на какое-либо неожиданное явление, ощущение, нельзя считать подлинной речью: «они не являются передачей сообщения о событии или отношении с помощью кодов языка» [2]. Характерно, что и М. Купарашвили характеризует автоматические речевые проявления как находящиеся «перед сознанием», опережающие его включение [3].

Как известно, А.А. Леонтьев, раскрывая закономерности психологии общения, выделяет первосигнальные (по И.П. Павлову) речевые реакции [4]. Дифференцируя понятия речевого поведения и речевой деятельности, И.Н. Борисова различает автоматические, непроизвольные речевые проявления (эмоциональные, аффективные, физиологические) и произвольные речевые поступки (выражение сочувствия, утешение и т. п.) [5]. По наблюдениям К.Ф. Седова, понятие «дискурсивное поведение» включает в себя, кроме осознанных и целенаправленных, речевые поступки «помимовольные» и не вполне контролируемые [6].

Считаем, что безусловно-рефлекторные речевые проявления могут быть отнесены к специфической сфере, названной Ж. Дюреном «инфра-языковой» (от лат. Infra – ниже, под).

Согласно его теории, человек, наступивший на кнопку босой ногой и испустивший крик или громкое ругательство, осуществляет речевое (и неречевое) поведение в рамках указанной сферы. Непроизвольные восклицания, постанывания и покряхтывания «как будто существуют до той парадигмо-синтагматической «игры», которая со времён Соссюра считается самой существенной чертой явления «человеческая речь» [7].

Как показывают наблюдения, «докоммуникативные знаки» отличаются спаянностью с конкретной ситуацией. Эти непредикативные речения Ай! Ой! Фу! (ощущение отталкивающего запаха) Фу ты! Ха-ха! и т.п. характеризуются отсутствием диктумной части (пропозиционального содержания). «Докоммуникативный знак» в отличие от коммуникативного не направлен на речевое взаимодействие собеседников. По мнению В. Гладрова, высказанному им в личной беседе с автором во время II Конгресса Согласно учению И.П. Павлова, первая сигнальная система свойственна и человеку, и животным. Эта система непосредственного восприятия действительности создается органами чувств. Посредством второй сигнальной системы, свойственной только человеческому сознанию, осуществляется отвлечение от непосредственного восприятия, обобщение данных этого восприятия.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург исследователей русского языка (2004), междометия только сигнализируют о «ментальном»

состоянии того, кто их воспроизводит. В. Гладров, видимо, включает в понятие «ментальный» и ощущения. Нам представляется более адекватным термин «психофизиологическое» состояние, так как речь идет об эмоциональном, физическом состоянии человека, а также о некоторых личностных его качествах. Такие непроизвольные речевые проявления (междометия и некоторые звуковые комбинации), вслед за Е.Д. Поливановым [8], считаем звуковыми жестами, поскольку они не столько сигнификативны, сколько сигнальны.

Таким образом, «докоммуникативный знак» (или звуковой жест) – это самостоятельная непредикативная нечленимая междометная речевая единица, имеющая сигнальную функцию (часто это сигнал о неблагоприятном психо-физиологическом или эмоциональночувственном состоянии говорящего).

Общепризнано, что в устной речи процесс формирования высказывания протекает параллельно с процессом мышления, тем не менее проблема соотношения сознания и мышления, языка и речи психолингвистами однозначно ещё не решена. Согласно одной из распространённых точек зрения, кодирование речевого сообщения проходит сложный путь от мысли к развёрнутому высказыванию. Всё начинается с возникновения мотива, рождающего потребность что-то передать другому человеку; эта потребность воплощается в замысле, или мысли, которая представляет собой лишь самую общую схему сообщения. С помощью механизма внутренней речи мысль и её семантическое представление перекодируется в глубинно-синтаксическую структуру будущего высказывания, которая далее превращается в поверхностно-синтаксическую структуру и, наконец, в линейно упорядоченное развёрнутое высказывание [9].

Психолингвисты выделяют три этапа в порождении речевого высказывания. Первый этап носит психологический характер и связан с мотивами речи, её целями, речевой интенцией [10]. Второй – этап внутренней речи – характеризуется семантикограмматическим формированием высказывания. Развитие внутренней речи идёт от первичных малодифференцированных форм к «внутреннему говорению». На завершающей фазе внутренняя речь максимально развёрнута и приближается по своей структуре к внешней речи [11]. Третий этап представляет собой материализацию речевого замысла через звуковое оформление высказывания (внешняя речь). Как показывает наш материал, трёхэтапная структура порождения высказывания в разных типах и видах устной речи не всегда реализуется полностью.

Для исследования закономерностей функционирования «докоммуникативных» и коммуникативных знаков продуктивно подразделение устной речи на такие её разновидности, как спонтанная и продумываемая речь [5]2. Первая разновидность характеризуется повышенной ролью компонентов конситуации, даже «интервенцией ситуации» (И.Н. Борисова). Здесь возможна параллель с онтогенезом речевого общения. Как известно, до овладения нормами, регулирующими коммуникацию, ребенок приспосабливается к речевому поведению взрослых через «ситуативную речь». Постепенно его речь развивается от ситуативной, порождаемой ситуацией, к «контекстной» [12].

Соответственно в детской ситуативной речи «докоммуникативные знаки» появляются как первичная реакция на внутреннюю или внешнюю ситуацию.

Особенности психологических механизмов и условий функционирования «докоммуникативных знаков» (отсутствие программирования речевого целого и конкретного высказывания, непосредственность реакции на внешний или внутренний стимул;

При исследовании структуры русского диалога И.Н. Борисова учитывает три степени спонтанности устной речи: неподготовленная, частично подготовленная, подготовленная речь (в нашей терминологии – спонтанная, продумываемая, продуманная). Однако следует отметить, что разграничение реальных фактов устной речи с этой точки зрения не всегда однозначно и даже не всегда возможно.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург максимальная степень неосознанности/автоматизма речепроизводства и т.п.) определяют их специфические лингвистические черты.

При изучении междометий лингвисты неизбежно сталкиваются с проблемой произвольного и мотивированного знака. По мнению С. Карцевского, в языке господствует произвольный знак, разделяемый на означаемое и означающее, которые связаны между собой только в силу социального принуждения. Ведется непрестанная борьба между тенденцией к произвольности и противоположной тенденцией к мотивированности знака.

Представляя собой мотивированный знак, междометие в то же время принадлежит языку, который оказывает существенное воздействие на его отличительные признаки.

«Означаемое», правда, сохраняет не-концептуальную ценность, но «означающее» часто испытывает аналитическое действие фонологической системы [13].

Часть единиц междометного типа используется в звукоподражательных целях. Вряд ли во время диалога один собеседник обратится к другому: Ку-ка-ре-ку! Но вот пример реальной речевой ситуации:

(Собеседники А. и В. общаются, входит С. Весело обращается к обоим) Дорогие мои/ ку-ку/ ку-ку/ ку-ку// Шесть часов/ уже скоро//.

Как показывает пример, звукоподражание используется с конкретной коммуникативной интенцией: в шуточной форме сообщить о том, что время беседы истекает.

Лингвистическая специфика междометий-реакций, обозначенных нами как «докоммуникативные» знаки, принадлежащих не-концептуальному плану, хорошо видна на фоне концептуальной природы других языковых знаков. Сопоставим междометие со знаменательным словом (существительным), местоименным словом и звукоподражательным словом по следующим признакам: наличие / отсутствие звукового комплекса, лексического значения, грамматического значения, категориального значения.

Как видим, знаменательное слово (существительное), обозначающее предмет, характеризуется наличием всех трёх значений. У местоименного слова, указывающего на предмет, отсутствует лексическое значение. Звукоподражательные слова, напротив, обладают только лексическим значением. Общим для всех междометий является отсутствие у них концептуальной значимости. Междометиям не свойственно ни лексическое, ни грамматическое, ни категориальное значения вследствие отсутствия у них логического понятийного содержания. Следовательно, они лежат как бы «за гранью» собственно языковой – коммуникативной – системы. Это обстоятельство мы считаем аргументом в пользу того, что междометия, входящие в первичную систему рефлекторных восклицаний, являются «докоммуникативными» знаками. Вместе с тем, по справедливому утверждению В.С. Юрченко, междометия находятся «в пределах языка», поскольку слово может не иметь значения, но оно не может не иметь звучания. При отсутствии понятийного содержания междометия своей материальной стороной выражают эмоции говорящего [14].

Относятся ли к «докоммуникативным знакам» звукоподражательные слова (или в традиционной формулировке: правомерно ли включение звукоподражательных слов в состав междометий)?

По мнению Н.Ю. Шведовой, «к междометиям относятся также звукоподражательные слова» [15]. А.Н. Тихонов акцентирует семантические, словообразовательные и интонационные отличия звукоподражательных слов от междометий: «Звукоподражательные слова существенно отличаются от междометий семантически: не выражают ни эмоций, ни побуждений… Семантика звукоподражательных слов не находится в тесной зависимости от интонации… Они являются активной частью системы языка, обогащая её словообразовательные ресурсы, фразеологический фонд, эмоционально-экспрессивные возможности» [16]. Как нам кажется, сделанные А.Н. Тихоновым акценты свидетельствуют о том, что ученый присоединяется к тем «некоторым исследователям», которые считают звукоподражательные слова самостоятельной частью речи (особым морфологическим классом слов).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Можно продолжить сопоставление. Многие из «докоммуникативных» звуковых жестов однотипны в разных языках, т.е. при их воспроизведении задействован конечный список фонем в разных вариациях. Гипотетически это свидетельствует о большой степени их универсальности. К тому же возможна параллель в появлении таких звуковых жестов, как Ой! Ах! Фу! и т.п., с криком и плачем, наблюдаемыми у ребенка в постнатальный период его жизни, т.е. без обучения.

Что касается звукоподражательных слов, то здесь, по сведениям фоносемантистов, можно говорить об обусловленности звукового облика слова значением этого слова: «зная значение звукоизобразительного слова, можно предположить его звуковую структуру на уровне фонемотипа в любом языке. Например, обозначение удара в любом языке будет связано со взрывными согласными и/или аффрикатой: ср. рус. топ-топ, тик-так, стук;

англ. dab «бой барабана», clack «стук», chip «рубить топором» [1], однако сами фонемы в разных языках не совпадают.

С позиций нашего исследования, на поставленный вопрос следует отрицательный ответ: звукоподражательные слова не относятся к «докоммуникативным знакам» (звуковым жестам). Диффереренциальным признаком выступает коммуникативно-функциональная характеристика звукоподражательных слов и звуковых жестов.

Нами были разграничены три вида передаваемой в речевом общении информации: 1) фактуальная, 2) метакоммуникативная, 3) дискурсивная [17]. Представляется, что можно говорить и о так называемой сигнальной «информации» звуковых жестов, выполняющих только сигнальную функцию. Сигнальная «информация» – это информативность непроизвольных речевых проявлений (в том числе табуированных восклицаний и их заменителей) в плане выражения психо-физиологического и эмоционально-чувственного состояния говорящего.

В отличие от звуковых жестов звукоподражания несут в себе элементы информации двух других видов: фактуальной и метакоммуникативной. Об элементах фактуальной информации позволяет говорить звуковая мотивированность их лексического значения, благодаря чему они менее «привязаны» к интонации, менее контекстуально и ситуативно зависимы, чем междометия. Любой носитель языка без труда поймет, что выражают звукоподражания ква-ква, тик-так, кап-кап, апчхи и т.п. [16].

Информация второго вида – метакоммуникативная – обусловлена взаимодействием автора речи с ее адресатом, т.е. связана с организацией общения. Так, использование звукоподражательных слов может быть обусловлено установкой на «живописание» (ср.: С крыши капает и С крыши кап-кап, кап-кап) или на общение с ребенком (Мяу-мяу уже спит; Принеси тик-так) [18, 19, 20].

Из сказанного следует, что, хотя и звукоподражания, и звуковые жесты «не служат орудием выражения мысли», для их разграничения есть коммуникативно-функциональное основание. Как известно, еще А.А. Потебня писал, что должны подлежать разграничению непроизвольные эмоциональные речевые проявления («язык чувства») и осознанные проявления рациональной сферы («язык мысли») [21].

Условно можно выделить три ступени «коммуникативизации» речевых проявлений.

Первая ступень – безусловно-рефлекторная речевая реакция (смех Ха-ха!). Вторая ступень – условно-рефлекторная реакция (смех Ха-ха! «от повтора», например, повторного жеста комедийного персонажа [1]). Третья ступень – условно-рефлекторное речевое проявление в виде звукоподражания (Хи-хи-хи да ха-ха-ха! Не боится, знать, греха [Пушкин]). В отличие от «докоммуникативных» звуковых жестов, представляющих собой безусловнорефлекторные речевые проявления[22]3, звукоподражания вследствие звуковой мотивированности их лексических значений могут считаться началом истинной знаковой Звуковые жесты «предзнакового» характера можно сравнить с непроизвольно возникающими вокализациями, сопутствующими физиознакам и жестам детей младенческого и раннего возраста.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург коммуникации. Как тонко заметил Э.Г. Аветян, «прогресс знака оказывается регрессом в области единства звука и значения» [23]. Между выделенными ступенями существуют переходные случаи.

Во многих работах вместе со звукоподражаниями рассматриваются и волевые побуждения, призывы междометного характера (Цыц! Гоп! Тпру! Но-о! и др.). Видимо, можно говорить о совмещении элементов фактуальной и метакоммуникативной информации и в них. Например, в побуждении Цыц! содержится как фактуальная составляющая (призыв прекратить что-нибудь или замолчать), так и метакоммуникативная – в плане интерперсональных отношений собеседников (ср. Цыц! с Умолкни/Остановись!; по данным словаря, Цыц! – это «окрик, выражающий запрет» [24]). От звукоподражаний побуждения и призывы отличает то, что своим звуковым составом они не всегда воспроизводят «издаваемые человеком, животными, предметами звуки, а также разнообразные явления природы, сопровождаемые звуками» [16].

Характерно, что «Русская грамматика» (1980) в качестве слов-предложений рассматривает совершенно разные по языковому статусу и коммуникативнофункциональной характеристике факты (нельзя не отметить, что именуемые словамипредложениями явления не соответствуют определению предложения, данному «Русской грамматикой»). Наряду с «выражениями утверждения или отрицания» Да/Нет (в нашей трактовке это коммуникативы, точнее – «коммуникативы-местоимения», так как выражают отношения предицирования в ответ на модальные вопросы) как однопорядковые явления анализируются выражения «различных чувств, эмоций» Ах! Ох! (в нашей трактовке – звуковые жесты), а также выражения «эмоционального отношения и реакций» Ну и дела!

(коммуникативы), «приветствия, пожелания» Счастливого пути! (гибридные коммуникативы) [25].

В устно продуцируемой речи «докоммуникативные знаки» могут функционировать в качестве коммуникативных средств. Так, коммуникативная составляющая фиксируется в «докоммуникативных знаках», например, в ситуации пародирования:

А. (поёживаясь) Бр-р! – Б. Ага! Бр-р?! Говорила тебе/ говорила жилетку//.

Междометные контактивы частотны в телефонных разговорах на этапе установления контакта:

Л. (с радостью) Ой! Танечка/ привет!.

Непроизвольный «возглас-междометие» Ой! не только сигнализирует опознавание адресата, но и выражает радость по поводу контакта, т.е. совмещает функции звукового жеста и собственно коммуникатива.

Таким образом, условно-рефлекторные речевые проявления – это развивающаяся система, ядерными единицами которой в устной речи являются предикативная единица и собственно коммуникатив. Безусловно-рефлекторные речевые проявления – это первичная система непроизвольных междометных восклицаний, ядро которой отличается статичностью. Единицы указанных систем соседствуют и взаимодействуют в разговорной речи, следовательно, можно говорить о взаимодействии систем «докоммуникативных» и коммуникативных знаков в речевой коммуникации.

Литература 1. Шляхова С.С. Тень смысла в звуке: Введение в русскую фоносемантику. Пермь, 2. Лурия А.Р. Язык и сознание. 2-е изд. М., 1998. 203 с.

3. Купарашвили М. Бессознательные основы человеческого мышления. Омск, 1996. 16 с.

4. Леонтьев А.А. Основы психолингвистики. М., 1997.

5. Борисова И.Н. Русский разговорный диалог: структура и динамика. Екатеринбург, 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 6. Седов К.Ф. Становление структуры дискурсивного мышления языковой личности:

Психо- и социолингвистические аспекты. Саратов, 1999. 9 с.

7. Дюрен Ж. О стереолингвистике // Коммуникативно-смысловые параметры грамматики и текста. М., 2002. 275 с.

8. Поливанов Е.Д. По поводу звуковых жестов японского языка // Статьи по общему языкознанию. – М., 1968. 295 с.

9. Лурия А.Р. Основные проблемы нейролингвистики. М., 1975. 51 с.

10. Жинкин Н.И. Психологические основы развития речи // В защиту живого слова. М., 11. Соколов А.Н. Внутренняя речь и мышление. М., 1968. 43 с.

12. Рубинштейн С.Л. Основы общей психологии. М., 1946.

13. Карцевский С. Введение в изучение междометия // Вопросы языкознания. 1984. № 6. С.

14. Юрченко В.С. Очерки по философии языка и философии языкознания. Саратов, 15. Шведова Н.Ю. Междометия // Русский язык. Энциклопедия. М., 1997. 230 с.

16. Тихонов А.Н. Звукоподражательные слова // Русский язык. Энциклопедия. М., 1997.

17. Андреева С.В. Устная речь: Виды информации, единицы коммуникации и их реализация. Germany: LAP LAMBERT Academic Publishing, 2012.

18. Шахнарович А.М. Проблемы мотивированности языкового знака в онтогенезе речи // Общая и прикладная психолингвистика. М., 1973.

19. Исенина Е.И. Дословесный период развития речи у детей. Саратов, 1986.

20. Лепская Н.И. Язык ребенка (онтогенез речевой коммуникации). М., 1997.

21. Потебня А.А. Мысль и язык. Киев, 1993. 67 с.

22. Werner H, Kaplan B. Symbol formation. N.Y., 1963.

23. Аветян Э.Г. Природа лингвистического знака. Ереван, 1968. 55 с.

24. Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка. М., 1993. 908 с.

25. Русская грамматика: В 2 т. М., 1980. Т. 2. 420 с.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Редукция предударных компонентов словоформ в спонтанной речи anastasia.a.gorlova@gmail.com, n.slepokurova@gmail.com Данная работа посвящена исследованию редукции предударных компонентов словоформ в русской спонтанной речи. Под редукцией в статье понимается любое сокращение числа звуков в предударной части словоформы в сравнении с ее идеальной фонемной транскрипцией.

В представлениях отечественных специалистов по орфоэпии сама мысль о возможности полной количественной редукции гласных в русском литературном произношении допускалась очень редко. Так, Р.И. Аванесов считает ее возможной только для некоторых отдельных слов (например, про[въл]ка (проволока), и на месте заударных «о»

и «ы» между двумя «в»: сли[вв}ый (сливовый) [Аванесов 1984: 105-106]. Что касается спонтанной речи, то хорошо известно, что редукция является ее яркой и неотъемлемой чертой. Имеются даже описания позиций, в которых происходит утрата гласных (см., например [Русская разговорная речь 1973]). Считается, что эти утраты обусловливаются в основном их позицией относительно ударения. Существуют также более детальные описания таких утрат – известно, например, что гласные выпадают чаще всего между мягкими согласными, между одинаковыми согласными и в соседстве с группой согласных [Бондарко 1988: 73-74]. Сразу же следует отметить, что наблюдения, сделанные в настоящем исследовании, далеко не во всем согласуются с упомянутыми источниками.

Если в традиционном подходе к русской орфоэпии сама возможность редукции в устной литературной речи недооценивалась и почти отрицалась, то, читая некоторые сегодняшние работы, посвященные фонетике спонтанной речи, особенно те из них, которые основаны на наблюдениях над отдельными привлекшими внимание исследователей яркими примерами нарушения прескриптивных произносительных норм, можно иногда, напротив, придти к выводу о том, что в спонтанной речи на сегментно-фонетическом уровне господство редукции является беспредельным.

Именно поэтому целью настоящего исследования была попытка выявления количественного аспекта редукции, т.е. подлинного масштаба утраты гласных и согласных в предударной части словоформ при сплошном анализе аудиозаписей спонтанной речи.

Материалом исследования послужил корпус затранскрибированной радио- и телевизионной спонтанной диалогической речи, объем которого составляет около 90 минут непрерывного звучания. Полное транскрибирование указанного аудиотекста, выполненное высококвалифицированными экспертами-фонетистами, проводилось методом экспертных оценок с использованием компьютерных звуковых редакторов и обязательным текущим анализом динамических спектрограмм [Венцов и др. 2011].

Описываемый анализ в целях облегчения исследовательской процедуры проводился не последовательно по тексту, но по созданному на основе затранскрибированного корпуса частотному словарю словоформ, учитывающему абсолютно все варианты произнесения одних и тех же орфографических форм. Из анализа исключались лишь так называемые стяженные словоформы – группы слов, которые невозможно разделить фонетически из-за «слияния» конечного звука предшествующей словоформы с начальным звуком последующей. В общем итоге из всего количества проанализированных в данной работе 4472 словоформ было выделено 332 словоформы с утратой звуков предударном компоненте, что составляет 7,4% от их общего числа.

Попытка структурирования типов редукции в отобранных 332 словоформах включала несколько этапов. Первым из них была классификация редукции по типу и количеству 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург утраченных звуков. По этому принципу редуцированные словоформы разделились на три группы:

1. Словоформы с утраченными гласными (129 словоформ, 39% общего количества словоформ с редукцией);

2. Словоформы с утраченными согласными (137 словоформ, 41%);

3. Словоформы с утраченными несколькими звуками, т.е. с утраченными компонентами словоформ (66 словоформ, 20%).

Эти группы ниже описываются по отдельности, так как при попытках их внутренней классификации учитывались разные факторы.

Утрата гласных Гласные редуцировались в разных позициях: наиболее частотным типом утраты гласных оказались 75 случаев выпадения гласных между согласными, доля редукции гласных в соседстве с другими гласными оказалась меньшей (54 случая).

Утраты гласных между согласными были зафиксированы, как это явствует из нижеприведенных примеров, в 1-ом, 2-ом и 3-ем предударных слогах1:

сего+дня[s'vы+d'i] воспита+ние[v*spta+n'E] преподава+ть[pr*pdava+c] Яросла+в[jErsla+] называ+ется[n*zva+jc] харизмати+ческий[xr'izmat'i+isk'i] писа+ть[psa+t'] положе+нии[plae+n'E] преподава+тели[prp*dava+t'El'E] В целом в рассмотренном материале преобладали и оказались сопоставимыми по количеству выпадения гласных между согласными в первом и втором предударных слогах вне зависимости от того, являются ли утраченные гласные компонентами начальных или неначальных слогов соответствующих словоформ. Существенно и то обстоятельство, что даже в длинных словоформах из предударной части мог выпадать как правило лишь один гласный. Наиболее подверженным редукции во всех предударных слогах оказался гласный [i], что кажется естественным, поскольку этот гласный в позиции вне ударения обычно «представляет» не только сам себя, но и безударные варианты гласного [е] и гласного [а] после мягкого согласного. Любопытно, что мягкость предшествующих согласных при выпадении [i] чаще всего сохранялась, хотя, как это видно из вышеприведенных примеров, в ряде случаев могла и утрачиваться. Выпадения гласных [ы] и [u] из предударного компонента словоформ были буквально единичными, что, впрочем, безусловно может быть связано как с ограниченностью объема исследуемого корпуса, так и с более низкой частотой встречаемости этих гласных в русской речи.

Случаи редукции гласных в соседстве с другим гласным были разделены на приблизительно равные по количеству группы элизий и стяжений. Названные фонетические явления достаточно хорошо описаны в теоретической лингвистике, общим условием их появления в устной речи считается наличие в соответствующих словоформах зияния, т.е.

скопления гласных. Известно также, что русский, как и вообще любой естественный язык, зияний избегает: в русском языке, в частности, они возможны в основном лишь на стыках морфем и в заимствованиях (переулок, поискать, радио, поэт и т.д.), данные нашего корпуса, кстати, полностью подтверждают это наблюдение. Универсальными способами устранения зияний в устной речи, к которым прибегают носители разных языков, являются, с одной стороны, использование эпентез, т.е. «вставок» между соседними гласными паразитических согласных (Italia (итал.) – Италия (русск.), шпион – шпиён, туалет – Знаком * в транскрипции помечены неидентифицированные экспертами гласные, знак + обозначает ударность предшествующего гласного, символами е и Е обозначаются варианты соответствующей фонемы, соответственно, после твердых и мягких гласных. Остальные символы транскрипции являются вполне традиционными.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург тувалет), с другой – «выталкивание» «лишних» гласных либо по принципу стяжения двух соседних гласных фонем в одну (старослав. прииду, прииму – русск. приду, приму), либо элизии, т.е. попросту удаления одной из соседствующих гласных (la entre – l'entre (франц.), Palazzo de oro – Palazzo d’oro (итал.)). И хотя различение стяжений и элизий и в теории, и практически оказывается не всегда простым и ясным, для интерпретации наших данных оно оказалось вполне конструктивным: к стяжениям были отнесены словоформы, в которых два соседних гласных «стягивались» в качественно новый, «третий» гласный, группу же элизий составили словоформы, в которых один из двух соседних гласных, напротив, сохранялся в произношении неизменным, в то время как второй утрачивался.

Ниже приведены образцы стяжений (слева) и элизий (справа) в предударных компонентах словоформ:

Было обнаружено, что стяжения с участием ударного звука и стяжения, которые не затрагивают ударный звук, могут происходить по весьма сходным правилам, о чем свидетельствует, например, совпадение качества стяженного гласного в ударной и безударной позициях в словоформах вариа+нта и необходи+мый в приведенных выше примерах. В то же время в словоформе приорите+тные на основе зияния тех же «исходных» гласных произнесен стяженный безударный гласный более высокого подъема, что в общем-то тоже не нарушает существующих представлений об артикуляции гласного во втором предударном слоге. Приведенные примеры стяжений достаточно наглядно показывают, что наиболее яркие по качеству (и количеству) стяжения образуются из зияний с начальным гласным [i], – вероятно, потому, что при утрате этого гласного сохраняется мягкость предшествующего согласного, которая, как хорошо известно, является в русском языке одним из главных факторов, определяющих масштабы аллофонного варьирования гласных.

Что касается группы редуцированных словоформ с элизией гласных, то, пожалуй, единственным внятным признаком, позволяющим предположить действие каких-то общих правил, является опять-таки положение относительно ударного гласного: в сочетании «первый предударный – ударный гласный» практически всегда редуцируется предударный гласный, т.е. ударный гласный оказывается намного «сильнее», что кажется вполне естественным, и, будучи таковым, «съедает» предшествующий ему гласный. Случаи же редукции, не затрагивающей ударный гласный, как правило представлены единичными примерами и не поддаются какой-либо систематизации.

Утрата согласных Явление редукции согласных в устной форме русского литературного языка неплохо отрефлексировано в лингвистической литературе. В целом признается, что согласные в потоке речи иногда склонны к ослаблению и выпадению. Обычно выделяют два возможных типа редукции: выпадение согласных в интервокальной позиции и выпадение согласных в группе согласных [Кодзасов 1973].

Для устного литературного языка даже описаны некоторые способы упрощения консонантных кластеров, состоящих из трех согласных. Например, считается, что упрощению могут подвергаться группы согласных, где все три звука (или хотя бы два из них) – одного места образования и два последних являются смычными (сочетание -стн-), 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург при этом утрачивается центральный смычный [Русская разговорная речь 1973: 87].

Полагают, однако, что эти упрощения не являются обязательной нормой и в некоторых словах могут появляться только в качестве разговорных вариантов.

В то же время выпадение согласных в интервокальной позиции, по мнению специалистов по орфоэпии, абсолютно невозможно в устном кодифицированном языке, так как оно нарушает оптимальный вид звуковой цепи. Однако в первых же исследованиях по фонетике спонтанной речи это явление было обнаружено в некоторых высокочастотных словах: глаголах типа ходит, местоимениях типа себя и др.

В рассмотренном нами материале в рамках предударного компонента словоформы было выделено два типа редукции согласных звуков: выпадение согласного в интервокальной позиции (23 словоформы, 17% общего количества словоформ с выпавшим согласным) и выпадение согласного из группы согласных (114 словоформ, 83%).

Вопреки вышеизложенным предположениям, самыми частотными в нашем материале оказались утраты в кластерах, состоящих из двух согласных: в 91 словоформе из 114 был зафиксирован именно этот тип редукции. Склонность к выпадению при этом продемонстрировали разные типы согласных – и сонорные, и шумные, и смычные, и щелевые вне зависимости от начального либо неначального положения самого кластера в составе словоформы. Ниже приведены примеры, демонстрирующие потери в сочетаниях двух согласных, занимающих разные позиции в предударной части словоформы:

Такие же примеры можно привести и для сочетаний из трех и четырех согласных:

Выпадение согласных в позиции между гласными фиксировалось гораздо реже, чем выпадение согласных из группы согласных. В то же время представляется, что отдельные слова с таким типом редукции являются довольно частотными не только в данной выборке, но и в устном языке в целом:

В итоге оказалось, что чаще всего, по данным нашего анализа, утрачиваются смычные согласные [t], [d] и щелевые [f], [v] и сонорные согласные выпадают реже, чем 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург шумные. Кроме того, выявлено, что в интервокальной позиции чаще выпадают мягкие согласные.

Утрата нескольких звуков В рассмотренном материале обнаружено 66 словоформ с утратой из предударной части неких компонентов, состоящих из гласных и согласных. Ниже приведены примеры подобной редукции, из которых видно, что утраченные компоненты могут состоять из разного числа звуков и занимать как начальную, так и неначальную позицию в предударных частях словоформ:

Этот тип редукции оказался совершенно несистематизируемым, хотя непредвзятый просмотр списка редуцированных форм наводит на мысль, что некоторые из них являются весьма устойчивыми и достаточно широко используются не только в нашем скромном по объему корпусе, но и в современной устной речи вообще.

Несмотря на то, что содержанием данной работы являлись демонстрация и попытка анализа типов редукции гласных и согласных в предударной части словоформ, составляющих корпус русской спонтанной речи, основным ее итогом является, на наш взгляд, все-таки относительная незначительность масштабов этой редукции: представленные данные говорят о том, что более 90% предударных компонентов всех словоформ, вошедших в описанный корпус устной спонтанной речи, произнесены несколькими дикторами без всяких потерь в сегментном составе.

Этот важный вывод «оттеняется» тем еще не упоминавшимся обстоятельством, что редукция в заударных частях проанализированных в работе словоформ оказалась, наоборот, столь масштабной и бессистемной, что попытки ее выявить, посчитать и осмыслить оказались трудно осуществимыми. Некоторое представление о ней дают приведенные выше примеры.

Полученные результаты, несомненно, служат подтверждением неоднократно высказывавшихся гипотез об артикуляторной и перцептивной важности предударной части словоформы. Действительно, в теории речевой деятельности принято считать, что начало слова является более выделенным, более «сильным» по сравнению с его концом. Об этом же говорит и традиция противопоставления в русской фонетике предударных и заударных слогов. Считается, что начало слова всегда произносится громче, чем его завершение, и в заударных слогах все его акустические параметры ослабляются, поэтому предударные слоги оказываются в более выгодном фонетическом положении [Бондарко 1998: 221-223;

Николаева 2012: 87-89]. В кругах исследователей восприятия речи также существуют гипотезы, в соответствии с которыми и с перцептивной точки зрения принципиально важны именно предударные части слов, так как по ним прежде всего производится поиск и выбор нужной словоформы в перцептивном словаре, представляющем собой нижний уровень ментального лексикона.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Очевидным недостатком представленного в работе анализа является его оторванность от реального контекста, в котором находились редуцированные словоформы в потоке спонтанной речи: с большой вероятностью можно предполагать, что какие-то типы утрат гласных и согласных могли бы найти более точное и разумное объяснение при учете позиции конкретной словоформы в просодическом контуре соответствующего высказывания.

Полученные результаты, разумеется, следует рассматривать как предварительные, поскольку совершенно ясно, что представленные цифры в большой степени определяются конкретными лексико-статистическими параметрами рассмотренной выборки и едва ли могут переноситься на свойства русской спонтанной речи в целом. Они, тем не менее, представляют большой интерес, поскольку являются абсолютно новыми и позволяют оценить некоторые – в том числе и количественные – аспекты различий между реальной картиной естественной речевой деятельности и идеализированными представлениями о ней, навязываемыми господствующей в лингвистике концепцией прескриптивной транскрипции.

1. Аванесов Р.И. Русское литературное произношение. – М.: Просвещение, 1984.

2. Бондарко Л.В., Вербицкая Л.А., Гейльман Н.И. и др. Фонетика спонтанной речи / Под ред. Н.Д. Светозаровой. – Л.: Изд-во ЛГУ, 1988.

3. Бондарко Л.В. Фонетика современного русского языка. – СПб.: Изд-во С.-Петербург.

4. Венцов А.В., Слепокурова Н.А., Апушкина И.Е., Корешкова Е.И., Риехакайнен Е.И.

Из опыта работы с русской спонтанной речью: создание фонетически транскрибированных текстов. // Материалы Х выездной школы-семинара "Проблемы порождения и восприятия речи". – Череповец, 2011. С. 169-179.

5. Кодзасов С.В. Фонетический эллипсис в русской разговорной речи // Теоретические и экспериментальные исследования в области структурной и прикладной лингвистики.

– М., 1973. С.148-159.

6. Николаева Т.М. Интонационный поток и его функциональные соседи // Человек говорящий: исследования XXI века / под ред. Л.А. Вербицкой, Н.К.Ивановой. – Иваново, 2012. С. 83-89.

7. Русская разговорная речь / Отв. ред. Е.А. Земская. – М.: Наука, 1973.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Анализ подходов к устранению речевых сбоев при распознавании Санкт-Петербургский государственный университет, Санкт-Петербургский институт информатики и автоматизации Российской академии 1. Введение Речь отличается от письменного текста. И так как очень немногие из нас обладают способностью гладко и красноречиво оформлять свои мысли, не передумывая, не сомневаясь и не сбиваясь, можно смело утверждать, что одной из основных черт спонтанной речи является наличие пауз, хезитаций, повторений, самокоррекций, усеченных слов и т.п.

Хотя эти речевые сбои изучались и ранее, формально их исследование началось только в 50-х годах 20 века, независимо развиваясь в рамках разных дисциплин: психологии, лингвистики, физиологии. Американский психолог Венделл Джонсон внес существенный вклад в исследование заиканий [1]. В рамках общей лингвистики речевыми сбоями среди других ученых занималась Фрейда Голдман-Эйслер [2]. Существенный вклад в исследование речевых сбоев в психотерапии внес Джордж Ф. Маль со своими коллегами [3]. С тех пор речевые сбои стали изучать в разнообразных научных областях (изучение заикания, общая лингвистика, когнитивная психология, психология сознания, фонетика, гендерные исследования, психология, акустика, технологии обработки языка и речи и т.д.) [4].

Несмотря на многосторонние исследования речевых сбоев, общепринятая терминология в этой области пока не сложилась. Для описания этих явлений существует различные варианты альтернативных терминов, например, в англоязычной литературе можно встретить такие термины, как «non-fluency, dysfluency, discontinuity, flustered speech, speech disturbance, hesitation, speech management, own communication management, turnholding devices» и др. [4]. В русскоязычной литературе их иногда рассматривают в рамках фонационных паралингвистических явлений, также можно встретить термины внеязыковые элементы речи, «речевые сбои» [5, 6, 7].

2. Классификация речевых сбоев Возникновение сбоев в речи может быть вызвано как внешними воздействиями, так и сбоями планирования [7]. Сбои в планировании, в свою очередь, могут иметь разную природу, и среди них можно выделить заполненные паузы хезитации, самоисправления (или самокоррекции) и оговорки.

Паузы хезитации (паузы колебания) представляют собой перерыв в фонации, часто заполненный некоторыми звуками. Обычно такие паузы представляют собой семантические лакуны и свидетельствуют о том, что говорящему требуется дополнительное время на формулирование следующего за текущим фрагмента высказывания [8, 9].

Типы заполнения пауз хезитации [7]:

1) Абсолютная пауза 2) Удлинение отдельных звуков в словах 3) Словоподобные, «долексические» заполнения паузы 4) Вспомогательные элементы дискурса (слова и словосочетания (как сказать)) Самокоррекция возникает, когда в некоторой точке дискурса говорящий решает, что определенный фрагмент порожденного им высказывания не соответствует по какой-либо 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург причине его намерениям. В этом случае говорящий может прибегнуть к самоисправлению, заменить полностью или частично повторить не устроивший его фрагмент [7].

Можно говорить о следующих типах самоисправлений [7]:

1) Онлайн коррекция, когда говорящий сразу же после ошибки исправляет обнаруженную проблему.

2) Ретроспективная коррекция, или редактирования, при которой говорящий редактирует готовый фрагмент дискурса постфактум.

Вспомогательные элементы дискурса – это дискурсивные элементы, которые не несут предметно-фактической информации, но выполняют некоторые функции в речи. В действительности они направлены на оптимизацию и организацию общения. По выполняемой функции их можно разделить на следующие типы [10]:

1) Единицы, структурирующие речевой поток:

обозначают последовательность информативных блоков (во-первых, прежде вводят дополнительную информацию (впрочем, кстати), обозначают роль фрагмента высказывания (теперь о главном), показывают отношение говорящего (как известно, на мой взгляд, к метакоммуникативной информации, такие как этикетные формулы (добрый день!), актуализаторы (да, ага, правда), интимизаторы общения (слушай, знаешь, смотри, представь), Традиционно к речевым сбоям относят еще оговорки, которые приводят к непроизвольному использованию говорящим незапланированных им фрагментов [11].

Можно ввести следующую классификацию речевых сбоев:

1) Нарушение внешних условий коммуникации:

Вмешательство собеседника 2) Внутренние проблемы планирования дискурса:

• Словоподобные, «долексические» заполнения паузы Самоисправления (самокоррекции) по режиму исправления:

В зарубежной литературе принято описывать временные характеристики сбоев. Так, согласно описанию в работе Шриберг [12] используются следующие термины:

“reparandum” (кратко “RM”) – репарандум, участок звукового сигнала, который соответствует всему удаленному отрезку речи;

“interruption point” (“IP”) – начало речевого отрезка, соответствующее «моменту прерывания» чистой речи и возникновению речевого сбоя;

”interregnum” (“IM”), (у других авторов «редактирующая фаза» [13] или «интервал сбоя» [13]) – длительность речевого сбоя, этот термин использовался для обозначения временного отрезка от RM до начала исправления, и при этом он может и не содержать редактирующего элемента (например, незаполненная 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург пауза может быть использована говорящим для перепланировки высказывания “repair” (“RR”) – исправление, это участок речи, который соответствует 3. Методы выявления речевых сбоев в спонтанной речи Исследования речевых сбоев показали, что человек легко выделяет их из речи [14, 15].

Но для системы автоматического распознавания речи не понятно, на основании каких признаков должен производиться анализ, какие знания следует привлекать в ходе сегментации и классификации. Поэтому пока не созданы адекватные модели речевых сбоев, обеспечивающие их обработку в автоматическом режиме. Тем не менее, данное направление является крайне актуальным: всевозможные речевые сбои, такие как заполненные паузы, удлиняют высказывания. Также они замедляют автоматическую обработку речи и вызывают различного рода ошибки, вследствие того, что системы распознавания обучаются на структурированных предложениях без речевых сбоев, что приводит к формированию ошибочных транскрипций.

Методы обработки речевых сбоев можно разделить по признаку описания их с помощью акустических моделей или с помощью комбинированных (языковые + акустические). Но в силу объективных причин (временные и экспертные затраты) исследователи часто используют только акустические модели речевых сбоев для реализации их системах автоматического распознавания речи.

3.1. Методы выявления речевых сбоев в спонтанной речи за счет параметрической обработки сигнала Существует широкий спектр работ, посвященных моделированию речевых сбоев в рамках создания систем автоматического распознавания речи [16, 17, 18]. Также существует группа подходов, направленных на повышение качества распознавания спонтанной речи за счет предварительного выявления речевых сбоев и их устранения из звукового сигнала на этапе цифровой обработки еще до того, как данные поступают на вход системе автоматического распознавания речи [19] или устранение сбоев с использованием транскрипций речи [18, 20].

Так, в работе [19] авторы разработали алгоритм, который определяет и удаляет заполненные паузы и повторения из речевого сигнала. Для определения границ заполненных пауз применялись следующие характеристики: длительность, частота основного тона, спектральные и формантные характеристики. Для выделения и последующего удаления повторений предложенный алгоритм также учитывал длительность и частотность повторяющихся отрезков, а также разницу между логарифмами амплитуд спектра каждой пары голосовых фрагментов вокруг долгой паузы при этом учитывался тот факт, что повторения чаще всего сопровождаются паузой. Эксперименты проводились на искусственно созданных небольших базах данных (три диктора, 40-60 предложений) только с одной паузой или повторением в предложении. В итоге, точность распознавания слов повысилась в случае использования алгоритмов определения повторений и заполненных пауз соответственно на 10% и 20%, а при совместном использовании – на 30%.

В работе [16] авторы описывают метод выделения заполненных пауз и удлинений слов в японской спонтанной речи на основе двух характеристик: небольшого изменения частоты основного тона и небольшой деформации спектральной огибающей. Процент распознавания (количество правильно распознанных заполненных пауз к общему количеству заполненных пауз) составил 84.9 % (107/126) и точность распознавания (число правильно распознанных заполненных пауз к общему выделенному числу заполненных пауз) составила 91.5% (107/117).

В работе [21] авторы исследуют проблему составления корпуса пауз и удлинений для португальской спонтанной речи, а также построения акустических моделей этих явлений. В 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург статье рассматриваются заполненные паузы и сегментные удлинения. Принятие решения о наличии хезитации в речи производилось в случаях: (1) гласный был длиннее установленного порога (350 мс для португальских гласных); (2) появляются последовательности одинаковых звуков; (3) возможные согласные между гласными очень короткие. Учитывались следующие характеристики этих хезитаций: частота основного тона, энергия и спектр.

3.2. Методы выявления речевых сбоев в спонтанной речи с использованием языкового моделирования Ряд работ направлен на улучшение распознавания речевых сбоев за счет использования дополнительных источников знаний, а именно различных языковых моделей. В работе [17] авторы рассматривают три типа речевых сбоев: (1) повторение, (2) редактирование (замена содержимого) и (3) рестарты (или фальстарты). Материалом для исследования послужила часть корпуса Switchboard-I, а также ее транскрипции: как сделанные вручную, так и полученные на выходе системы распознавания речи. В качестве просодических характеристик были использованы нормализованная длительность слов и пауз и частота основного тона, а также джиттер, спектральный наклон и соотношение времени, когда голосовые связки разомкнуты к общей продолжительности гортанного цикла. Помимо просодики, были построены три типа языковых моделей: (1) вероятностная языковая модель, описывающая совместное появление ключевых слов и внеязыковых элементов в потоке спонтанной речи; (2) синтаксическая модель языка, использующая статистику по частеречной принадлежности для анализа случаев возникновения речевых сбоев и выявления тенденций, обусловленных синтаксическими закономерностями, для выявления таких типов речевых сбоев как, например, повторение предлогов; (3) синтактико-стохастическая модель языка для выявления повторений. Эксперименты показали, что совместное употребление всех моделей значительно улучшает распознавание моментов прерывания. Процент распознавания моментов прерывания на транскрипциях, сделанных вручную в случае применения всех трех моделей (просодическая, вероятностная и синтаксическая) составил 56.76%, точность – 81.25%, общая точность – 98.10% (против 55.47%, 79.33% и 98.01% для одной вероятностной модели). На транскрипциях, полученных системой автоматического распознавания речи (АРР), общая точность составила 97.05%. Результаты для распознавания моментов прерывания были следующие: точность на сделанных вручную транскрипциях на транскрипциях, сделанных системой АРР, - 97.05%.

В работе [20] авторы рассматривали следующие речевые сбои: (1) единицы, подобные предложениям (например, назывное предложение в английском); (2) редактирующие речевые сбои, которые включают синтаксически значимое содержание: пересмотры (замена содержания), фальстарты и сложные сбои, которые состоят из набора сбоев; (3) словазаполнители, которые включают паузы, дискурсивные маркеры и явные редактирующие слова (например, «видишь ли», «простите», «ой»). Материалом послужили два разных по жанру корпуса: корпус телефонных разговоров (CTS) и корпус радиотрансляций (BN). В качестве источников знаний использовались как лексические свойства (совместная встречаемость слов с другими словами или с соседствующими явлениями, по частеречным тэгам или по их семантическому классу), так и просодические свойства (длительность (слов, пауз, звуков), частота основного тона, энергия и информация о паузах). Для построения моделей были применены следующие алгоритмы: 1) скрытые Марковские модели (Hidden Markov Model, HMM), 2) модель максимальной энтропии (Maximum Entropy Model, ME), 3) случайные поля (Conditional Random Fields, CRF). Результаты распознавания речевых сбоев и слов-заполнителей представлены в таблицах 1 и 2.

В работе [20] авторы анализируют редактирующие слова (повторы, фальстарты и так далее) и заполнители (дискурсивные маркеры или паузы, такие как «ты знаешь», «эм») на материале транскрипций по корпусу телефонной речи (CTS) и по корпусу новостных радиопередач (BNEWS). Авторы использовали обучающий алгоритм, основанный на 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург трансформациях (TBL). Для построения правил использовались следующие свойства:

учитывалась лексема (само слово), частеречный тэг, информация о том, следует ли за словом пауза и является ли слово высокочастотным (т.е. является ли оно более частотным в речи данного говорящего, чем во всем корпусе). Для корпуса CTS 27% ошибок определения редактирующих сбоев и 19% ошибок определения слов-заполнителей появились, когда система АРР не поняла слова (если система ошибается в паузе, она всегда отмечает ее как сбой). Также возникала проблема, когда система удаляла редактирующее слово или заполнитель. И, наконец, контекст сбоев тоже оказался важен. Оказалось, что система чаще всего ошибалась на редактирующих сбоях из-за присутствия длинных и сложных для определения редактирующих явлений.

Таблица 1 – Результаты распознавания речевых сбоев с применением различных методов моделирования корпуса корпуса Таблица 2 – Результаты распознавания слов-заполнителей В работе [22] авторы рассматривали исправления, фальстарты и моменты прерывания (IP) на материале 2й, 3й и 4й части аннотированного корпуса Switchboard. Для каждого предложения для определения кандидатов в исправления запускался анализ с помощью стохастической формальной TAG (tree-adjoining grammar) модели зашумленного канала.

Вероятностная синтаксическая модель языка оценивала согласованность (fluency) каждой гипотезы, и модель максимальной энтропии выбирала наиболее вероятную гипотезу, учитывая оценки языковой модели и другие параметры. Заполнители определялись независимо с помощью небольшого набора детерминистических правил, а моменты прерывания IPs определялись с помощью комбинации выходных данных из модулей 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург определения исправлений и заполнителей. Общая схема обработки предложений показана на рисунке 1 [22].

На основе предложенной архитектуры авторами решались следующие задачи:

(1) выделение редактирующих слов, (2) выделение заполнителей, (типы заполнителей также различались: заполненные паузы, дискурсивные элементы и явные редактирующие слова);

(3) выделение момента прерывания. Каждая задача выполнялась для двух типов входных данных: для созданной вручную транскрипции и для полностью автоматического результата системы распознавания. Результаты для каждой задачи показаны в таблице 3.

Таблица 3 – Результаты, полученные для каждой задачи выявления речевых сбоев Сделанная вручную 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Таким образом, видно, что однозначно лучшего решения проблемы речевых сбоев на сегодняшний момент нет. Однако, оба направления методов очень перспективны. В связи с тем, что для русского языка не существует разработанных методов автоматической обработки речевых сбоев для автоматического распознавания речи, целесообразно применить несколько методов и сравнить результаты.

4. Заключение В статье представлен обзор существующих методов к выявлению речевых сбоев и их устранению из речевого сигнала при распознавании разговорной речи. Рассмотрены два основных подхода: методы выявления речевых сбоев только за счет параметрической обработки сигнала и комбинированные методы, в которых дополнительно применяется языковое моделирование. Работа выполнена в рамках НИР СПбГУ № 31.37.103.2011.

Литература http://www.uiowa.edu/~cyberlaw/oldinav/wjhome.html 2. Eisler F.G. Psycholinguistics: Experiments in Spontaneous Speech, Academic Press Inc, 3. In Memoriam: George F. Mahl. Yale Bulletin & Calendar, March 24, 2006,Volume 34, Number 23. http://www.yale.edu/opa/arc-ybc/v34.n23/story13.html 4. Proceedings of DiSS’03, Disfluency in Spontaneous Speech Workshop, 5-8 September 2003, Gteborg University, Sweden. Robert Eklund (ed.), Gothenburg Papers in Theoretical Linguistics 90, pp. 3-4.

5. Колшанский Г. В., Паралингвистика, М., 1974. — 81 с.

6. Николаева Т.М. Паралингвистика // Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. — М.: Советская энциклопедия, 1990.

7. Подлесская В.И. Кибрик А.А. Самоисправления говорящего и другие типы речевых сбоев как объект аннотирования в корпусах устной речи / В.И.

Подлесская, А.А. Кибрик // Научно-техническая информация. – Серия 2. – 2007. – 8. Лауринавичюте А.К., Федорова О.В. Влияние паузы хезитации на понимание синтаксической структуры предложения носителями русского языка. Материалы международной конференции «Диалог 2010».

9. Herbert H. Clark, Jean E. Fox Tree. Using uh and um in spontaneous speaking // Cognition, Vol. 84, 2002, pp. 73–111.

10. Андреева С.В., Лингвистические закономерности передачи информации при автоматической обработке речи. Материалы Третьего междисциплинарного семинара «Анализ разговорной русской речи» 26 – 27 августа 2009 года, СанктПетербург, СПИИРАН, C. 10- 11. Сморгонская, Е.В. Психолингвистическая дифференциация и классификация речевых сбоев// Вестник ВГУ. Сер. Лингвистика и межкультурная коммуникация.

12. Levelt, W.J.M. Monitoring and self-repair in speech // Cognition, Vol. 14, 1983, pp. 41Nakatani C.H., Hirschberg J. A corpus-based study of repair cues in spontaneous speech.

Journal of the Acoustical Society of America, 95 (3), 1994, pp. 1603-1616.

14. Shriberg E.E. Preliminaries to a Theory of Speech Disfluencies. PhD thesis, University of California at Berkeley, 1994 –203 p.

15. Кожевникова Кв. О смысловом строении спонтанной устной речи // Новое в зарубежной лингвистике. Выпуск XV. Современная зарубежная русистика. - М., 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 16. Masataka G., Katunobu I., Satoru H. A real-time filled pause detection system for spontaneous speech Recognition // In Proc. of the 6th European Conference on Speech Communication and Technology (Eurospeech '99), pp.227-230, Budapest, Hungary, 17. Y.Liu, E.Shriberg, A. Stolcke. Automatic Disuency Identication in Conversational Speech Multiple Knowledge Sources // In Proc. of EUROSPEECH 2003, Geneva, Switzerland, 1-4 September, 2003.

18. Y. Liu, E. Shriberg, A. Stolcke, D. Hillard, M. Ostendorf, M. Harper. Enriching Speech Recognition with Automatic Detection of Sentence Boundaries and Disfluencies // IEEE Trans. Audio, Speech and Language Processing 14(5), 2006, pp. 1526-1540.

19. M.Kaushik, M.Trinkle, A.Hashemi-Sakhtsari. Automatic Detection and Removal of Disfluencies from Spontaneous Speech // In Proc. of Proceedings of the Thirteenth Australasian International Conference on Speech Science and Technology (SST) Melbourne, Australia, pp. 98-101.

20. Snover, M., Dorr, B., Schwartz, R. A lexically-driven algorithm for disfluency detection // In Proceeding of HLT-NAACL 2004, 2004, pp. 157-160.

21. A.Veiga, S.Candeias, C.Lopes, F.Perdigo. Characterization of hesitations using acoustic models // In Proc. of the 17th International Congress of Phonetic Sciences (ICPhS XVII), pp. 2054-2057. Hong Kong, China, 22. Lease M., Johnson M., Charniak E. Recognizing disfluencies in conversational speech // IEEE Transactions on In Audio, Speech, and Language Processing, Vol. 14, No. 5, 2006, pp. 1566-1573.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Анализ методов распознавания речевых команд на основе алгоритма DTW Институт проблем искусственного интеллекта МОНМС Украины и НАН Украины, 1. Введение Одна из стадий разработки или совершенствования метода распознавания речи – сравнительный анализ характеристик нового и уже известных методов. Целью сравнительного анализа может быть как определение методов, наилучшим образом решающих задачу в конкретных условиях, так и выявление условий, при которых можно получить наилучший результат.

Методы распознавания речевых команд (РК) предполагают несколько этапов обработки звукового сигнала: запись сигнала (с выделением границ речи*), предыскажение* речевого сигнала (РС), параметрическое описание РС, сегментация* РС, сопоставление РС и элементов словаря РК. Каждый из этапов распознавания оказывает влияние на характеристики всего метода. Поэтому говорить о превосходстве некоторого метода сопоставления РС и элементов словаря РК (например, DTW или СММ) считаю корректным, если методы находятся в одинаковых условиях: им предшествуют одни и те же этапы, выполненные одним и тем же способом; совпадают наборы обучающих данных, тестовые наборы, словари РК. Последнее позволит устранить влияние на результаты сравнительного анализа параметров словаря – количества команд, соотношения длин команд, степени фонетической близости команд.

В данном исследовании команды состояли из одного слова.

2. Параметризация методов, речевой материал, критерии оценки Исследование метода распознавания как последовательности этапов, каждый из которых может выполняться определенным способом из заданного набора, позволяет параметризовать метод и анализировать влияние отдельных параметров на общий результат.

Параметрами анализируемого метода в ключе сказанного будут: способ предыскажения РС, способ параметрического описания РС, способ определения границ речи, метод сопоставления РС и элементов словаря РК, объём и содержимое набора обучающих данных, способ обучения системы. Метод распознавания РК при фиксированном значении параметров будем называть модификацией метода. Для удобства сопоставления дадим каждой модификации метода символьное обозначение, отражающее выбранные значения параметров.

Оценку влияния значений каждого параметра проведём отдельно, зафиксировав при этом определенное значение оставшихся параметров. Также зафиксируем обучающую и тестовую выборки, предварительно записав их. Это обеспечит повторяемость результата.

Способ сбора обучающей и тестовой выборки автоматизируем так, чтобы минимизировать усилия диктора и обеспечить возможность последующего автоматического обучения и тестирования системы распознавания.

Перечислим значения неизменных параметров метода и укажем перечень значений исследуемых параметров.

Фиксированные параметры: параметрическое описание РС – MFCC; базовый метод сопоставления РС и элемента словаря РК – алгоритм DTW; содержимое набора обучающих данных – перечень слов из таблицы 1, объём набора – по одному произнесению каждого Используется не во всех методах 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург слова; содержимое набора тестовых данных – слова из таблицы 1 (исключая «_ил», «л_и», «забалов_ать»), объём набора – по одному произнесению каждого слова; способ обучения системы – создание эталона по каждому произнесению команды из обучающего набора (без использования техники квантования векторов).

Таблица 1. Перечень слов, включенных в набор обучающих данных В таблице 1 символ ‘_’ перед гласной указывает положение ударения в слове. Многие элементы данного словаря фонетически очень близки. Обучающий и тестовый набор содержат пары слов, отличающихся одним аллофоном (задыш_ать – надыш_ать, затопать – натопать, л_ай – м_ай, ломать – уломать, нас_едка – сос_едка). Некоторые команды являются фрагментом других команд (дыш_ать – надыш_ать), другие начинаются или оканчиваются одинаковой последовательностью аллофонов (нас_едка – нас_ест, минов_ать – налинов_ать). Отметим также большой разброс длин команд. Такие характеристики словаря выбраны не случайно, а в связи с известными особенностями базового алгоритма DTW [1] (без локальных ограничений и взвешивания, без глобальных ограничений, без нормировки).

1. Метод имеет тенденцию к пропуску отличающихся элементов и учёту сходных, что снижает значимость полученной меры расхождения.

2. Метод не предусматривает нормировки меры расхождения, исходя из длин эталона и распознаваемого сигнала. Команды Ei и Ej могут быть различной длины: ni и nj, соответственно. В результате может возникнуть ситуация, когда при ni nj независимо от произнесения R мера расхождения d(Ei, R) будет меньше d(Ej, R).

Сопоставление РС и элемента словаря РК будем выполнять с помощью модификаций алгоритма DTW. Перечислим параметры алгоритма DTW, используемые в работе значения параметров алгоритма и их символьные обозначения, опираясь на работу [2, с. 211-229].

1. Тип локальных ограничений и взвешивания: I (Lc1), II (Lc2), III (Lc3), IV (Lc4), V (Lc5), Itacura (LcItacura), без локальных ограничений и взвешивания (LcNo).

2. Тип глобальных ограничений на путь выравнивания: глобальные ограничения Itacura (GcItacura), глобальные ограничения Itacura Relaxed (GcRelItacura), глобальные ограничения Sacoe&Chiba (GcSacoeChiba), без глобальных ограничений (GcNo).

3. Допустимое количество пропусков / вставок: 2 (k2), 3 (k3), 4 (k4), 5 (k5).

4. Нормировка: без нормировки [1] (Nw); нормировка по длине пути выравнивания [2] (W); предложенная автором нормировка по длине диагонали прямоугольника со сторонами m и n, где m – количество векторов в эталонном сигнале, а n – количество векторов в распознаваемом сигнале (Wsgv).

Описание типов локальных ограничений и углового взвешивания I, II, III, IV, V, Itacura [2, с. 223] содержит формулы для вычисления элементов DTW-матрицы. В них суммируются расстояния между векторами эталонного и распознаваемого сигналов, умноженные на коэффициент углового взвешивания, зависящий от направления перехода от предыдущего элемента к следующему. Тип локальных ограничений и взвешивания LcNo [1] отличается от LcN1 тем, что коэффициент углового взвешивания является константой и равен 1.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Допустимое количество пропусков / вставок влияет на размер области, допустимой согласно выбранному типу глобальных ограничений. Чем больше это значение, тем больше область и вычислительная сложность алгоритма. Чем оно меньше, тем больше вероятность, что алгоритм не найдет пути выравнивания между командой и её эталоном. Несмотря на то, что каждому типу локальных ограничений соответствует свое значение максимально допустимого количества пропусков / вставок (Lc1 – ; Lc2, Lc3, Lc4, LcItacura – 2; Lc5 – 3) [2, с. 214], в исследовании рассмотрен диапазон значений 2-5.

Перейдем к другим параметрам метода. Параметр «способ предыскажения РС» будет принимать одно из трех значений: без предыскажения y'i = yi (Wd); первая разность сигнала y'i = yi – yi-1 (diff1); предискажение с коэффициентом 0,95 y'i = yi – 0.95·yi-1 (diff095).

В качестве способа определения границ речи используем: точное задание границ речевого фрагмента (CB), задание границ с отступом влево от начала и вправо от конца речи на 1300 отсчетов (CB1300). Введение этого параметра поясним гипотезой о том, что основную информационную нагрузку в РС несут окрестности межфонемных переходов [3].

Тогда, очевидно, значительную информационную нагрузку в части опознавания первого и последнего аллофонов команды могут нести также окрестности переходов фон / речь и речь / фон. Цель введения данного параметра – выяснить, что лучше считать моментом начала (окончания) команды: момент резкого изменения амплитудных и частотных характеристик в сравнении с фоном или более ранний (поздний) момент. Ответ на этот вопрос может помочь избежать: потери важной для распознавания информации; ошибок, приводящих к снижению вероятности распознавания при применении глобальных ограничений пути;

искажений при взвешивании и нормировки по длине пути выравнивания.

В работе используем речевой материал одного диктора, записанный с помощью одного и того же оборудования при сходном акустическом окружении. Обучающий и тестовый набор включают по одному произнесению команды. Они записаны как 8-битный сигнал с частотой дискретизации 22050 Гц. Подсистема записи (на основе работ [4, 5]) автоматически выделяет границы речи, сохраняет в wav-файл РС так, что началу речи предшествует фрагмент фиксированной длины 1, после момента окончания речи также следует фрагмент фиксированной длины 2. Именами файлов являются написания команд с учетом ударения. В записанных сигналах выделены точные границы РС (пример см. на рисунке 1).

Критерии оценки модификации метода распознавания – вероятность распознавания и среднее время распознавания команды. Для анализа влияния параметров на характеристики метода распознавания РК разобьем множество модификаций метода на группы. К одной группе отнесем модификации метода с одинаковым значением исследуемого параметра.

Влияние параметра оценим, исходя из таких характеристик групп модификаций метода:

максимальная вероятность распознавания; относительное количество модификаций метода в группе с вероятностью распознавания выше пороговой; средняя вероятность распознавания модификаций метода с вероятностью распознавания выше пороговой.

3. Результаты исследования В таблицах 2-4 приведены оценки характеристик групп модификаций метода, отобранных по значению исследуемого параметра. Из таблицы 2 видно, что при определении 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург границ речи использование отступов от точных границ РС приводят к росту вероятности распознавания, хотя и замедляют процесс распознавания.

Таблица 2. Зависимость характеристик от способа определения границ речи Средняя вероятность распознавания для модификаций метода с вероятностью распознавания более 85%, % Таблица 3. Зависимость характеристик от предыскажения сигнала Средняя вероятность распознавания для модификаций метода с вероятностью распознавания более 85%, % Таблица 4. Зависимость характеристик от способа нормировки Средняя вероятность распознавания для модификаций метода с вероятностью распознавания более 85%, % Данные таблицы 3 не позволяют отдать предпочтение одному из способов предыскажения РС. По таблице 4 можем сказать, что модификации метода со значениями параметра «способ нормировки» W и Wsgv обеспечивают большую вероятность распознавания. Рассмотрим зависимость характеристик модификаций метода распознавания РК от способа нормировки при значении параметра «способ определения границ речи»

CB1300, которая отражена в таблице 5.

Таблица 5. Зависимость характеристик от способа нормировки в группе «CB1300»



Pages:   || 2 | 3 |
 


Похожие работы:

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОУ ВПО АМУРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ Зав. кафедрой ОМиИ _Г.В. Литовка _2007 г. ИНФОРМАТИКА УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС для специальностей: 040101 – Социальная работа 040201 – Социология Составители: А.Н. Киселева, старший преподаватель О.В. Ефимова, ассистент Т.А. Макарчук, к.п.н., доцент Н.А. Чалкина, к.п.н., доцент Благовещенск, Печатается по решению редакционно-издательского совета факультета математики и информатики Амурского...»

«Уход за детьми Первого года жизни Справочник для молодых родителей Данное издание предназначено для молодых родителей. В нем можно найти советы по уходу за ребенком в течение первого года жизни, рекомендации о том, что делать при первых заболеваниях, что делать и куда обращаться за помощью, информацию о службах и услугах Региональной Санитарной Службы, о присутствии культурных посредников-переводчиков в Семейных консультациях и Отделениях, помогающих молодым мамам-иностранкам и семьям...»

«1. Титульный лист (скан-копия) 2. Технологическая карта дисциплины Информатика 2.1. Общие сведения о дисциплине. Название дисциплины – Информатика Факультет, на котором преподается данная дисциплина – математический Направление подготовки – Информационные системы и технологии Квалификация (степень) выпускника – бакалавр Цикл дисциплин – естественно-научный Часть цикла – базовая Курс – 1 Семестры – 1 Всего зачетных единиц – 5 Всего часов – 180 Аудиторные занятия 90 часов (из них лекции – 36...»

«Предлагаемый Практикум поможет преподавателю при проведении занятий по освоению компьютерной справочной правовой системы ГАРАНТ, изучаемой в рамках курса прикладной информатики студентами юридических, финансовых и экономических специальностей вузов, в соответствии с рекомендациями государственных образовательных стандартов. В нем содержатся практические задания, позволяющие освоить основные возможности и функции системы ГАРАНТ: поисковые и аналитические. Для более подробного изучения системы...»

«Концепция развития Архангельской областной научной библиотеки им. Н.А. Добролюбова (2008-2012 гг.) Архангельск 2008 Проект Концепции одобрен решением коллегии комитета по культуре Архангельской области от 30 июня 2008 г. Разработчики: Степина О.Г., директор библиотеки, Маркова Е.М., заместитель директора по автоматизации Консультационное сопровождение в подготовке Концепции: Ойнас Е.В., Щербакова И.В., эксперты по социокультурному проектированию Эксперты: Афанасьев М.Д., директор...»

«Н. В. Максимов, Т. Л. Партыка, И. И. Попов АРХИТЕКТУРА ЭВМ И ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Рекомендовано Министерством образования Российской Федерации в качестве учебника для студентов учреждений среднего профессионального образования, обучающихся по группе специальностей 2200 Информатика и вычислительная техника Москва ФОРУМ - ИНФРА-М 2005 УДК 004.2(075.32) ББК 32.973-02я723 М17 Рецензенты: к т. н, доцент кафедры Проектирование АИС РЭА им. Г. В. Плеханова Ю. Г Бачинин, доктор экономических наук,...»

«Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт Н.М. Чепурнова Международное право Учебно-методический комплекс Москва, 2008 1 УДК 341 ББК 67.412 Ч 446 Чепурнова Н.М. Международное право: Учебно-методический комплекс. – М.: Изд. центр ЕАОИ, 2008. – 295 с. Чепурнова Н.М., 2008 Евразийский открытый институт, 2008 2 Оглавление Цели и задачи дисциплины Тема 1. Понятие, юридическая природа,...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Пятигорский государственный лингвистический университет УНИВЕРСИТЕТСКИЕ ЧТЕНИЯ – 2013 10-11 января 2013 г. ПРОГРАММА Пятигорск 2013 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Пятигорский государственный лингвистический университет ПРОГРАММА УНИВЕРСИТЕТСКИЕ ЧТЕНИЯ – 2013 10-11 января 2013 г. Пятигорск 2013 1 ПРОГРАММА РАБОТЫ УНИВЕРСИТЕТСКИХ ЧТЕНИЙ – 2013 900 – 10 января: Регистрация участников главный холл университета 1000 – I. Открытие Университетских чтений –...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ: Проректор по учебной и воспитательной работе _ И.В.Атанов _2013 г. ОТЧЕТ о самообследовании основной образовательной программы высшего образования 080800.62 Прикладная информатика (код, наименование специальности или направления подготовки) Ставрополь, 2014 г. СТРУКТУРА ОТЧЕТА О...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУИ АСТРАХАНСКОЙ ОБЛАСТИ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ АСТРАХАНСКОЙ ОБЛАСТИ ЦЕНТР МОНИТОРИНГА В ОБРАЗОВАНИИ Аналитический отчет председателей предметных комиссий о результатах ЕГЭ 2013 года в Астраханской области Аналитический отчет председателей предметных комиссий о результатах ЕГЭ 2013 года в Астраханской области Авторский коллектив: © Ратникова С.С., ГБОУ АО Астраханский технический лицей (математика) © Березина Н.Л., МБОУ г.Астрахани Гимназия №4 (русский...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ РАБОЧАЯ ПРОГРАММА дисциплины: Операционные системы, среды и оболочки для специальности 080801.65 Прикладная информатика (по областям) Факультет прикладной информатики Ведущая кафедра информационных систем Дневная форма обучения Вид учебной работы Курс, Всего часов семестр Лекции 2 курс, 4 семестр...»

«Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт С.Ю. Ягудин Венчурное предпринимательство. Франчайзинг Учебно-методический комплекс Москва, 2008 УДК 347.78 ББК 67.404.3 Я 311 Ягудин С. Ю. ВЕНЧУРНОЕ ПРЕДПРИНИМАТЕЛЬСТВО. ФРАНЧАЙЗИНГ: Учебно-методический комплекс – М.: Изд. центр ЕАОИ. 2008. – 272 с. В учебно-практическом пособии раскрываются основные категории и понятия, особенности,...»

«Государственное бюджетное образовательное учреждение города Москвы Московская международная гимназия АНАЛИЗ РАБОТЫ ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ГОРОДА МОСКВЫ МОСКОВСКАЯ МЕЖДУНАРОДНАЯ ГИМНАЗИЯ ЗА 2013/2014 УЧЕБНЫЙ ГОД Москва 2013 – 2014 учебный год 1 ПЕДАГОГИЧЕСКИЕ КАДРЫ ГИМНАЗИИ В 2013/2014 учебном году в педагогический состав гимназии входило 109 человека. С целью улучшения научно-методического обеспечения учебно-воспитательного процесса в гимназии работали следующие...»

«РОССИЙСКАЯ ФЕДЕРАЦИЯ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ: Первый проректор по учебной работе _ /Л.М. Волосникова/ _ 201г. НАУЧНО-ИССЛЕДОВАТЕЛЬСКАЯ РАБОТА, включая научно-исследовательский семинар Учебно-методический комплекс для магистрантов программы Прикладная информатика в экономике очной формы обучения направления 230700.68 Прикладная...»

«Сведения об авторе. Сведения о дисциплине Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт М.С. Каменецкая Международное частное право Учебно-практическое пособие Москва 2007 Международное частное право УДК - 341 ББК – 67.412.2 К – 181 Каменецкая М.С. МЕЖДУНАРОДНОЕ ЧАСТНОЕ ПРАВО: Учебно-практическое пособие. – М.: Изд. центр ЕАОИ, 2007. – 306 с. © Каменецкая М.С., 2007 © Евразийский открытый...»

«Московская городская педагогическая гимназия-лаборатория №1505 Курсы по выбору – одна из форм организации учебно-познавательной и учебноисследовательской деятельности гимназистов Сборник авторских программ педагогического коллектива гимназии Под ред. канд. пед. наук, ст.н.с. Кучер Т.В. Москва, 2005 г. Настоящий сборник представляет собой пятый выпуск, подготовленный коллективом Московской городской педагогической гимназии-лаборатории №1505 при поддержке. Его содержание – продолжение реализации...»

«УТВЕРЖДАЮ Первый заместитель директора ФГУ ЦНИИОИЗ, Научный руководитель Центра д.м.н., проф., заслуженный деятель науки _ Ю.В. Михайлова Отчет Федерального Центра мониторинга противодействия распространению туберкулеза в Российской Федерации за 2012 г. Руководитель Центра – Нечаева О.Б. Введение Федеральный Центр мониторинга противодействия распространению туберкулеза в Российской Федерации был создан согласно Приказу Министерства здравоохранения и социального развития Российской Федерации от...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ ФГБОУ ВПО СЕВЕРО-КАВКАЗСКИЙ ГОРНОМЕТАЛЛУРГИЧЕСКИЙ ИНСТИТУТ (ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ) Кафедра автоматизированной обработки информации Курс лекций По дисциплине Экспертные системы в поиске и анализе перспективности разработки месторождений для направления подготовки 230100 – Информатика и вычислительная техника Квалификация (степень) выпускника бакалавр Токарева И.В. Составитель: Владикавказ 2013 г Содержание ЛЕКЦИЯ 1. ВВЕДЕНИЕ ЛЕКЦИИ 2-3....»

«Министерство образования и науки Российской Федерации Московский государственный университет печати В.М. Гасов, А.М. Цыганенко ТРЕХМЕРНАЯ ГРАФИКА В МЕДИАИНДУСТРИИ Учебник Допущено УМО по образованию в области полиграфии и книжного дела для студентов высших учебных заведений, обучающихся по специальностям: 230102.65 – Автоматизирование системы обработки информации и управления; 230200.65 – Информационные системы; 074100.65 – Информационные системы в медиаиндустрии Москва 2010 УДК 004.92 ББК...»

«АБДУЛЛАЕВА МАЛИКА ВАХАБОВНА Аппаратно - программный комплекс системы автоматизированной обработки гастроэнтерологических сигналов Специальность: 5А330204– Информационные системы диссертация на соискание академической степени магистра Научный руководитель к.т.н. Кадиров Р. Х. ГОСУДАРСТВЕННЫЙ КОМИТЕТ СВЯЗИ,...»














 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.