WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 

Pages:     | 1 || 3 |

«Шестой междисциплинарный семинар Анализ разговорной русской речи 3 АР - 2012 27 – 28 августа 2012 года, Санкт-Петербург, СПИИРАН Санкт-Петербург 2012 ББК 32.965+81.1 А64 ...»

-- [ Страница 2 ] --

Средняя вероятность распознавания для модификаций метода с вероятностью распознавания более 85%, % Из приведенных данных видно, что использование нормировки в сочетании с отступами от точных границ РС приводит к росту вероятности распознавания и лучшие средние характеристики дают модификации метода распознавания РК, сочетающие значения параметров CB1300 и Wsgv. Назовем эту группу модификаций метода «CB1300+Wsgv».

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Опираясь на результаты анализа групп модификаций метода, рассмотрим характеристики модификаций метода с наибольшей вероятностью распознавания. В таблице 6 приведена вероятность распознавания модификаций метода группы «CB1300+Wsgv» и ближайших к ним модификаций.

Таблица 6. Вероятность распознавания модификаций метода распознавания РК, % Модификации алгоритма DTW 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург При отсутствии глобальных ограничений на путь выравнивания (GcNo) параметр «количество пропусков / вставок» не влияет на результат. Поэтому приведенные в таблице названия модификаций алгоритма DTW с параметром GcNo не содержат обозначений для параметра «количество пропусков / вставок».

Анализ вероятности распознавания показывает, что наибольшую вероятность распознавания обеспечивают модификации метода из группы «CB1300+Wsgv» при отсутствии локальных ограничений и взвешивания (Lc0). При стандартном же способе нормировки по длине пути выравнивания (W) в группе «CB1300» наилучшие результаты получаем при сочетании значений параметров GcItacura и GcRelItacura с k4 и k5, а также GcSacoeChiba с k5.

4. Заключение В работе исследованы характеристики методов распознавания РК на основе алгоритма DTW. При этом предложено рассматривать характеристики метода распознавания как функцию от значений параметров метода.

Наряду с общепринятыми значениями параметров метода опробованы способ определения границ речи с отступом от точных границ РС и способ нормировки по длине диагонали прямоугольника, стороны которого равны длинам (количеству векторов) эталонного и распознаваемого сигнала.

Исследование на словаре из 51 слова, включающего фонетически близкие элементы, показало, что сочетание предложенных значений параметров при отсутствии локальных ограничений и взвешивания обеспечивает наибольшую вероятность распознавания. Также было установлено, какие сочетания типа глобальных ограничений и значений параметра «количество пропусков / вставок» приводят к наилучшим показателям распознавания при нормировке сигнала по длине пути выравнивания.

В последующих работах планируется: проверить полученные в работе результаты на материале других дикторов; оценить степень влияния на полученные результаты использования техники квантования векторов при построении эталонов; исследовать влияние на характеристики метода параметров словаря.

Литература 1. Шелепов В.Ю., Дорохин О.А., Засыпкин А.В., Червин Н.А. О некоторых подходах к проблеме компьютерного распознавания устной русской речи // Труды Междунар.

конф. «Знание-Диалог-Решение». – Том 1. – Ялта, 1997. – С.234-240.

2. Rabiner L., Juang B.H. Fundamentals of speech recognition. New Jersey: Prentice Hall PTR Englewood Cliffs, 1993, 507 p.

3. Шелепов В. Ю., Ниценко А.В., Дорохина Г.В. О распознавании речи на основе межфонемных переходов // Искусственный интеллект, №1. – Донецк: ІПШІ «Наука і освіта», 2012, С.132-140.

4. Шелепов В.Ю. Лекции о распознавании речи – Д.: IПШI «Наука і освіта», 2009, 5. Шелепов В.Ю., Ниценко А.В., Жук А.В. Построение системы голосового управления компьютером на примере задачи набора математических формул // Искусственный интеллект, №3.- 2010, С. 259-268.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Распознавание гласных звуков по информации о первой и второй Томский государственный университет систем управления и радиоэлектроники, 1. Введение Дикторонезависимая идентификация гласных звуков по вокализованным участкам речевого сигнала является одной из актуальных задач. Она позволяет проводить установку базовых сегментов речевого сигнала для формирования фонематического текста. В настоящее время недостаточно полно используется информация об интенсивностях первой и второй гармоники вокализованных участков речевого сигнала.

2. Постановка эксперимента Для проведения эксперимента были определены следующие классы характеристик:

– класс гласного звука;

– значение используемого параметра;

– множество речевых сигналов.

Проведение эксперимента включает в себя две части: сбор статистики по различным классам частот и определение качества распознавания гласных.

Для проведения эксперимента использовались только гласные ударные звуки, причем твердость и мягкость их определяется предыдущим согласным. Всего к этой группе относится 11 гласных (5 мягких и 6 твердых) [1].

Полная классификация гласных включает в себя 21 оттенок ударных и 17 оттенков безударных. Данная классификация является в известной мере упрощенной и содержит классов звуков.

Статистические выборки представляют собой сегменты ударных гласных. Для их формирования использовались полностью отсегментированные речевые сигналы. Выборки набирались из речевой базы, которая содержит набор отсегментированных фраз, в каждой из которых хотя бы один раз содержится каждый звук речи.

Из всего речевого корпуса для набора статистики были использованы сигналы дикторов (5 мужчин, 10 женщин), трех фраз («5», «7» и «15») для женщин и семи фраз для мужчин («5», «7», «15», «22», «28», «36», «44»), для которых имелась сегментация. Таким образом, в статистической выборке присутствовало 65 сигналов.

Для каждой области было выделено 3 класса частот. Каждый класс частот соответствует определенной области частот. Для области частот FI классы различаются для дикторов мужчин и дикторов женщин. Различие объясняется тем, что частота основного тона женского голоса выше, поэтому и частоты гармоник располагаются выше [2]. Классы частот приведены в таблицах 1 и 2.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Таблица 1. Классификация частот в областях FI и FII для дикторов-мужчин Таблица 2. Классификация частот в областях FI и FII для дикторов-женщин Статистика учитывалась только по первым по интенсивности гармоникам, имеющих существенное значение для оценок вокализованных сегментов речевого сигнала. Частоты вторых по интенсивности гармоник представляют интерес только в условных распределениях при фиксированной частоте первой по интенсивности гармоники 3. Результаты проведения экспериментов Проведение эксперимента проходило итерационно в соответствии с методикой [3].

Количество учтенных в статистике траекторий для различных оттенков представлено в таблицах 3 и 4.

Таблица 3. Количество учтенных траекторий оттенков ударных гласных для дикторовмужчин Таблица 4. Количество учтенных траекторий оттенков ударных гласных для дикторовженщин Результаты распределения оттенков гласных в области FI и FII приведены в таблицах и 6. В данных таблицах жирным выделены максимальные среди данных классов частот, вероятности появления траектории гласного в заданной области частот.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Таблица 5. Статистическое распределение частот оттенков гласных в области FI

А О У Ы Э И

А О У Ы Э И

Таблица 6. Статистическое распределение частот оттенков гласных в области FII

А О У Ы Э И

А О У Ы Э И

В соответствии с полученными распределениями для каждого оттенка звука были выбраны области частот с наибольшей вероятностью появления данных звуков (таблицы 7 и 8). Как видно из данной классификации, в некоторых областях частот находится несколько оттенков звуков. Следовательно, для успешного распознавания необходимо разделить данные сегменты частот на подсегменты. Для дикторов мужчин возможно разделение гласных “От” и “Ат” по частоте FI. Для “Ат”, в среднем, FI550 Гц, для “От” FI550 Гц. Для “Ам”, в среднем, FI475 Гц, для “Эт” FI475 Гц. Для “Эм”, в среднем, FI365 Гц, для “Им” FI365 Гц. Для дикторов-женщин звук “Эт” FII1500 Гц, для “Ы” FII1200 Гц. Для “Ум”, FI550 Гц, для “Ам” FI550 Гц. Для “Эм”, FII2080 Гц, в отличие от “Им”.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Тем не менее, необходимо отметить, что такое разделение не всегда возможно.

Например, для звуков “Ом”, ”Ум” и “Ы” для дикторов мужчин эффективное разделение области найти не удалось.

Таблица 7. Классификация звуков по областям частот FI и FII для дикторов-мужчин Таблица 8. Классификация звуков по областям частот FI и FII для дикторов-женщин Результаты проведения экспериментов с данной классификацией гласных приведены в таблице 9. Наилучшие показатели распознавания для дикторов мужчин, звуки “Ат”, “Ут”, “Им”, “Ит”; у дикторов женщин - “Ам”, “Ат”, “Ом”, “От”. Низкие показатели у таких звуков как “Ум”, “Ут” у дикторов-женщин и “Ам”, “Эм”, “Эт” у дикторов-мужчин. Звук “Ы” распознан не был, т.к. для него не был определен класс частотной области.

Таблица 9. Результаты распознавания гласных звуков 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург На результаты распознавания существенное влияния оказывает точность сегментации речевого сигнала на звуки [4, 5]. При достаточно короткой длительности звука, частота FI может быть определена неверно, из-за особенностей алгоритма получения первой по интенсивности гармоники.

4. Заключение Таким образом, представленные результаты показывают возможность использования информации об интенсивности первой и второй гармоники для предварительной классификации гласных звуков. Вместе с тем представленные результаты могут использоваться для определения количества говорящих в сложной акустической обстановке [6].

Литература 1. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. С-П.:

Издательство С-П университета, 1991.

2. Бондаренко В. П., Конев А. А. Оценка точности определения значения частоты основного тона речевого сигнала // Сборник трудов XIX сессии Российского акустического общества. Т. III – М.: ГЕОС, 2007. – С. 33-36.

3. Мещеряков, Р.В. Математическое и алгоритмическое обеспечение в задачах идентификации и распознавания речи. / В.П. Бондаренко, А.А. Конев, Р.В. Мещеряков, А.А. Шелупанов // Вестник Сибирского государственного аэрокосмического университета им. М.Ф. Решетнева. –2006. – №10. – С. 11-14.

4. Конев А.А., Тихонова В.И. Выделение вокализованных звуков в слитной речи // Сборник трудов XVI сессии Российского акустического общества. Том III – М.:

ГЕОС, 2005. – 235 с., С. 47-50.

5. Конев А. А. Мещеряков Р. В. Алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки // Сборник трудов XIX сессии Российского акустического общества. Т. III – М.: ГЕОС, 2007. – С. 56-60.

6. Ронжин Ал.Л., Ронжин Ан.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа, № 1 (22), часть 1, 2011, – 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Фонетические варианты морфологических единиц. Опыт создания Санкт-Петербургский государственный университет, 1. Введение В связи с высокой фонетической вариативностью морфологических единиц существует необходимость описания пределов такой вариативности и представления данных в удобном для анализа виде. Задачей данного исследования стало выявление всех возможных фонетических вариантов морфологических единиц, содержащихся в обрабатываемом материале, и представления данных в виде словаря.

Для достижения поставленной цели выполнялись следующие задачи: представление данных материала в удобном для обработки виде, создание программы автоматического переноса морфемных границ из компьютерного вида словаря морфем русского языка Кузнецовой и Ефремовой на материал, ручная разметка оставшейся части материала, автоматическое создание компьютерного словаря акустических вариантов морфологических единиц в виде базы данных и разработка интерфейса для использования словаря.

2. Материал исследования Материалом обработки являются высококачественные звуковые записи подготовленного чтения профессиональных дикторов (актеры, ведущие радиопередач), полученные при разработке корпуса CORPRES [1] для синтеза речи на кафедре фонетики и методики преподавания иностранных языков филологического факультета СПбГУ в 2007годах. Все дикторы являются носителями нормы современного русского языка.

Словарь фонетических вариантов морфологических единиц создавался на материале двух текстов «Обмен» Юрия Трифонова и «Поздний ребёнок» Анатолия Алексина. Общий объём двух текстов составил 35 000 словоупотреблений. Каждый текст был прочитан четырьмя дикторами.

Звуковые записи корпуса CORPRES содержат разметку, созданную в программе WaveAssistant, на 6 уровнях:

- уровень меток основного тона (G1);

- уровень участков модификации (G2);

- уровень акустической транскрипции (B1);

- уровень идеальной транскрипции (B2);

- уровень орфографической записи слов со специальными пометками для дополнительного логического ударения и для смещенного синтагматического ударения (т.е.

те случаи, когда синтагматическое ударение падает не на последнее слово) (Y1);

- уровень синтагм с указанием типа синтагмы и паузы (R1).

Пример звукового файла с такой разметкой на шести уровнях приведён на рисунке 1.

Для создания словаря морфологических единиц были необходимы три из перечисленных выше уровня: уровень орфографической записи словоформы с пометками смещённого синтагматического и логического ударения, уровень идеальной транскрипции и уровень акустической транскрипции. Информация о разметке каждого уровня хранится в отдельном seg-файле, сохраннёном в текстовом формате. Расширение файла содержит 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург информацию о названии уровня (например, файл с расширением seg_B1 содержит информацию о разметке на уровне идеальной транскрипции).

Рисунок 1. Фрагмент отображения фразы «Юрий Трифонов» в программе Каждая строка текстового документа состоит из 3 элементов, разделенных запятыми.

Первый элемент – временной отсчета, второй – номер уровня разметки, третий – значение метки (название аллофона, слова и т.д.).

Так как в корпусе CORPRES отсутствует уровень разметки на морфемы, первоочередной задачей для создания словаря фонетических вариантов морфологических единиц было создание уровня разметки на морфемы текстов «Обмен» и «Поздний ребёнок».

2. Представление необходимых данных в удобном для обработки виде Для создания уровня разметки на морфемы была создана программа, генерирующая XML-документы на основании seg-файлов, полученных при разметке корпуса в программе WaveAssistant. Программа отбирает seg-файлы, содержащие разметку корпуса на уровне идеальной транскрипции (B1) и на уровне орфографической записи (Y1). Seg-файлы, содержащие разметку уровня идеальной транскрипции, имеют расширение seg_B1, а 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург орфографической записи seg_Y1, что упрощает программную выборку нужных файлов.

Одноименные seg-файлы с различным расширением содержат информацию о разметке на разных уровнях (орфографической записи и идеальной транскрипции) для одного и того же фрагмента записи диктора. Кроме того эти файлы содержат информацию о временных отсчетах, то есть сведения о том, в какой момент времени речевая единица (аллофон или словоформа) встречается в записи диктора. Наличие такой информации дает возможность сопоставить набор аллофонов с орфографической записью словоформы.

Рисунок 2. Фрагмент представления слова характер в xml-документе.

В результате обработки данные seg-файлов представляются в виде XML-файлов.

Разметка такого вида представляет данные в виде иерархии и облегчает обработку материала (рисунок 2). Таким образом, на высшем уровне иерархии имеется орфографическая запись слова и идеальная транскрипция слова, на которых позже происходит проставление границ морфем при помощи принятых обозначений.

3. Автоматическая разметка корпуса Для упрощения создания аннотации на морфемном уровне сначала проводится автоматическое проставление границ морфем на орфографической записи слова с использованием словаря морфем Кузнецовой-Ефремовой[2]. Для этой задачи создаётся программа. Эта процедура позволяет получить разметку только для слов в начальной форме.

4. Ручная разметка корпуса Разметка отсальной части корпуса проводится вручную с опорой на разметку в словаре морфем Кузнецовой-Ефремовой.

При создании уровня разметки слов на единицы более низкого (морфологического) уровня были определны принципы морфемного членения и условные обозначения классов единиц.

Для создания аннотации корпуса на уровне морфем были выделены 6 классов структурно-функциональных единиц:

- «~» - приставка - «=» интерфикс;

- «/» - окончание;

- «^» - постфикс.

5. Автоматическое создание уровня морфологической разметки Формально задача создания разметки морфемного уровня представляла собой создание такого текстового документа, структура которого схожа со структурой описанных выше уровней, при этом на первой позици каждой строки должен был стоять отсчёт, с которого 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург начинается звуковой сегмент, соответствующий морфеме, на второй позиции – номер уровня, на третьей позиции каждой строки – орфографическая запись морфемы с пометкой класса морфемы перед орфографической записью морфемы (например, орфографическая запись корня бир- выглядит следующим образом: *бир). Пример такого файла изображён на рисунке 3.

Рисунок 3. Разметка морфологического уровня слова обмен. Seg-файл, содержащий информацию о разметке на морфемы слова обмен. На 0-м отсчёте начинается морфема ~об (приставка), на 12830 - *мен (корень).

Поскольку при морфологической сегметации границы проставляются на идеальную транскрипцию и на орфографическую запись, возможно получить информацию о том, какой аллофон является началом морфологической единицы и, таким образом, получить значение отсчета для начала морфологического сегмента. Так как сегментация проводилась параллельно и на орфографической записи, и на идеальной транскрипции, то возможно сопоставить морфологические сегменты, вычлененные на орфографической записи и на транскрипции. После создания файлов описанной выше структуры для каждого диктора возможно их чтение программой WA и отображение в виде уровня разметки. Пример отображения информации о морфемной разметке приведён на рисунке 4.

Рисунок 4. Отображение информации о морфемной разметке на уровне Y2.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 6. Создание словаря фонетических вариантов морфологических единиц После создания уровня морфологической разметки возможно создание словаря морфологических единиц. Словарь морфологических единиц представляет собой базу данных, работающую под управлением СУБД Microsoft SQL Server 2008 SP1 express [3] Данный словарь состоит из трех основных и двух вспомогательных таблиц (рисунок 5).

В первую таблицу (Morphemes) собраны все морфологические единицы корпуса, отображенные в виде офрографической записи. Во второй таблице (IdealTranscriptions) собраны все идеальные транскрипции морфологических единиц корпуса. В третьей таблице (AcousticTranscriptions) собраны все акустические транскрипции морфологических единиц корпуса. В двух вспомогательных таблицах харнятся ассоциативные связи между элементами основных таблиц. Каждая запись в первой вспомогательной таблице (MorphmeIdealTrascription) - это связь между орфографической записью морфологической единицы и ее идеальной транскрипции; каждая запись во второй вспомогательной таблице (MorphemeAcousticTranscription) - соответствие офрографической записи морфологической единицы и её акустической транскрипции.

Для работы со словарем создается программа, которая реализует простой пользовательский интерфейс поиска в словаре морфологической единицы и связанных с этой морфологической единицей наборов акустических и идеальных транскрипций (рисунок 6).

Поиск осуществляется по типу и орфографической записи морфологической единицы.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 7. Заключение Результатом проделанной работы стало создание словаря фонетических вариантов морфологических единиц с указанием класса единицы (приставка, корень, суффикс, интерфикс, окончание, постфикс). Всего в базе данных содержится около морфологических единиц разных классов и около 9000 акустических и идеальных соответствующих им транскрипций. Пользовательский интерфейс словаря позволяет по орфографической записи и типу морфологической единицы найти соответсвующие ей варианты акустической и идеальной транскрипции. Данный продукт является удобным средством изучения вариативности морфологических единиц. Также существует возможность пополнения словаря новыми данными.

Литература 1. Р. Виейра. Программирование баз данных Microsoft SQL Server 2005 для профессионалов. СПб, 2008.

2. А. И. Кузнецова, Т. Ф. Ефремова. Словарь морфм русского языка. М., 1986.

3. Pavel Skrelin, Nina Volskaya, Daniil Kocharov, Karina Evgrafova, Olga Glotova, and Vera Evdokimova. CORPRES:Corpus of Russian Professionally Read Speech // In Proc. of TSD’2010, Brno, 2010, pp. 392-399.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Программный модуль ARTTranscriber-2 для автоматического создания базовых и альтернативных транскрипций слов Санкт-Петербургский институт информатики и автоматизации Российской академии 1. Введение В статье представлено описание разработанного программного модуля ARTTranscriberпредназначенного для автоматического создания базовых и альтернативных транскрипций слов, транскрибирования текстов, а также создания расширенного фонематического словаря системы распознавания разговорной русской речи. Программный модуль ARTTranscriber- реализован на основе модельно-алгоритмического обеспечения, разработанного ранее [1,2,3].

модифицированный и адаптированный к кириллице вариант международного фонетического алфавита SAMPA (Speech Assessment Methods Phonetic Alphabet) [4]. В данном варианте используются 46 фонем: 10 – для гласных звуков (4 безударных и 6 ударных) и 36 – для согласных (с учетом твердости и мягкости звуков). Также программный модуль автоматически создает файл, в котором в транскрипции произведена транслитерация обозначений фонем в символы английского алфавита. В разработанном варианте фонемного алфавита знак [!] используется для обозначения ударения в слове, знак [`] – для обозначения акцентированного гласного звука (т.е. второстепенного ударения в слове), знак ['] – для обозначения мягкости согласных и знак ["] для гласной означает ударность в алфавите SAMPA, более детально произведенные модификации описаны в работе [5].

2. Описание программных средств модуля ARTTranscriber- Модуль создания фонематический транскрипций слов (ARTTranscriber) разработан на языке программирования С++ в среде разработки Microsoft Visual Studio 2008. Процесс создания расширенного фонематического словаря системы распознавания разговорной русской речи представлен на рисунке 1.

Первоначальным этапом создания транскрипций является определение ударной гласной/гласных в слове. Для этого используется функция простановки ударений (char GetUdarenieWord (char *pFileName)) подмодуля TranscriberRUS_Stress, pFileName – название файла со списком слов, для которых будут создаваться транскрипции.

Функция создания базовых транскрипций (char TranscribeWord (char *pInputWord, char *pOutputTranscription)) из подмодуля TranscriberRUS_Base создает фонематические транскрипции слов. На вход модуля поступает алфавитный словарь словоформ из текстового корпуса, для которых транскрипции создаются с использованием базовых фонетических правил и подмодуля TranscriberRUS_Stress.

Для обработки аббревиатур буквенного типа прочтения, состоящих только из согласных букв, может быть применен модуль создания транскрипций для аббревиатур (abbrev.pl), который автоматически создает транскрипции. Для аббревиатур звукового типа прочтения вида согласный-гласный-согласный транскрипции создаются функцией TranscribeWord модуля TranscriberRUS. Остальные аббревиатуры автоматически не обрабатываются, так как правильное произношение для них неочевидно. Строка запуска этой программы выглядит следующим образом: perl abbrev.pl words.txt abbrev.txt, где words.txt – обрабатываемый список аббревиатур, abbrev.txt – выходной файл с транскрипцией для аббревиатур с буквенным прочтением.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Рисунок 1 — Процесс создания расширенного фонематического словаря системы Функция создания альтернативных транскрипций (void vGenerateAdvTranscrList (char *chInFileName, char *chOutFileName)) подмодуля TranscriberRUS_Alt из списка базовых транскрипций слов и аббревиатур создает альтернативные транскрипции, которые учитывают вариативность произношения слов в разговорной речи. chInFileName – название файла, содержащего базовые транскрипции слов, chOutFileName – название выходного файла, в который выводятся альтернативные транскрипции. В результате создается алфавитный словарь словоформ с базовыми и альтернативными транскрипциями, соответствующий собранному текстовому корпусу. Затем осуществляется выбор наилучших транскрипций для слов.

На следующем этапе с помощью модуля принудительного выравнивания транскрипций из открытого комплекса программ HTK из сгенерированных альтернативных транскрипций выбирается одна, наиболее подходящая соответствующему речевому сигналу из обучающей базы данных.

Функция подсчета частоты выбора альтернативных транскрипций (void vFrequencyFromAligned()) из подмодуля TranscriberRUS_Freq определяет, сколько раз каждая транскрипция была выбрана при выполнении принудительного выравнивания, и создает частотный словарь транскрипций слов.

Следующая функция выбора часто употребляемых транскрипций по порогу (void vCreationNewDictBasedOnFrequency()) из подмодуля TranscriberRUS_Select выбирает из частотного словаря транскрипций те транскрипции, частота появления которых больше заданного порога, и эти транскрипции добавляются к базовым в основной словарь системы распознавания.

В результате работы программного модуля создания расширенного фонематического словаря системы распознавания разговорной русской речи создается список фонематических представлений слов из текстового корпуса. В этот список входят базовые транскрипции, а также наилучшие альтернативные для тех слов из текстового корпуса, которые присутствовали в обучающем корпусе речи. Данный список слов с их каноническими и возможными альтернативными транскрипциями является фонематическим словарем системы распознавания речи.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 3. Описание способов применения программного модуля ARTTranscriber- Программный модуль ARTTranscriber-2 создания расширенного фонематического словаря предназначен для автоматического создания транскрипций системы распознавания разговорной русской речи. Программный модуль ARTTranscriber-2 работает на x86совместимых компьютерах под управлением операционных систем (ОС) Windows 2000, Windows XP, Windows 2003, Windows Vista, Windows 7. Программный модуль выполняет следующие функции:

- создание (базовых) эталонных транскрипций для списка слов;

- создание альтернативных транскрипций, которые учитывают различные варианты возможного произнесения одного и того же слова в разговорной речи, связанные с явлениями редукции и ассимиляции звуков речи;

- выбор наилучших (наиболее употребительных) альтернативных транскрипций из списка всех возможных альтернативных транскрипций с использованием файла с результатами принудительного выравнивания транскрипций по обучающему речевому корпусу;

- создание транскрипций для произвольных связных текстов.

Минимальные требования к аппаратным средствам: процессор Intel Core 2 Quad / AMD Athlon X2; 100 МБ свободного места на жестком диске; манипулятор “мышь”. В остальном требования к производительности, объёму оперативной памяти и другим ресурсам не превышают требований установленной ОС. ARTTranscriber-2 не требует инсталляции.

Программный модуль расположен в каталоге ARTTransciber. Для его запуска необходимо открыть системную консоль (cmd.exe), перейти в этот каталог и выполнить команду ARTTranscriber.exe без параметров. Программный модуль выведет справку по всем опциям.

Синтаксис: ARTTranscriber2.exe [опции] файл(ы) параметры -w Создание базовых транскрипций -a Создание альтернативных транскрипций -b Выбор наилучших альтернативных транскрипций -t Транскрибирование текста В подкаталоге Examples содержаться примеры входных и выходных файлов, а также файл, в котором приведены различные варианты строки запуска программного модуля.

Состав каталога:

input.txt – содержит исходный список слов;

trans_out.txt - содержит результат транскрибирования слов;

trans_out_eng.txt - содержит результат транскрибирования с транслитерацией oov.txt - содержит слова, которые не были транскрибированы;

trans_ext.txt – содержит все возможные альтернативные транскрипции для aligned.mlf – содержит результат принудительного выравнивания;

trans_best.txt – содержит наилучшие альтернативные транскрипции;

input_text.txt – содержит исходный текст для транскрибирования;

text_out.txt – содержит транскрибированный текст;

calls.txt – содержит примеры запуска программного модуля.

Для удаления программного модуля необходимо удалить папку ARTTranscriber с клиентского компьютера.

Программный модуль ARTTranscriber-2 может работать в четырех режимах создание базовых транскрипций слов;

создание всех возможных альтернативных транскрипций слов;

определение наилучших (наиболее употребительных) альтернативных 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург транскрибирование текстов.

Далее рассмотрим каждый из режимов подробнее.

Режим создания базовых транскрипций слов Перед запуском программного модуля в каталог ARTTranscriber должен быть помещен файл, содержащий список слов, для которых нужно создать транскрипции. Пример входного файла показан на рисунке 2. По умолчанию этот файл имеет имя input.txt.

В результате работы программного модуля будут созданы следующие файлы:

trans_out.txt - содержит результат транскрибирования, представляющий собой список слов с их транскрипциями. Пример получающегося в результате словаря транскрипций представлен на рисунке 3.

trans_out_eng.txt - содержит транскрипцию, в которой фонемы написаны английскими буквами. Пример транскрипции с транслитерацией фонем показан oov.txt - содержит слова, которые не были транскрибированы.

Рисунок 4 — Фрагмент словаря транскрипций с транслитерацией фонем.

Строка запуска программного модуля при использовании файлов по умолчанию выглядит следующим образом:

ARTTranscriber2.exe –w Имена файлов могут быть заданы пользователем. В этом случае строка запуска программного модуля выглядит следующим образом:

ARTTranscriber2.exe –w входной файл файл с транскрипцией файл с транслитерацией транскрипции файл с отсутствующими в словаре словами Например:

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург ARTTranscriber2.exe -w words.txt tr.txt tr_eng.txt oov.txt Режим создания всех возможных альтернативных транскрипций слов Перед запуском данного режима работы программного модуля должны быть созданы базовые транскрипции слов. По умолчанию входным файлом, содержащим список базовых транскрипций, является файл trans_out.txt, который должен быть помещен в каталог ARTTranscriber. В результате работы программного модуля в данном режиме создается файл trans_ext.txt, содержащий все возможные альтернативные транскрипции для списка слов.

Пример списка альтернативных транскрипций показан на рисунке 5.

Рисунок 5 — Фрагмент списка альтернативных транскрипций.

Строка запуска программного модуля при использовании файлов по умолчанию выглядит следующим образом:

ARTTranscriber2.exe –a Строка запуска программного модуля с использованием имен файлов, заданных пользователем, выглядит следующим образом:

ARTTranscriber2.exe –а входной файл файл с транскрипцией файл с транслитерацией транскрипции ARTTranscriber2.exe -a tr.txt tr_ advanced.txt Режим выбора наилучших альтернативных транскрипций Перед запуском данного режима работы должны быть созданы все возможные альтернативные транскрипции слов, а также произведено принудительное выравнивание (forced alignment) транскрипций по обучающему речевому корпусу. При принудительном выравнивании распознаватель выбирает из списка альтернативных транскрипций наиболее подходящую речевому сигналу и сегментирует сигнал на фонемы. Модуль принудительного выравнивания не входит в состав программного модуля создания расширенного фонематического словаря.

В данном режиме работы ARTTranscriber-2 в качестве наилучших альтернативных транскрипций выбирает те транскрипции, относительная частота появления которых (то есть отношение числа появлений транскрипции в речевом корпусе к числу появлений слова в орфографическом представлении обучающего корпуса) выше определяемого пользователем порога.

На вход ARTTranscriber-2 подается список всех возможных альтернативных транскрипций (по умолчанию файл должен называться trans_ext.txt), а также файл с результатами принудительного выравнивания (по умолчанию — aligned.mlf). Оба файла должны располагаться в каталоге ARTTranscriber-2. Формат файла с результатами принудительного выравнивания должен иметь вид, представленный на рисунке 6. На выходе создается файл trans_best.txt, представляющий собой расширенный (относительно базового) словарь фонематических транскрипций, содержащий наилучшие транскрипции для каждого слова, встретившиеся в обучающем речевом корпусе.

Строка запуска программного модуля при использовании имен файлов, заданных по умолчанию, выглядит следующим образом:

ARTTranscriber2.exe –b порог Порог определяет минимальное значение отношения числа появлений транскрипции в речевом корпусе к числу появлений слова в орфографическом представлении обучающего корпуса, при котором транскрипция будет записываться в словарь. Значение порога должно находиться в пределах от 0 до 1.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Строка запуска программного модуля для работы с файлами, имена которых отличаются от заданных по умолчанию, выглядит следующим образом:

ARTTranscriber2.exe –b файл со всеми альтернативными транскрипциями файл с результатами принудительного выравнивания файл с наилучшими транскрипциями порог Например:

ARTTranscriber2.exe -a tr_advanced.txt aligned.txt tr_best.txt 0. Режим транскрибирования текстов Перед запуском программного модуля в каталог ARTTranscriber должен быть помещен файл, содержащий текст, который нужно транскрибировать. По умолчанию этот файл имеет имя input.txt. В результате работы программного модуля создается файл (по умолчанию имя файла — text_out.txt), содержащий транскрибированный текст. Слова, которые не могут быть автоматически транскрибированы, записываются заглавными буквами. Пример транскрибированного текста представлен на рисунке 7.

Строка запуска программного модуля при использовании файлов по умолчанию выглядит следующим образом:

ARTTranscriber2.exe –t Строка запуска программного модуля для изменения заданных по умолчанию имен файлов выглядит следующим образом:

ARTTranscriber2.exe –t входной файл выходной файл 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Например:

ARTTranscriber2.exe -t text_input.txt text_output.txt Транскрипции, созданные с помощью ARTTranscriber, могут быть использованы в системах распознавания русской речи. Режим транскрибирования текстов может быть использован для систем синтеза русской речи.

4. Заключение Разработанный модуль транскрибирования позволяет создавать фонематические транскрипции как для списка слов, так и для текстов. Создание транскрипций для текстов является особенно важным для систем автоматического синтеза речи, поскольку полученные транскрипции описывают фонетические явления, происходящие на стыках слов. Также данный модуль транскрибирования позволяет создавать альтернативные транскрипции слов, учитывающие явления редукции и ассимиляции, возникающие в разговорной речи.

Созданный с помощью программного модуля ARTTranscriber-2 расширенный словарь с альтернативными транскрипциями может быть использован для систем распознавания разговорной речи. Работа проводится при поддержке Минобрнауки РФ (ФЦП «Исследования и разработки», госконтракт № 11.519.11.4020).

Литература 1. Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. № 4, Т. 53, 2. Кипяткова И.С., Карпов А.А. Разработка и оценивание модуля транскрибирования для распознавания и синтеза русской речи // Искусственный интеллект, Донецк, Украина, №3, 2009, С. 178-185.

3. Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект, Донецк, Украина, № 4, 2008, С. 747-757.

http://www.phon.ucl.ac.uk/home/sampa/ (дата обращения: 10.06.2012).

5. Karpov A., Kipyatkova I., Ronzhin A. Speech Recognition for East Slavic Languages:

The Case of Russian. In Proceedings of the 3rd International Workshop on Spoken Languages Technologies for Under-resourced Languages SLTU'12, Cape Town, RSA, 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Исследование факторной модели языка для распознавания русской речи 1. Введение Статистическая модель языка является важной частью автоматической системы распознавания речи, поскольку позволяет повысить точность распознавания на десятки процентов. В настоящее время наиболее популярной является n-граммная модель языка.

Однако для русского языка n-граммная модель оказывается гораздо менее эффективной, чем для других языков. Это связано с флективностью русского языка, из которой вытекают такие его свойства как огромное разнообразие словоформ и более свободный характер следования слов в речи (по сравнению, например, с английским языком). Первое приводит к проблеме нехватки обучающего материала. Второе означает более слабую зависимость между соседними словами, на которую ориентируется n-граммная модель языка. Таким образом, для успешного моделирования русского языка требуется новая, более сложная модель, которая бы учитывала эти свойства русского языка.

Сейчас известно много попыток усложнения n-граммной модели для улучшения качества моделирования русского языка. В работе [1], для моделирования русского языка используется модель языка на классах. Проверены автоматически сгенерированные классы, а также разбиение слов по частям речи. Показано, что линейная комбинация модели языка на классах и трехграммной модели языка на словах способна уменьшить perplexity1 на 16% по сравнению со стандартной трехграммной моделью на словах. При распознавании речи с этими моделями максимальное относительное увеличение точности распознавания составляет 7%. В этой же работе исследуется морфологическая модель русского языка. Она моделирует последовательности морфем, из которых состоят слова. Для разбиения слов на морфемы в этой работе используются статистический метод и метод, основанный на лингвистической информации. Статистический метод дает относительное уменьшение perplexity на 7,5% при использовании линейной комбинации с трехграммной моделью языка на словах.

В работе [2] исследуется модель языка, основанная на деревьях решений. В этой модели при расчете вероятности ( | ) слова при условии, что ему предшествует цепочка слов (предыстория), проблема ограниченности обучающего материала решается при помощи кластеризации предысторий для каждого слова с использованием дерева решений. В каждом узле дерева решений выбор пути зависит от ответа на вопрос, который связан с этим узлом, и, в конечном счете, вероятность ( | ) определяется листом, в который попадает данная предыстория. При этом вопросы были о принадлежности слов в предыстории тем или иным классам слов. Эти слова назывались словамипредсказателями. Для этих моделей эксперименты, проведенные для русского языка, показали относительное уменьшение на 8%. В этой же работе рассматриваются модели языка, основанные на случайном лесе, где для отнесения предыстории к некоторому классу используется ансамбль деревьев решений, при построении которых используется элемент случайности - обучающие данные, а также слова-предсказатели выбираются случайным образом. Эксперименты, проведенные для русского языка, показали относительное уменьшение perplexity на 13% для моделей.

Для измерения качества модели языка используется величина = 2 ( ) () предложения, задаваемая данной моделью, () - вероятность предложения, задаваемая языком. В англоязычной литературе называется perplexity.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 2. Описание используемой модели Описанные методы моделирования русского языка, хотя и дают увеличение качества моделирования, не приводят к принципиальным изменениям, поскольку относительное уменьшение perplexity на уровне 10% слишком мало, чтобы говорить о значительном увеличении точности распознавания речи.

В данной работе исследуется возможность применения факторной модели языка для моделирования русской речи. Насколько известно авторам, в литературе нет сообщений о применении факторной модели для моделирования русского языка, тогда как заявлено об успешном ее использовании с другими флективными языками, такими как арабский [3].

Факторная модель является обобщением n-граммной модели языка - в ней каждое слово дополнено набором факторов, т.е. некоторых дополнительных признаков слов. В работе [3] в качестве таких признаков используются основа слова и морфологический класс слова. Особенностью факторной модели является то, что факторами могут быть совершенно разнородные данные. Кроме этого модель поддерживает обобщенный параллельный отход (GPB - generalized parallel backoff), суть которого состоит в возможности произвольным образом выбирать отбрасываемые факторы при отходе, в отличие от стандартной n-граммной модели, в которой отбрасываемым является наиболее удаленное по времени слово. Авторы работы [3] вводят понятие графа отхода (см. рисунок 1), который показывает различные пути отхода для факторной модели языка с тремя факторами F, F, F, от которых зависит слово (фактор F) модели языка с полным набором факторов, от которых зависит слово (верхний узел графа), до униграммной модели (нижний узел графа). При этом предполагается возможность задания либо одного пути, либо многих. В последнем случае выбор пути выполняется динамически, при расчете вероятностей, в соответствии с некоторым критерием.

Рис. 1. Граф отхода для трех факторов,,, от которых зависит слово.

3. Описание экспериментов и полученные результаты В работе проводились экспериментальное исследование факторных моделей языка на материале русского языка. В ходе экспериментов предполагалось проверить возможность улучшения точности распознавания русской речи при использовании факторной модели языка. Использовалась система распознавания речи со словарем, содержащим 10 слов, использующая связанные трифоны и n-граммную модель языка. Для повышения скорости обработки использовался двухпроходный режим. На первом проходе генерировались решетки слов с использованием двухграммной модели языка на словах. На втором проходе решетки слов пересчитывались с использованием исследуемой факторной модели. В качестве базовой модели была взята трехграммная модель на словах.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург В таблице 1 приводятся значения perplexity для стандартной трехграммной модели на словах, а также для исследуемых факторных моделей. Факторные модели отличаются набором используемых факторов и путями отхода. Во всех моделях используется модифицированный вариант сглаживания Кнесера-Нея [4]. В качестве одного из факторов в работе используются анкоды - грамматические классы слов, которые получаются, если учитывать все возможные грамматические характеристики слов (часть речи, род, число, падеж и т.д.). Анкоды сгенерированы при помощи программных средств проекта "Автоматическая обработка текста" [5]. Также в работе в качестве факторов использованы базовые формы слов. Запись word3-ancode2 означает, что трехграммная модель дополнена биграммной моделью на анкодах, то есть в трехграммной модели введен фактор "анкод", и учитывается зависимость слова в момент времени от этого анкода в момент времени 1.

Запись "ancode3" означает, что также введена зависимость от анкода в момент времени 2, и т.д.

Таблица 1. Результаты экспериментов.

В работе были проверены несколько вариантов отходов. Оказалось, что произвольные отходы не подходят, и наилучшую точность показывают схемы отходов, в которых сначала отбрасывается слово, а затем соответствующий ему анкод (на рис. 2 приведена схема отхода, которая использовалась в модели word3-ancode2). Другие варианты, например, когда сначала по очереди отбрасываются все слова, а затем анкоды, показывают более худшие результаты.

Полученные результаты свидетельствуют, что основную роль при моделировании языка играет трехграммная модель на словах, а анкоды лишь выполняют вспомогательную функцию сглаживания. Аналогичный результат был получен и в работе [1], в которой модель языка на классах обеспечивала лишь более качественное сглаживание для трехграммной модели языка на словах. Так же в пользу этого суждения говорит и тот факт, что модель word3-ancode3 показывает немного меньшее уменьшение perplexity по сравнению с word3ancode2, что означает, что дополнительная информация в виде анкода в момент времени 2 способна лишь ухудшить качество моделирования.

Рис. 2. Схема отхода, которая использовалась для модели языка word3-ancode2.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург 4. Заключение Таким образом, наилучшие результаты показывает модель word3-ancode2 относительное уменьшение perplexity составило 7.7%. Эксперименты с распознаванием речи для этой модели языка показали относительное увеличение точности распознавания на 4%.

Факторная модель, использующая в качестве факторов анкоды, является другим представлением линейной комбинации модели языка на классах и на словах, исследуемой в работе [1]. Таким образом, с помощью факторной модели можно представлять различные модели языка, и это является ее положительной чертой.

Факторная модель, использующая в качестве факторов анкоды, является более общей чем модели языка на классах, исследуемая в работе [1], поскольку с помощью факторной модели можно представлять различные модели языка, и это является ее положительной чертой. Отличие результатов, от результатов, полученных в работе [1] обусловлено разными речевыми базами и необходимостью дальнейшего совершенствования методов обучения для факторной модели, а так же исследования других типов факторов.

В данной работе исследованы факторы, являющиеся грамматическими характеристиками слов. В качестве дальнейшего расширения модели, наиболее интересным представляется использование характеристик слов в терминах всего предложения (часть предложения, зависимые слова и т.д.). Это позволит включить в модель языка информацию, которая является существенной для определения формы слова, что позволит достичь понижения perplexity и повышения точности распознавания речи.

Литература 1. Whittaker E.W.D., Statistical Language Modeling for Automatic Speech Recognition of Russian and English, PhD Thesis, Cambridge University, 2000.

2. Oparin I., Language Models for Automatic Speech Recognition of Inflectional Languages, PhD Thesis, University of West Bohemia, 2009.

3. Henderson J., Novel Speech Recognition Models for Arabic, Johns Hopkins Summer Workshop, 2002.

4. Chen Stanley, Goodman Joshua, An empirical study of smoothing techniques for language modeling, Computer Speech & Language, Volume 13, Issue 4, October 1999, Pages 359– 5. Ресурс сети Internet: http://www.aot.ru/ 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Русский жестовый язык: банк жестов РЖЯ в письменной форме ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, В последнее время во многих странах наблюдается рост интереса к исследованию национальных жестовых языков (ЖЯ) и к разработке различных средств помощи инвалидам по слуху с использованием полученных знаний и новых технологий. Наша страна не является исключением: растёт количество ресурсов для глухих в интернете, информация в сети становится более разнообразной, появляется доступ к малодоступным ранее работам специалистов по русскому жестовому языку [1-4].

При выполнении исследований в области любого языка важную роль имеют существующие в электронной форме национальные речевые корпуса. Задача создания полноценных корпусов для жестовых языков является в настоящее время весьма актуальной для всех стран. В статье описан подход к составлению банка жестов русского жестового языка, в котором жесты, соответствующие различным словам и фразам, представлены в письменной форме (ПЖЯ). Такой словарь может стать основой для создания национального корпуса русского жестового языка.

2. Письменная форма для жестовых языков В настоящее время не все языки на земле имеют и устную и письменную форму, но все системы письма созданы для языков, в которых используется голос и звуки. Язык жестов, которым пользуются глухие и слабослышащие люди, не является звуковым и письменности до настоящего времени не имеет. Язык жестов является родным языком глухих людей. Отсутствие письменности не позволяет им фиксировать и сохранять информацию в записанном виде на родном языке и читать написанные на родном языке тексты. Эти люди вынуждены жить в двуязычном мире, общаясь между собой на своем языке, но используя во всех остальных случаях язык слышащих, который является для них языком чужим и трудно осваиваемым из-за отсутствия или резкого снижения звукового восприятия. Результатом является отставание глухих людей в освоении как устного, так и письменного языка своей страны и возникающие вследствие этого социальные, культурные и трудовые проблемы.

Попытки создать систему знаков для записи жестовой речи предпринимались неоднократно. Трудность заключается в том, что в устной речи органы артикуляции действуют последовательно, произнося звуки, которых не так уж много, а в жестовой речи пальцы, руки, голова движутся одновременно, и эти движения весьма многообразны. Учесть все это многообразие и найти для его письменного представления подходящую форму – непростая задача. Одной из первых попыток была Stokoe notation [5, 6] – система знаков, разработанная W.C. Stokoe в 1960-х годах для американского жестового языка. Эта система учитывала месторасположение исполняемого жеста, положение пальцев руки, тип движения и ориентацию руки и использовала символы, похожие на написание букв английского алфавита. Хотя эта система достаточно хорошо позволяла описывать жесты, в которых в основном участвуют руки, практического применения она не получила, поскольку была трудна для интерпретации и запоминания и была ориентирована на описание отдельных жестов, а не потока речи.

Более совершенной была система Hamburg Notation System (HamNoSys) [7], созданная в начале 2000-х годов в Гамбургском университете. В HamNoSys использовалась система 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург знаков, независимая от языка. Она позволяет более детально описывать жесты, особенно положение рук и пальцев. Из-за значительных трудностей ее практического применения эта система также не была положительно воспринята сообществом глухих.

В нашей стране Л.С. Димскис также была разработана система для описания жестов [8], в которой использовалась оригинальная система знаков.

В настоящее время наиболее перспективной системой нотаций для записи жестов и последующего прочтения слов и речи является система SignWriting, разработанная Валери Саттон [9]. Символы, используемые в системе, визуально связаны с описываемыми ими движениями и поэтому легко интерпретируются и запоминаются. На рис. 1 приведен жест «глухой», записанный с помощью нотации SignWriting. Глядя на эту запись, даже неподготовленный читатель может догадаться, что исполнение жеста заключается в прикосновении пальца правой руки в голове. Данный жест является международным.

Популярность сайта, посвящённого системе SignWriting, постоянно растёт. Он пополняется новым контентом и новыми рубриками, в числе которых – банк данных жестов разных национальных жестовых языков. В табл. 1 представлены статистические данные по странам, внесшим наибольший вклад в создание общего банка жестов в письменной форме.

На сегодняшний день статистика не располагает точными сведениями о числе глухих в разных странах и в мире в целом. По данным различных западных источников, в частности [10], сегодня в мире социально значимое нарушение слуха наблюдается у 8-15% человек.

Исходя из этого, приняв данный показатель приблизительно в размере 10%, можно ориентировочно определить величину числа глухих в разных странах.

Число жестов ПЖЯ различных стран, переданных в банк данных SignWriting 3. Особенности системы SignWriting, полезные при разработке приложений Система записи жестов SignWriting имеет ряд особенностей, которые делают ее весьма перспективной для использования в различных приложениях для людей с ослабленным слухом. К достоинствам этой системы можно отнести следующие.

Систематизация знаков и унификация правил их формирования. Система SignWriting имеет в своем составе тысячи знаков, однако они подчиняются определённым правилам, которые позволяют легко их запоминать и различать. Например, для изображения раскрытой 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург ладони с прижатыми пальцами используется пятиугольник, форма которого действительно напоминает ладонь. Отображение этой конфигурации ладони и ее ориентации в пространстве показаны в табл. 2.

Знаки для раскрытой и сжатой ладони при различных положениях указательного пальца все пальцы выпрямлены и прижаты друг к другу Указательный палец:

выпрямлен, остальные прижаты к ладони полусогнут, остальные прижаты к ладони согнут крючком, остальные прижаты к ладони наклонён вперёд, остальные прижаты к ладони низко наклонён вперёд, остальные прижаты к ладони выпрямлен, остальные прижаты друг к другу, соединены подушечками, образуя кольцо Знак, имеющий сплошной контур, означает вертикальное положение ладони, а цвет определяет её положение относительно исполнителя жеста: белый цвет указывает на то, что ладонь обращена к исполнителю внутренней стороной, а чёрный цвет – наружной стороной.

Те же знаки, но имеющие в изображении разрывы линий, означают, что рука находится в горизонтальной плоскости, параллельной полу. Знак, заполненный наполовину чёрным и белым цветом, соответствует вертикальному положению ладони и направлению ребром к наблюдателю, а аналогичный знак с разрывами линий – горизонтальному положению и направлению ребром вниз.

Аналогичные правила распространяются и на другие ручные формы, в частности, квадрат или круг, используемые для изображения сжатой ладони, как показано в табл. 2.

http://www.signbank.org/signpuddle2.0/.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Наличие кодовых таблиц, дающих соответствие между изображением знака и кодами Unicode PUA и UTF-8 http://www.signbank.org/iswa/.

Наличие пополняемого многоязычного банка жестов http://www.signbank.org.

4. Создание банка жестов РЖЯ и приложений на его основе Коллективом авторов был создан банк жестов РЖЯ в письменной форме на основе системы знаков SignWriting, включающий около 2000 жестов. В его составе - цифры, существительные, прилагательные, глаголы, а также отдельные фразы на РЖЯ.

Соответствующая база данных «Письменная форма жестов русского жестового языка» имеет свидетельство о государственной регистрации в Реестре баз данных «Федеральной службы по интеллектуальной собственности, патентам и товарным знакам» (ФГУ ФИПС) за № 2012620249 от 29 февраля 2012 г. На рис. 2 приведен фрагмент информации, содержащейся в банке «Письменная форма жестов русского жестового языка», планируемой для публикации в сети интернет на сайте «Сурдосервер».

Авария Автобус Азия Рис. 2. Фрагмент информации, содержащейся в банке жестов русского ЖЯ.

Использование банка данных РЖЯ и кодовых таблиц позволит создать систему перевода словесной речи в жестовую, как показано на рис. 3. Начальным шагом данного процесса является озвучивание некой фразы (слова) в микрофон компьютера, где сформированный звуковой поток поступает в устройство распознавания речи, в результате чего озвученная фраза приобретает текстовую форму. С помощью поисковой системы в соответствии с полученным словом в банке данных письменных форм РЖЯ выбирается его знаковый аналог. Существующая таблица кодов элементов ПЖЯ позволяет составить кодовую цепочку, соответствующую элементам конкретного жеста. Полученная кодировка представляет собой точные координаты для управления аватаром, видеоизображение которого поступает на экран монитора. Таким образом, пользователь, озвучивший некое слово или фразу, получает на экране его жестовый эквивалент.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург На рис. 4 показана схема реализации перевода жестов русского языка на другие языки жестов, которая может быть использована желающими для обучения иностранному жестовому языку.

Рис. 4. Схема перевода жестов русского ЖЯ на другие национальные языки жестов.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Создание и пополнение банка жестов русского жестового языка на основе знаков системы SignWriting является полезным, перспективным и престижным для нашей страны делом. Работа в этом направлении позволит получить новые результаты, создать полезные приложения и внесет свой вклад в решение важной социальной задачи помощи людям с ограниченными возможностями по слуху. Для дальнейшего развития системы письменного РЖЯ и анализа русского языка жестов необходима совместная работа специалистов в области педагогики, лингвистики, программирования и, что самое главное, самих глухих, являющихся носителем ЖЯ. Лишь с привлечением глухих людей, владеющих ЖЯ и использующих его в повседневном общении, хорошо знающих все его правила и тонкости, работа в области использования письменной формы языка жестов и изучения русского жестового языка будет иметь успех.

Литература 1. http://surdoserver.ru/ (дата обращения: 10.06.2012).

2. http://signlang.ru/ (дата обращения: 10.06.2012).

3. http://jestov.net/slovari.php (дата обращения: 10.06.2012).

4. http://www.digitgestus.com (дата обращения: 10.06.2012).

5. http://www.search.com/reference/Stokoe_notation (дата обращения: 10.06.2012).

6. http://www.brighthub.com/education/languages/articles/50514.aspx (дата обращения:

7. http://www.sign-lang.uni-hamburg.de/projects/hamnosys.html (дата обращения:

8. Димскис Л.С. Изучаем жестовый язык: Учеб. пособие для студ. дефектол. фак.

высш. пед. учеб. заведений. – М.: Издательский центр «Академия», 2002. – 128 с.

9. http://www.signwriting.org (дата обращения: 10.06.2012).

10. http://www.hear-it.org (дата обращения: 10.06.2012).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Синтез речи как средство исследования интонационных характеристик Санкт-Петербургский государственный университет, 1. Введение Изучение восприятия интонации различных языков требует проведения перцептивных экспериментов. В таких экспериментах аудиторам предлагается прослушать определенный набор аудио-файлов, которые могут представлять собой фразы или наборы фраз, и далее ответить на различные вопросы по прослушанному материалу.

Одним из ключевых этапов исследования восприятия интонационных единиц является создание базы аудио-файлов для проведения таких экспериментов. Перед исследователем встает вопрос о том, как возможно адекватно подобрать материал в случае исследований, связанных с изучением интонационных единиц речь чаще всего идет о предложениях или словосочетаниях как его можно представить аудиторам, в какой форме, и, самое главное, как добиться того, чтобы аудиторы воспринимали или реагировали именно на те изменения в высказываниях, которые необходимы исследователю.

2. Методы создания базы для проведения аудиторского эксперимента Выбор адекватного метода создания базы аудиторского эксперимента представляется особенно актуальным, если речь идет об изучении эмоциональной интонации или о способах выражения с помощью интонации дополнительных коннотативных значений.

Существует несколько способов создания корпуса высказываний проведения для аудиторского эксперимента. Во-первых, можно составить корпус аудио-файлов из несинтезированных высказываний. При таком подходе варианты контуров реализуются дикторами-актерами, записываются и предъявляются аудиторам. Недостаток подобного метода исследования заключается в том, что при последующем акустическом анализе фраз приходится учитывать сразу большое количество параметров. Зачастую, начитывая материал, актеры (дикторы) для придания высказываниям большей выразительности используют много способов, которые очень сложно одновременно контролировать как исследователю, так и диктору. Очень сложно, например, попросить диктора изменять только мелодику, без изменения тембра или громкости голоса. Трудность представляет также анализ полученных данных, особенно если объектом изучения является изменение интонационных характеристик высказывания в зависимости от эмоционального состояния говорящего. Зависимость изменения какой-либо одной характеристики высказывания от эмоционального состояния говорящего или от дополнительных коннотативных значений в таком случае почти невозможно определить. Остается также непонятным, необходимо ли наличие во фразе сразу всех компонентов для того, чтобы она воспринималась, как эмоциональная, или данные способы могут придавать соответствующую окраску независимо друг от друга [Bnziger T. et al. 2002: 25].

Второй подход к созданию базы для аудиторского эксперимента предполагает использование компьютерных технологий и специальных программ по обработке речевого сигнала. Одной из таких технологий является метод фильтрации верхних частот (low-pass filtering). Данный метод позволяет удалить некоторую часть сигнала – либо мелодику и ритм, оставив только тембр; либо, наоборот, сделать только мелодику и ритм доступными для восприятия. Далее фразы предъявляются аудиторам для прослушивания и оценки.

Результаты подобных экспериментов показывают, что распознавание таких фраз происходит даже в том случае, если сигнал предъявляется с потерей тех или иных акустических характеристик [Bnziger T. et al. 2002: 25]. Существует также метод, который в своей основе 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург использует синтез речи. С помощью определенных программ звуковой сигнал модулируется в зависимости от того, значимость какого параметра исследователь хочет изучить. При данном подходе можно задавать необходимые параметры звукового сигнала вручную и постоянно контролировать изменяемые характеристики. В основном, для изучения эмоционально окрашенной речи используют именно этот метод [Bnziger T. et al. 2002: 26].

Использование синтеза речи как средства для создания базы для аудиторского эксперимента по восприятию интонации представляется наиболее эффективным по ряду причин. Вопервых, исследователь может взять небольшое количество исходных фраз и далее синтезировать столько вариантов интонационного оформления, сколько нужно для исследования. Во-вторых, не нужно привлекать профессиональных дикторов для записи предложений и, как было сказано ранее, можно избежать появления в предложениях дополнительных интонационных характеристик. В-третьих, исследователь может изменять лишь определенные части высказывания, что позволяет получить более точные данные об их восприятии.

Исследование, о котором пойдет речь в данной статье, было проведено на материале французского языка, однако методы обработки речевого сигнала и создания базы для аудиторского эксперимента могут быть применимы и к русскому языку.

Объектом настоящего исследования явились французские общие вопросы с вопросительным оборотом est-ce que в начале и без инверсии (Est-ce que vous travaillez? Вы работаете?). Работа посвящена изучению их интонационного оформления в зависимости от дополнительных коннотативных значений, которые могут передаваться с помощью интонации1. Целью работы стало установление набора мелодических характеристик, которые используются при оформлении общего вопроса с вопросительным оборотом est-ce que, и определение границ мелодических изменений, существенных для носителей языка при выборе интонационной модели в различных ситуациях общения.

3. Материал и методика исследования Для проведения аудиторского эксперимента было решено выбрать методику анализа, совмещающую способ опознания несинтезированных фраз аудиторами (первый этап) и синтеза высказываний для последующего предъявления аудиторам (второй этап). Целью проведения эксперимента, включающего опознание аудиторами несинтезированных фраз, было нахождение общих вопросов с вопросительным оборотом est-ce que, которые были бы, по мнению дикторов, произнесены без участия какой-либо эмоции, то есть нейтрально.

Вопросы были взяты из аудио-приложений современных пособий по фонетике, грамматике и разговорной практики французского языка. всего было выделено 14 фраз с таким синтаксическим оформлением. С помощью программы для обработки речевого сигнала Wave Assistant были получены интонограммы вырезанных фраз. Далее фразы были представлены на опознание аудиторам, которым предлагалось ответить на вопрос, нейтрально ли звучат высказывания. Под нейтральным произнесением понимаются случаи, когда вопрос задается лишь с целью получения информации, без дополнительных коннотативных значений или эмоций. Обработка результатов эксперимента позволила выделить из 14 фраз 4 с нейтральным или близким к нейтральному вариантом произнесения.

На этапе подготовки базы для проведения второй части аудиторского эксперимента выделенные нейтральные реализации были подвергнуты ресинтезу с помощью специальных программ по обработке и синтезу звукового сигнала Praat и Wave Assistant.

Применение метода синтеза высказываний представляется возможным и наиболее приемлемым, поскольку в настоящей работе принималась во внимание только одна В работах по французской грамматике и стилистике утверждается, что выбор синтаксической структуры вопроса во французском языке связан со стилем речи или с ситуацией, в которой он употребляется [Ager 1990;

Vanneste 2005].

Существуют также исследования, в которых есть данные о том, что не только синтаксическая структура, но и интонационное оформление связаны с ситуацией общения. Интонация может использоваться говорящим для передачи в вопросе дополнительной информации собеседнику [Гордина Белякова 2003].

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург составляющая интонационного оформления высказывания – частота основного тона.

Привлечение профессиональных дикторов или наивных носителей языка к имитации интонационных контуров эмотивных высказываний имеет целый ряд ограничений.

Затруднение может вызвать изменение дикторами мелодики на точное заданное значение. К тому же, дикторы не всегда способны сымитировать необходимую эмоцию или задать вопрос с нужной коннотацией. Поэтому нет уверенности, что при использовании такого метода можно получить 100% верный результат. Таким образом, синтез речи представляется наиболее адекватным способом для получения достоверных и точных данных.

4. Создание базы для аудиторского эксперимента 4.1. Разделение частей интонационного контура Для того чтобы наглядно представить метод синтеза фраз и варианты изменений, произведенных на разных отрезках мелодической кривой, необходимо ввести несколько базовых понятий. Под модификациями высказывания будет пониматься изменение частоты основного тона какой-либо из частей высказывания, соответствующих введенным ниже понятиям.

Предшкала вопросительная частица est-ce que, произносящаяся как //, то есть имеющая два слога. Всего получилось три возможных варианта ресинтеза мелодического оформления предшкалы:

• Значение ЧОТ слога est- ce /s/ больше значения ЧОТ на слоге que /k/ • Значение ЧОТ слога est- ce /s/ меньше значения ЧОТ на слоге que /k/ • Значение ЧОТ слога est- ce /s/ равно значению ЧОТ на слоге que /k/ Рисунок 1. Интонограмма ресинтезированного высказывания Est-ce que vous n’avez pas froid? с измененной предшкалой (первый вариант изменения).

Рисунок 2. Интонограмма ресинтезированного высказывания Est-ce que vous n’avez pas froid? с измененной предшкалой (второй вариант изменения).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Тело фразы вся фраза, кроме предшкалы и последнего (ударного) слога, на котором в нейтральных общих вопросах с вопросительной частицей est-ce que реализуется подъем или падение, в зависимости от типа интонационного оформления. Интонация общих вопросов данного типа может иметь восходящее или нисходящее движение [Hirst, Di Cristo, 1998: 205] [Lon, 1996: 130-131], поэтому для ресинтеза было решено изменять мелодику тела фразы каждого нейтрального вопроса на восходящую и нисходящую.

Рисунок 3. Интонограмма ресинтезированного высказывания Est-ce que vous n’avez pas Ударный слог последний слог во фразе, на который во французском языке приходится фразовое ударение. Обычно этот слог может быть оформлен мелодическим подъемом или падением. В соответствии с описанием интонации общего вопроса с вопросительной частицей est-ce que [Гордина 1997: 242] получилось четыре возможных варианта ресинтеза мелодического оформления ударного слога:

• на ударном слоге возможно резкое повышение значения частоты основного тона, при этом мелодика ударного слога восходящая (см. Рисунок 4);

• ударный слог может быть выше предударного, однако не иметь резко восходящего движения мелодики (см. Рисунок 5);

• значение частоты основного тона может быть равным на участке предударного и ударного слогов;

• ударный слог может быть ниже остальных слогов по значению частоты основного тона.

Рисунок 4. Интонограмма ресинтезированного высказывания Est-ce que vous n’avez pas froid? с измененной мелодикой на участке ударного слога (первый вариант изменения).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Рисунок 5. Интонограмма ресинтезированного высказывания Est-ce que vous n’avez pas froid? с измененной мелодикой на участке ударного слога (второй вариант изменения).

Исходя из обозначенных отрезков вопросительного предложения и вариантов его интонационного оформления, оказалось возможным создать матрицу комбинаций изменения мелодики. В результате применения этой матрицы, каждый из четырех выбранных нейтральных вопросов должен был быть модифицирован 24 раза.

4.2. Синтез высказываний Синтез фраз происходил следующим образом. С помощью программы Wave Assistant на сигнале были проставлены метки границ частей высказывания (предшкалы, тела фразы и ударного слога соответственно). Далее метки импортировались в Praat. Затем с помощью функции модификации частоты основного тона To Manipulation из исходного файла отдельно модифицировались три варианта предшкалы с нисходящей мелодикой, затем из исходного файла модифицировались четыре возможных ударных слога. Основу для дальнейших модификаций в Wave Assistant, таким образом, составляли файлы «три варианта предшкалы + один тип тела фразы + ударный слог исходного файла», то есть три аудиофайла, и сигналы «исходный вопрос + четыре варианта ударного слога», то есть еще четыре аудио-файла. Далее получившиеся файлы переносились из программы Praat в Wave Assistant, где на каждый синтезированный участок высказывания ставились метки частоты основного тона. После этого в новом окне программы Wave Assistant из двух частей фраз (предшкала + тело и ударный слог), с помощью меток границ частей высказывания «собиралось» новое, полностью модифицированное высказывание с уже проставленными метками частоты основного тона. Такие же операции были произведены для синтеза фраз с восходящим движением частоты основного тона на участке тела фразы.

Таким образом, удалось синтезировать 96 фраз, которые в дальнейшем были разбиты на группы и представлены аудиторам в качестве материала для эксперимента.

5. Результаты эксперимента В ходе проведения аудиторского эксперимента подтвердилась гипотеза о том, что мелодическое оформление предшкалы и тела фразы существенным образом влияет на восприятие носителями языка дополнительных коннотаций и атмосферы общения, в которой может быть задан вопрос [Пискунова 2012]. Таким образом, можно сделать вывод, что не только интонационное оформление ударного слога, как отмечают авторы книг и пособий по французскому языку (см. например [Гордина, 2003: 117]), но и различия в движении тона на участке предшкалы вопроса и участке тела фразы могут нести дополнительную смысловую окраску.

При анализе анализа результатов перцептивного эксперимента была показана также зависимость опознаваемого аудиторами коммуникативного значения фразы от изменения 6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург интонационного оформления одной из частей высказывания при сохранении мелодического оформления других составных частей контура [Пискунова, 2012: 98].

6. Заключение Поскольку результаты эксперимента показали, что восприятие отдельных частей высказывания возможно во французском языке, где традиционно интонационный контур рассматривается без разделения на составные части [Delattre 1966], возможно предположить, что подобный метод синтеза может быть использован при изучении интонации тех языков, в интонационных конструкциях которых выделяются составные части, например, русского языка. В соответствии с интонационной системой русского языка, предложенной Е.А. Брызгуновой, в интонационном контуре выделяется центр высказывания, предцентровая и постцентровая часть. На материале русского языка уже проводились исследования по восприятию синтезированных высказываний [Бобович 2008], однако данные работы имели своей целью изучение восприятия интонационного контура целиком.

Предложенный в данной статье метод синтеза отдельных частей контура позволит получить более точные данные о восприятий изменений интонационных характеристик высказываний.

Литература 1. Академическая русская грамматика, электронный справочник изд-ва АН СССР.

2. Бобович Ю. А., Исследование движений частоты основного тона вне интонационного центра в специальных вопросах (на материале русского языка), курсовая работа, 2008.

3. Гордина М. В., Белякова Г.А.Практическая фонетика французского языка, (Книжный 4. Гордина М.В. Фонетика французского языка, СПб, 1997.

5. Пискунова В.Ю., Интонация и прагматика французских общих вопросов с оборотом est-ce que, магистерская диссертация, 2012.

6. Ager D., Sociolinguistics and Contemporary French, Cambridge University Press, 1990.

7. Delattre P. Les Dix Intonation de Base du Franais // The French Review; v40 n1 p1-14 Oct 8. Intonaiton System. A Survey of Twenty Languages Hirst, Di Cristo, 1998.

9. Lon P., Phontisme et prononciations du franais: avec des travaux pratiques d'application et leurs corrigs, 2me ed., Nathan Universit, 1996.

10. Vanneste A., Le franais du XXIe sicle: introduction la francophonie, lments de phontique, de phonologie et de morphologie, Garant, 2005.

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Е.А. Огородникова, Э.И. Столярова, А.А. Балякова, С.П. Пак, Т.В. Кузьмина* Адаптация методик тренинга слухоречевой функции * Российский государственный педагогический университет им. А.И. Герцена, 1. Введение В работе рассматриваются возможности адаптации ряда обучающих и тестирующих методик, предназначенных для тренинга и развития слухоречевой функции, к задачам освоения русского языка инофонами. Основанием для работы является опыт применения инструментальных методик в практике диагностики, коррекции и реабилитации пациентов с нарушениями слухоречевой функции [1-8], а также специфика проблемных вопросов, выделяемых специалистами в области преподавания русского языка как иностранного.

2. Направления адаптации с примерами практической реализации Выбор и адаптация методик производились по двум направлениям:

- развитие слухоречевого восприятия с акцентом на усвоение системы перцептивных признаков устной русской речи (формантная структура гласных звуков, фразовая интонация, ритмическая организация лексических единиц) и ее закрепление в условиях дикторской вариативности и влияния акустических помех, - формирование языковых навыков русской речи, (расширение словарного запаса, освоение грамматических конструкций, коррекция навыков произношения).

В рамках первого направления рассматривались методики, входящие в состав компьютерной системы тренинга «Учись слушать» – совместной разработки Института физиологии им И.П.Павлова РАН и Санкт-Петербургского НИИ уха, горла, носа и речи МЗСР, используемой в практике реабилитации пациентов после операции кохлеарной имплантации [3-5,8], а также коррекции слухоречевой функции у школьников с нарушениями слуха [7].

Система состоит из тематических наборов инструментальных методик, предназначенных для различных направлений тренинга. В каждом из наборов обеспечивается:

- целевое расширение диапазона методик, звукоречевой базы и банка голосов дикторов, - проведение занятий с преподавателем и в условиях самостоятельной работы, - смена режимов обучения и тестирования, - измерение количественных параметров слухоречевого поведения (время реакции, количество ошибок распознавания, динамика изменения индивидуальных и групповых показателей).

Такая структура системы позволила сформировать пилотный блок тестов для работы с инофонами. В него вошел ряд инструментальных методик по развитию перцептивных навыков: распознавание речевых сигналов разной степени лингвистической сложности (гласные звуки, слоги, одно-, разно- и многосложные слова); различение голоса говорящего, фразовой интонации (на основе изменения контура основного тона), ритмических последовательностей (музыка, речь); выделение целевого слова в условиях «речевого коктейля» (одновременное звучание слов, произнесенных разными дикторами);

помехоустойчивое восприятие речи при различном акустическом фоне (шум, речь, музыка) [4, 6].

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Все тесты реализованы на материале русского языка с использованием записей 4-х дикторов (2-х мужчин и 2-х женщин, диапазон F0=100-230 Гц) и позволяют проводить занятия в режиме обучения (повторные прослушивания; обратная связь) или тестирования предъявление стимула и запись ответа без повторов и обратной связи со слушателем.

Звуковая реализация речевых сигналов сопровождается визуальным подкреплением выводом на экран монитора соответствующих изображений («картинок») и/или текстовых записей (Рис. 1). Выбор ответа осуществляется с помощью указателя мыши.

Рис. 1. Примеры отображения на экране монитора категорий ответов в тестовых наборах по различению голоса диктора (слева) и фразовой интонации (справа).

В конце занятия (обучение, тест) производится фиксация результатов в протоколе, который оформляется в формате таблиц EXCEL и содержит все ответы слушателя (правильный выбор, ошибки) и время его реакции (Рис. 2). В качестве информации для слушателя на монитор выводится краткое сообщение о количестве правильных и неправильных ответов, а также общая оценка результата: «+» или «–» в зависимости от установленного порога (70% правильных ответов).

Рис. 2. Примеры: протокола занятий (тест по распознаванию трехсложных слов) – слева; экспресс-оценки результатов обучения (тест по распознаванию гласных звуков На данной методической основе подготовлены также дополнительные тестовые наборы, предназначенные для:

- формирования и закрепления навыка слуховой оценки согласных звуков по признаку «глухость-звонкость» (на материале слогов и слов), - освоения перцептивных признаков, определяющих «род», «число» в предъявляемых речевых стимулах (выбор соответствующего местоимения, прилагательного, существительного - примеры см. на Рис. 3).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Рис. 3. Примеры отображения категорий ответов в тестах по выбору местоимения, прилагательного, существительного в дополнение к предъявленному стимулу (платье – «оно»; платье – «красивое»; красивое платье – «моё»).

По второму направлению работы методики формировались на основе базовой программы «аудиовизуального глоссария», разработанной совместно с учебно-методической лабораторией по обучению студентов с ограниченными возможностями по слуху СанктПетербургского государственного политехнического университета (факультет медицинской физики и биоинженерии). Программа ориентирована на освоение предметной терминологии в рамках профильного высшего образования с возможностью адаптации слабослышащих студентов к голосовым характеристикам и артикуляторным особенностям их преподавателей [1-2].

Использование программы при обучении может способствовать расширению словарного запаса речи и усвоению сложных грамматических конструкций. При работе с ней на монитор экспонируются: изображение, отражающее смысловое содержание стимула (предмет, ситуация, схема); текст (слова, фразы, словарные статьи), видеозапись (крупный план лица диктора). Для проверки степени овладения учебным материалом предусмотрена процедура периодического тестирования, в ходе которой заполняется карточка индивидуальных результатов, где фиксируются: фамилия обучаемого, дата тестирования, варианты и время ответных реакций. Формируемая картотека позволяет оценить динамику успеваемости, провести целевую коррекцию курса индивидуальных занятий, сравнить результаты обучения в группе.

При адаптации программы к задачам обучения инофонов требовалось выделение специфических особенностей их речевых навыков, зависящих от возраста, характеристик родного языка, уровня начального овладения русским языком и других факторов. На этой основе планировалась целевая трансформация и дополнение звукоречевых баз, формирование тематических тестов, позволяющих повысить эффективность учебных занятий. В качестве первого шага в этом направлении был подготовлен обучающий набор, способствующий преодолению трудностей дифференциации (на слух, при произнесении, на письме) твердых и мягких согласных русского языка, наиболее характерных, по мнению специалистов, для носителей тюркских языков. Первичный речевой материал в этом наборе составили 3 альтернативные пары слов: «мишки - мышки», «люк - лук», «флаги - фляги».

Соответствующие учебные тесты содержали текстовую и иллюстративную информацию, формирующую представление о предметном содержании слова (например, «люк» – это…, см.

Рис. 4), а также обеспечивали возможность:

- включения и прослушивания аудиозаписи с произнесением слова (и/или словарной - ознакомления с правильной артикуляцией в исполнении специалиста-логопеда (включение видеоизображения лица или губ диктора), - проведения быстрой самопроверки (опознание слов по аудиозаписи, правильность соотнесения слов и словарных статей), - попарного сравнения слов (восприятие на слух, особенности артикуляции).

6 междисциплинарный семинар «Анализ разговорной русской речи» АР3 – 2012, 27 – 28 августа 2012, г. Санкт-Петербург Рис. 4. Примеры отображения информации на экране монитора в учебных тестах по освоению категории «твердость/мягкость»: артикуляция (видеозапись лица диктора), предметная информация (текст, иллюстрации), сравнение артикуляции в Еще один блок, построенный по такой схеме, был связан с проблемой освоения грамматических категорий - род, число, падеж (Рис. 5). Речевой материал включал слова разного рода в единственном или множественном числе («школа», «платье», «шляпа», «варенье», «друзья», «ботинки»), которые образовывали конструкции с местоимениями («мой», «моя», «мои», «моё») и прилагательными («красивый», «любимый», «старый», «голубой», «хороший»).



Pages:     | 1 || 3 |
 


Похожие работы:

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Филиал федерального государственного бюджетного образовательного учреждения высшего профессионального образования Кемеровский государственный университет в г. Анжеро-Судженске 1 марта 2013 г. РАБОЧАЯ ПРОГРАММА по дисциплине Психология и педагогика (ГСЭ.Р.3) для специальности 080801.65 Прикладная информатика в экономике факультет информатики, экономики и математики курс: 2 семестр: 4 зачет: 4 семестр лекции: 18 часов практические занятия: 18...»

«Применение информационных технологий при создании школьной газеты Волынская Маргарита Николаевна, учитель информатики МОУ Мошинская общеобразовательная школа Ревенко Ирина Валентиновна, учитель русского языка и литературы МОУ Мошинская общеобразовательная школа Список ИПМ: ИПМ 1. Теоретическая интерпретация ИПМ 2. Этапы работы над выпуском школьной газеты ИПМ 3. Развитие базовых и дополнительных знаний, умений и навыков во время работы в издательских системах ИПМ 4. Тематическое планирование и...»

«1 СОДЕРЖАНИЕ ВВЕДЕНИЕ 1. ОБЩИЕ СВЕДЕНИЯ ОБ ОБРАЗОВАТЕЛЬНОЙ ОРГАНИЗАЦИИ.5 2. ОБРАЗОВАТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ.15 3. НАУЧНО-ИССЛЕДОВАТЕЛЬСКАЯ И МЕЖДУНАРОДНАЯ ДЕЯТЕЛЬНОСТЬ 4. ВНЕУЧЕБНАЯ И ВОСПИТАТЕЛЬНАЯ РАБОТЫ 5. МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ЗАКЛЮЧЕНИЕ И ВЫВОДЫ ПРИЛОЖЕНИЯ 2 ВВЕДЕНИЕ Самообследование деятельности Хакасского филиала федерального государственного бюджетного образовательного учреждения высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ,...»

«высшее профессиональное образование Бакалавриат Ю. Д. железняк, П. к. Петров основы научно-метоДической Деятельности в физической культуре и сПорте Для студентов учреждений высшего профессионального образования, обучающихся по направлению Педагогическое образование профиль Физическая культура 6-е издание, переработанное УДК 7А(075.8) ББК 75.1я73 Ж51 Р е ц е н з е н т ы: доктор педагогических наук, академик РАО, профессор Института информатизации образования РАО И.В.Роберт; доктор биологических...»

«24 августа 2012 года № 146 Периодическое печатное издание Официальный вестник Цивильского района Издается с 23 июля 2008 года Распространяется бесплатно ЧУВАШСКАЯ РЕСПУБЛИКА ЦИВИЛЬСКИЙ РАЙОН АДМИНИСТРАЦИЯ ЦИВИЛЬСКОГО РАЙОНА ПОСТАНОВЛЕНИЕ 24 августа 2012 года № г. Цивильск Ходатайство перед Кабинетом Министров Чувашской Республики о переводе земель сельскохозяйственного назначения в категорию земли промышленности, энергетики, транспорта, связи, радиовещания, телевидения, информатики, земли для...»

«876 14-Геофизика: физика земной коры, физика океана, атмосферы Балханов Василий Карлович, аспирант Отдел физических проблем Бурятского научного центра Сибирского отделения РАН, отдел физических проблем Масштабная инвариантность геоэлектрических параметров Научный руководитель: Башкуев Юрий Буддич, д.т.н., проф., зав. лаб, БНЦ СО РАН Адрес: 670047 Улан-Удэ ул. Сахьяновой, 8 Телефон: (3012)43-32-10 стр. 882 E-Mail: lab@rgp.bsc.buryatia.ru Балханов Василий Карлович, аспирант Отдел физических...»

«Научные исследования подавателей факультета I математики и информатики 70-летию университета посвящается УДК 517.977 Е.А. Наумович ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДЕЯТЕЛЬНОСТИ КАФЕДРЫ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ И ОПТИМАЛЬНОГО УПРАВЛЕНИЯ (1979-2009 гг.) В статье приводятся краткие сведения из истории создания и развития кафедры дифференциальных уравнений и оптимального управления. Сформулированы основные научные направления и наиболее важные результаты, полученные сотрудниками кафедры. Приведена информации...»

«011261 Настоящее изобретение относится к новому белку, обозначаемому INSP201 и идентифицированному в настоящей заявке как гликопротеин клеточной поверхности, и к применению этого белка и последовательностей нуклеиновой кислоты, содержащей гены, кодирующие указанный белок, в целях диагностики, предупреждения и лечения заболеваний. Все цитированные здесь публикации, патенты и патентные заявки во всей своей полноте вводятся в настоящее описание посредством ссылки. Предшествующий уровень техники В...»

«7 класс. Поурочные разработки Поурочные разработки для 7 класса. I четверть Урок 1. Объекты и их имена. Признаки объектов Цели урока: обобщение представлений об объектах, актуализация ранее изученного материала об объектах операционной системы Windows. Основные понятия: объект, общее имя объекта, единичное имя объекта. Особенности изложения содержания темы данного урока. На первом уроке в 7 классе важно не столько сообщить учащимся новые сведения, сколько обобщить представления об объектах,...»

«Предисловие к третьем изданию у Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт Т.И. Захарова Организационное поведение Учебно-методический комплекс Рекомендовано Учебно-методическим объединением по образованию в области антикризисного управления в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 080503 Антикризисное управление и другим...»

«ДОНЕЦКИЙ НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Факультет вычислительной техники и информатики Кафедра прикладной матиматики и информатики НА КОНКУРС НА ЛУЧШУЮ РАБОТУ СТУДЕНТОВ ПО РАЗДЕЛУ Техническая кибернетика, информатика и вычислительная техника СТУДЕНЧЕСКАЯ НАУЧНАЯ РАБОТА На тему: Исследование методов организации данных в задачах разбиения графов больших размерностей Выполнила ст. гр. ПО-01а Краснокутская М.В. Руководитель ст. пр. кафедры ПМИ Костин В.И. Донецк - 2005 2 РЕФЕРАТ Отчет...»

«УЧРЕЖДЕНИЕ РОССИЙСКОЙ АКАДЕМИИ НАУК ИНСТИТУТ БИОХИМИИ ИМ. А.Н. БАХА РАН (ИНБИ РАН) ТЕНДЕНЦИИ РАЗВИТИЯ ПРОМЫШЛЕННОГО ПРИМЕНЕНИЯ БИОТЕХНОЛОГИЙ В РОССИЙСКОЙ ФЕДЕРАЦИИ (Контракт от 30 декабря 2010 г. № 30/12/10) Москва 2011 г. АННОТАЦИЯ Качественной характеристикой современной биотехнологии является тандем самой передовой науки и технологических подходов, обеспечивающий оптимизацию производственных процессов с целью получения чистой продукции и одновременного сохранения глобальной окружающей среды....»

«ТЕХНИЧЕСКИЙ КОДЕКС ТКП 210-2010 (02140) УСТАНОВИВШЕЙСЯ ПРАКТИКИ ЭЛЕКТРОУСТАНОВКИ ОБОРУДОВАНИЯ ЭЛЕКТРОСВЯЗИ. ПРАВИЛА ПРОЕКТИРОВАНИЯ ЭЛЕКТРАЎСТАНОЎКI АБСТАЛЯВАННЯ ЭЛЕКТРАСУВЯЗI. ПРАВIЛЫ ПРАЕКТАВАННЯ Издание официальное Минсвязи Минск ТКП 210-2010 УДК 621.311.4:621.39 МКС 43.060.50; 33.040 КП 02 Ключевые слова: батарея аккумуляторная, электроустановка, электрооборудование, устройство электроснабжения, устройство преобразовательное, электростанция, дизельная электростанция, подстанция,...»

«Направление подготовки: 010400.68 Прикладная математика и информатика (очная) Объектами профессиональной деятельности магистра прикладной математики и информатики являются научно - исследовательские центры, государственные органы управления, образовательные учреждения и организации различных форм собственности, использующие методы прикладной математики и компьютерные технологии в своей работе. Магистр прикладной математики и информатики подготовлен к деятельности, требующей углубленной...»

«Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования САРАТОВСКАЯ ГОСУДАРСТВЕННАЯ ЮРИДИЧЕСКАЯ АКАДЕМИЯ УТВЕРЖДАЮ Первый проректор, проректор по учебной работе С.Н. Туманов _ 2012 Учебно-методический комплекс дисциплины Инструментальные средства информационных систем Направление подготовки 230400.62 Информационные системы и технологии Одобрен Учебно-методическим советом 18 июня 2012 г., протокол № 5 Согласовано Нач. Управления ККО Ю.Н. Михайлова...»

«В. И. Донской Алгоритмические модели обучения классификации: обоснование, сравнение, выбор Симферополь ДИАЙПИ 2014 УДК 519.7 ББК 22.12, 32.81 Д676 Донской В. И. Д676 Алгоритмические модели обучения классификации: обоснование, сравнение, выбор. – Симферополь: ДИАЙПИ, 2014. – 228 с. ISBN 978–966–491–534–9 В книге рассматриваются теоретические аспекты машинного обучения классификации. В центре изложения – обучаемость как способность применяемых алгоритмов обеспечивать эмпирическое обобщение. С...»

«ФГУ Центральный научно-исследовательский институт организации и информатизации здравоохранения ОЦЕНКА ЭПИДЕМИЧЕСКОЙ СИТУАЦИИ ПО ТУБЕРКУЛЕЗУ И АНАЛИЗ ДЕЯТЕЛЬНОСТИ ПРОТИВОТУБЕРКУЛЕЗНЫХ УЧРЕЖДЕНИЙ (Пособие для врачей) Москва, 2009 УДК 616.02 ББК 55.4 И.М. Сон, Е.И. Скачкова, С.А. Леонов, П.П. Сельцовский, Л.Н. Рыбка, С.А. Стерликов, А.В. Гордина, Д.А. Кучерявая, Е.Н. Пономаренко, Д.Е. Кочкарев, Н.М. Зайченко, И.Г. Сазыкина. Оценка эпидемической ситуации по туберкулезу и анализ деятельности...»

«  Древние языки и культуры  Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт В.М. Заболотный ДРЕВНИЕ ЯЗЫКИ  И КУЛЬТУРЫ  Учебно-методический комплекс Москва, 2009 1   Древние языки и культуры  УДК 81 ББК 81 З 125 Научный редактор: д.ф.н., проф. С.С. Хромов Заболотный, В.М. ДРЕВНИЕ ЯЗЫКИ И КУЛЬТУРЫ. – М.: Изд. центр З 125 ЕАОИ, 2009. – 308 с. ISBN 978-5-374-00262-1 УДК ББК © Заболотный В.М., ©...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОКУЗНЕЦКИЙ ИНСТИТУТ (ФИЛИАЛ) ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ УТВЕРЖДЕНО на заседании Ученого совета факультета информационных технологий НФИ КемГУ председатель Ученого совета В.О. Каледин.. 2013г. протокол №. ОТЧЕТ по результатам самообследования ООП специальности 010501.65 Прикладная...»

«Российская академия наук Институт экологии Волжского бассейна В.К. Шитиков, Г.С. Розенберг Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R Завершающая интернет-версия от 09.05.2013 Тольятти 2013 1 Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 289 с. ISBN В книге представлено описание широкой панорамы статистических методов, как повсеместно используемых,...»














 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.