WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 

На правах рукописи

Хорошко Максим Болеславович

РАЗРАБОТКА И МОДИФИКАЦИЯ МОДЕЛЕЙ И

АЛГОРИТМОВ ПОИСКА ДАННЫХ В INTERNET/INTRANET

СРЕДЕ ДЛЯ УЛУЧШЕНИЯ КАЧЕСТВА ПОИСКА

Специальность 05.13. 17 – «Теоретические основы информатики»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Новочеркасск – 2013 2

Работа выполнена на кафедре «Информационные и измерительные системы и технологии» ФГБОУ ВПО ЮРГПУ(НПИ) им М.И. Платова.

Научный руководитель кандидат технических наук, доцент Воробьев Сергей Петрович

Официальные оппоненты Ромм Яков Евсеевич доктор технических наук, профессор, ФГБОУ ВПО «Таганрогский государственный педагогический институт имени А.П. Чехова», заведующий кафедрой информатики Шестаков Сергей Александрович кандидат технических наук, ООО «Прог-Форс», директор компании

Ведущая организация ФГВОУ ВПО «Военная академия связи имени Маршала Советского Союза С.М.Буденного»

Министерства обороны Российской Федерации, г. Санкт – Петербург

Защита состоится «27» декабря 2013 г. в 10:20 на заседании диссертационного совета Д 212.208.21 Южного федерального университета по адресу: 347928, г. Таганрог, пер. Некрасовский, 44, ауд. Д- 406.

С диссертацией можно ознакомиться в Зональной научной библиотеке Южного федерального университета по адресу: 344000, г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан «25» ноября 2013 г.

Ученый секретарь диссертационного совета Д 212.208.21, доктор технических наук, Боженюк А.В.

профессор

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Объемы обрабатываемой электронной информации нарастают большими темпами – этому способствует активное внедрение мультимедиа, широкое распространение корпоративных и глобальных сетей, отказ большинства предприятий от бумажного документооборота и переход на автоматизированные системы управления предприятием. В подобной ситуации резко возросла потребность в системах поиска и анализа данных, а также возник спрос на интеллектуализацию информационно-поисковых систем (ИПС).




В настоящее время работает ряд авторитетных международных конференций, посвящённых обсуждению вопросов информационного поиска, например, таких как: TREC (Text Retrieval Conference) – серия конференций, сконцентрированных на исследовании различных областей информационного поиска и их задач. Она поддерживается National Institute of Standards and Technology (NIST) и Association of Religion Data Archives (ARDA), расположенных в США, начиная с 1992. Целью TREC является поддержка исследований сообщества информационного поиска с помощью предоставления инфраструктуры, необходимой для развития его технологий; WWW (World Wide Web) Conference – специально организованная конференция для решения задач, связанных с Интернет.

Из Российских конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию «Электронные библиотеки» (RCDL). Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и внедрением информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, Галактика-Зум, ABBYY-FTR, AOT и др.

Высокий авторитет конференций TREC, WWW Conference и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.

Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем:

И.С. Некрестьянов, И.E. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, M. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J., J. Sparck, D. Carmel, S. Brin, L. Page, A. Singhal., T. Haveliwala.

Существует достаточно широкий спектр предлагаемых решений в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов при помощи латентно семантического анализа. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов ранжирования документов во многом зависит эффективность существующих поисковых систем. Но современные корпоративные информационно-поисковые системы, в основе которых по большей степени лежит полнотекстовый поиск и классический алгоритм ранжирования не учитывают индивидуальность каждой коллекции документов, необходимости подстраиваться под каждый запрос в зависимости от его типа и длины.

Диссертационная работа выполнена в рамках научного направления ФГБОУ ВПО ЮРГПУ(НПИ) им М.И. Платова «Теория, принципы и технологии построения информационно-вычислительных и измерительных систем», госбюджетной темы 7.05 «Разработка теории, методов оптимизации функциональной и программнотехнической платформы корпоративных информационных систем» (Утверждено решениями ученого совета от 25.04.2001г. и 15.05.2003г).





Диссертационная работа посвящена вопросам повышения качества результатов поиска в современной информационной среде.

Целью диссертационной работы является модификация и исследование математических моделей и технологий информационного поиска в корпоративных информационных системах путем изменения функции вычисления релевантности, что позволяет увеличить партинентность результатов поиска, а также снизить время индексации путем реорганизации хранения индексного файла.

Для достижения поставленной цели решаются следующие задачи:

1. Теоретический анализ вопросов построения архитектуры и технологий информационно-поисковых систем, ориентированный на повышение эффективности в зависимости от типа запроса пользователя.

2. Разработка и исследование модификаций существующих методов ранжирования в поисковых системах. Принципиальным отличием нового метода является то, что в зависимости от типа запроса он применяет различные алгоритмы ранжирования.

3. Разработка и исследование модификаций методов построения индекса.

4. Анализ и разработка модификации алгоритмов информационного поиска в части расчета критерия релевантности документа.

5. Разработка имитационной модели информационно-поисковой системы с целью возможной оценки предлагаемых технических решений.

Методы исследований и достоверность результатов. В работе использованы методы теории принятия решений, имитационного моделирования, а также теории вероятностей и генетических алгоритмов. Достоверность результатов подтверждается корректным применением элементов теории принятия решений, планирования экспериментов, сопоставлением полученных экспериментальных результатов с имитационным моделированием, непротиворечивостью предложенных математических моделей и методов поиска решения, а также положительной оценкой внедрения результатов.

Объектом исследования является технология функционирования, методы построения индексов, метрики оценки, модели и алгоритмы информационнопоисковых систем.

Предметом исследования являются массивы данных, обрабатываемые в информационно поисковой системе и математические модели, их описывающие.

Научная новизна. В диссертации получены следующие новые научные и практические результаты: модификация метода инвертированных файлов, позволяющая повысить скорость возвращения списка документов, содержащих необходимый термин; метрика оценки для математической модели, учитывающая положение релевантных документов; модификация математических моделей информационного поиска путем изменения методов вычисления релевантности документа с использованием генетического алгоритма, что позволяет повысить партинетность результатов поиска; модель ИПС, использующая необходимый алгоритм в зависимости от типа запроса пользователя; модификация технологии работы информационно-поисковой системы, использующая предлагаемые теоретические результаты.

Основные положения выносимые на защиту.

1. Новая метрика «Чувствительная метрика ошибок», которая оценивает первые – документов на соответствие полученной релевантности. Чем выше документ в списке, тем меньше допустима ошибка, т.к. пользователи просматривают документы по порядку.

2. Модификация метода инвертированных файлов, заключающаяся в хранении файла индекса по пути его термина. Данный метод на тестовой коллекции показал лучшие результаты, чем метод инвертированных файлов.

3. Модификация алгоритмов: булевого поиска, модели векторного пространства, вероятностной модели, обратной связи по релевантности, языковых моделей с помощью внедрения генетического алгоритма, для расчета релевантности документа. Модификации показали лучший результат, по сравнению с базовыми алгоритмами.

4. Модификация алгоритмов поиска информации Sphinx, Lucene, Xapian с помощью генетического алгоритма, позволяющая улучшить характеристики модели корпоративного поиска.

5. Модель поиска, которая выбирает алгоритм ранжирования в зависимости от количества слов и типа информационного запроса. Данная модель позволяет улучшить такие характеристики системы, как: полнота, точность, ошибка.

6. Имитационная модель информационно-поисковой системы, позволяющая оценить эффективность принятых теоретических и технических решений при построении серверной и клиентской части программного комплекса.

7. Модификация архитектуры информационно-поисковой системы, позволяющая уменьшить количество операций чтение/запись из хранилища.

Теоретическая ценность работы заключается в построении и исследовании моделей информационно-поисковых систем, методов построения индекса.

Практическая ценность. Совокупность полученных теоретических и практических результатов может использоваться для построения корпоративных и интерфейсных информационно-поисковых систем, позволяющих повысить качество результатов поиска.

Для практического применения системы в диссертации создан программный продукт (IRST), позволяющий выполнять поиск в корпоративной информационной среде и по нескольким сайтам.

Реализация результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены в ООО «ВелесВент», ОАО «НГЧ».

Разработанный программный продукт имеет свидетельство об официальной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):

программная система IRSI/ Информационно-поисковая система информации в Intranet/Internet среде. Зарегистрировано в Реестре программ для ЭВМ 6.07.2011 г., рег. № Апробация работы и публикации. Основные положения диссертации и отдельные ее результаты обсуждались и получили положительные отзывы на:

VII Международной научно-практической конференции «Моделирование, Теория, методы и средства», 2007г. (г. Новочеркасск) Научно-технической конференции студентов и аспирантов ЮРГТУ (НПИ) «Студенческая весна 2008» (г. Новочеркасск) VIII Межрегиональной научно-практической конференции студентов и аспирантов, 2008 г. (г. Новокузнецк) II Российской летней школе по информационному поиску, 2008г. «RuSIR 2008»

(г. Таганрог) VII, XI Международной научно-практической конференции «Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем», 2009г, 2013г. (г. Новочеркасск) IV Российской летней школе по информационному поиску, 2010г. «RuSIR 2010» (г. Воронеж) По теме диссертации опубликовано 17 статей, три из них в рекомендованных ВАК изданиях, получено свидетельство о регистрации программного продукта.

Структура диссертационной работы. Диссертация содержит 224 станицы основного текста, 95 рисунков, 22 таблицы и состоит из введения, четырех глав, заключения, списка литературы из 100 наименований и трех приложений объемом 38 страниц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации.

Формулируются цель работы и задачи, описываются применяемые методы исследования, научная новизна, практическая значимость работы и основные положения, выносимые на защиту.

В первой главе диссертации приведена классификация поисковых систем и моделей информационного поиска, рассмотрены следующие технологии ИПС:

StackSearch, как реализация классической технологии;

Google, на основе происходящих процессов без учета распределения по серверам;

распределенная ИПС Яндекс.

Представлена технология модифицированной системы, основное отличие которой заключается в том, что модуль индексирования сразу создает индекс для входящего документа и заносит документ в хранилище, при этом выделяя все необходимые параметры страницы: ссылки, объем текста, дата публикации и т.д. В этом случае документ не проходит два этапа: первоначальное занесение его в хранилище документов, а затем его выбор и обработка.

Проведен эксперимент в системе имитационного моделирования Anylogic, который показал, что данное изменение позволит уменьшить нагрузку сервера на 6%. На рисунке 1 показана модифицированная архитектура, включающая модуль индексирования.

Архитектура ИПС состоит из следующих хранилищ и модулей.

Хранилища:

URL – хранит адреса страниц, которые находятся в очереди на индексацию;

ссылки – хранит связи между документами;

индексы – хранит индексы документов, чтобы легко можно было найти документы, в которых встречается данное слово, и наоборот, найти слова из документа;

документы – хранит тексты документов;

кэш – хранит сформированную выдачу по часто задаваемым запросам;

статистика запросов – хранит статистику запросов.

сетевые роботы – занимаются обходом сети в поиске новых документов;

индексирование – выполняет процесс индексирования документа;

обработка ссылок – находит новые документы по ссылкам и отправляет в очередь на индексацию;

ранжирование – выбирает документы удовлетворяющие запросам и сортирует их в порядке уменьшения значимости;

получение результата – ведет статистику запросов и если для запроса уже сформированы результаты поиска в кэше, то выдает ее пользователю, в противном случае посылает запрос модулю ранжирования;

Поисковая машина – с ней непосредственно общается пользователь. На вход она получает запрос и выдает результаты поиска пользователю.

Также в данной главе рассмотрены существующие алгоритмы поиска информации в корпоративных сетях: Sphnix, Lucene, Xapian, которые используют модификацию метода BM25.

Представлена обобщенная математическая модель ИПС. На вход модели поступает запрос, к базе документов = {1, …, }, где – общее количество документов. Поисковая система выдает по запросу пользователя вектор документов = (1, …, ), где – количество результатов поиска.

Вычисляется релевантность документа по запросу –, = (, ) и документы сортируются в порядке её уменьшения. Также релевантность документа стремится к пертинентности документа (, ). Необходимо определить оптимальный алгоритм, который обеспечит необходимое соотношение факторов для получения представления документов с максимальной релевантностью.

Для проведения эксперимента учитываются только запросы с согласованностью экспертов Каппа 0.67, () — доля совпавших оценок экспертов, () — ожидаемая доля случайно совпавших оценок.

И ограничениями:

где – определяется функцией вычисления релевантности, = {1, …, } - скорость индексации изменяется в зависимости от компьютера и определяет количество документов в минуту, на – компьютерах, = {1, …, } – время доступности компьютера (минут в сутки).

Необходимо проиндексировать все документы за минут для поддержания БД в актуальном состоянии. – коэффициент параллельной обработки документов.

(, _,,, ) – факторы, от которых зависит релевантность документа запросу, подразделяются на:

статические - не зависят от запроса;

o динамические – зависят от запроса и вычисляются в момент обращения, географический фактор - зависит от местонахождения пользователя;

собственные факторы - учитывают нахождения документа в доверяемых каталогах, клики пользователей.

При рассмотрении моделей информационного поиска будут отображены только функции вычисления релевантности документа по запросу.

Во второй главе рассмотрены методы оценки эффективности систем информационного поиска – представлен набор метрик, используемый на международной конференции TREC и включающий: полноту, точность, 11точечный график полноты/точности,, среднюю точность. Проведена оценка существующих метрик, и на основе их анализа предложена чувствительная метрика ошибок:

где – число документов, выданных системой на запрос пользователя. Для каждого документа имеется оценка релевантности экспертом (), оценка релевантности системы () и номер документа в выдаче ().

Коэффициент – динамический коэффициент, учитывающий увеличение или уменьшение разности релевантности на каждом шаге.

Пример расчета метрики представлен в таблице 1, при N=10.

В итоге формируется суммарная ошибка, равная = 12,24. Одну треть данной ошибки составляет первая строка, т.к. разница релевантности ПС и оценки экспертов равняется четырем, а если бы оценка экспертов равнялась оценке ПС, то на данном шаге получили бы нулевое значение метрики. Сложность данного алгоритма составит (), т.к. алгоритм содержит один цикл.

В итоге формируется суммарная ошибка, равная = 12,24. Одну треть данной ошибки составляет первая строка, т.к. разница релевантности ПС и оценки экспертов равняется четырем, а если бы оценка экспертов равнялась оценке ПС, то на данном шаге получили бы нулевое значение метрики. Сложность данного алгоритма составит (), т.к. алгоритм содержит один цикл.

Экспериментальное исследование метрики на выборке случайных запросов и рассчитанной для пары [документ – запрос] показало, что предложенная метрика очень чувствительна на наличие релевантных документов в первых строках результатов поиска. Данную метрику необходимо вычислять в совокупности с остальными метриками.

Таким образом получается оптимальный набор метрик для оценки ИПС:

полнота, точность, аккуратность, ошибка, F-мера, чувствительная метрика ошибок.

Данный набор метрик позволит сравнить методы поиска информации и определить оптимальный метод взвешивания документа.

Имея оценки экспертов по паре запрос, документ данного эксперта (где – номер запроса, – номер документа, – номер эксперта), необходимо вычислить значения метрик.

В связи с тем, что несколько экспертов оценивают пару документ-запрос, то будет учитываться средняя оценка:

где – количество экспертов.

В работе рассмотрены методы построения индекса: в виде дерева, суффиксных массивов, сигнатурных файлов, инвертированных файлов. Одним из используемых моделей является метод инвертированных файлов.

На вход модели поступает запрос пользователя, состоящий из терминов = { 1, …, }, где – количество терминов в запросе. Имеется индексный файл состоящий из терминов и номеров документа, в которых он встречается:

Необходимо получить документы с данным термином:

где – количество индексов документа, – индекс документа, (, ) – функция получения индекса документа.

При выполнении условий:

В базовом варианте данного метода индекс хранится в едином структурированном файле. Модификация заключается в разбиении единого файла на множество индексных файлов, каждый из которых хранится в отдельной папке, соответствующий конкретному термину.

терминов. При этом структура индексного файла выглядит следующим образом:

Термин разбиваемся на символы, Конечный индексный файл находится по определенному пути, получаем его представлена ниже:

при выполнении условий 1, 2.

Благодаря такой организации хранения индекса для любого термина сразу известно, где искать файл индекса, и для его получения тратится меньше времени, чем для единого индексного файла. Сравнительный анализ полученной модели с другими методами построения индекса показал, что:

размер индекса практически не отличается;

скорость индексации на 30% выше, чем у инвертированных файлов;

время ответа на 15% меньше, чем у инвертированных файлов.

В третьей главе приведен анализ существующих поисковых алгоритмов, в ходе которого был выявлен основной существенный недостаток – алгоритмы не подстраиваются под существующие документы. Данная проблема очень актуальна, т.к. в различных организациях имеется свой тип документов, а каждый тип документов необходимо ранжировать по разному, например: бухгалтерские бланки чем новее, тем более актуальны, а в продукции большее значение имеет полное соответствие запросу. Очевидно, что данная задача относится к классу NPсложных задач (классификация в теории вычислительной сложности). Для решения такого типа задач используются эвристические алгоритмы, в качестве одной из альтернатив возможно использование генетических алгоритмов для автоматической подстройки информационно-поисковой системы.

Генетический алгоритм для подбора коэффициентов получает на вход количество коэффициентов (), используемых в модели, и возвращает подобранные коэффициенты. Общий алгоритм выглядит следующим образом:

1) Создается начальная популяция. Случайным образом из диапазона коэффициентов от до (диапазон устанавливается для каждого алгоритма) подбираем наборов коэффициентов и переводим их в двоичный 2) Вычисляется приспособленность хромосом. Оценивается ошибка для каждого набора коэффициентов.

3) Выбираются два родителя с наименьшей ошибкой для операции скрещивания.

4) Выбираются хромосомы для операции мутации.

5) Оценивается приспособленность нового набора коэффициентов.

6) Если ошибка набора (1 ) больше заданной ошибки ( ), то переходим к пункту 3, иначе пункт 7.

7) Полученный набор коэффициентов, который минимизирует ошибку, возвращается в модель поиска.

Рассмотрены более детально основные аспекты:

Все коэффициенты генерируются изначально случайным образом по равномерному закону при ограничении сверху и снизу. Затем переводятся в двоичный вид, чтобы можно было применять операции скрещивания и Ошибка оценивается по следующей формуле:

где (, ) – средняя оценка документа экспертами, по запросу.

(, ) – полученная релевантность документа, по запросу.

Проведено экспериментальное исследование для получения оптимальных операций скрещивания и мутации.

Операция отбора. После проведения ряда экспериментов было выявлено, что для более быстрого получения максимума целевой функции отбор хромосом должен осуществляться по следующему принципу: для операции скрещивания берутся две самые лучшие хромосомы, и случайным образом хромосом.

Для операции мутации берутся две хромосомы с самой низкой приспособленностью и хромосом.

Операция скрещивания. Для выбора оптимальной операции скрещивания был проведен ряд экспериментов с различными методами. В результате определились два оптимальных метода. Для проверки эффективности случайным образом делалась выборка запросов от одного до ста. В качестве параметра, определяющего оптимальность, бралась средняя оценка релевантности выдачи по данным запросам.

Во время эксперимента отключались другие операции. Таким образом, функция достигает максимума при сращивании методом «расчески» и очень близка при скрещивании «пополам». Решено оставить оба варианта в алгоритме, и эксперименты доказали эффективность выбранного способа Для определения оптимальной мутации был проведен эксперимент, где оценивалась средняя релевантность документов выданных системой при отключенных других механизмах. В результате эксперимента выяснилось, что мутация достигает максимума при вероятности мутирования бита, равной 40%.

В результате эксперимента были получены оптимальные операции скрещивания и мутации для данного генетического алгоритма.

Также проведена оценка сложности генетического алгоритма. Из анализа операций получены две самые длительные операции:

оценка ошибки, (50 ), выполняется за 1 сек;

вычисление целевой функции () ( ), выполняется за 2 сек.

Количество операций генетического алгоритма О() равно:

Количество итераций ГА может варьироваться от одной до бесконечности, но имея ограничения по времени сверху (по умолчанию в программе это значение равно 5 часам) и зная время итерации, получим, что нам необходимо = (3600 )/ итераций.

Общая сложность алгоритма составит () = О( ).

Данный ГА используется во всех экспериментальных исследованиях моделей информационного поиска, для которых было создано две базы запросов – документов. Первая база используется для обучения алгоритма, вторая для оценки.

Тестовые коллекции были предоставлены организацией РОМИП, использовались две коллекции:

псевдослучайная выборка сайтов из домена narod.ru объемом документов;

набор, содержащий новостные сообщения из 25 источников и охватывающий временных интервала (около 31 500 документов).

Были сформированы запросы трех типов:

информационные запросы;

навигационные запросы;

транзакционные запросы.

Всего сформировано около 5 000 запросов в равных соотношениях.

В различных экспериментах использовалось различное количество запросов и документов – это обусловлено в основном временем выполнения запроса к базе документов.

Выполнено экспериментальное исследование алгоритмов поиска информации и их модификации с помощью ГА.

Булев поиск работает с запросами содержащими логические операции: И, ИЛИ, НЕТ. Релевантность вычисляется по формуле:

где – количество зон документа (заголовок, сноски, текст), – вес зоны документа, – значение фактора. Приведена оценка сложности алгоритма, которая составила ().

В данной формуле вес зоны документа подбираются генетическим алгоритмом и методом динамического программирования. Результаты сравниваются со значениями метрик, полученных полным перебором.

Эксперимент показал, что генетический алгоритм обладает лучшими значениями метрик, по сравнению с другими методами. Его эффективно использовать для подбора коэффициентов, чтобы минимизировать ошибку вычисления релевантности.

В модели векторного пространства релевантность рассчитывается по следующей формуле:

где () – векторное представление запроса, () – векторное представление документа. В качестве векторов в эксперименте использовалась оценка веса запроса, и нормированный вес термина в документе –,.

где – частота термина в запросе, – обратная документная частота, вычисляемая по формуле:

где – размер базы документов, – количество документов с данным термином.

Оценка сложности данного алгоритма составляет ( 3 ).

В данном примере вес термина в документе учитывал только частоту термина, но возможны и другие варианты взвешивания документа. Ручной подбор схемы взвешивания для коллекции документов займет большее время: был проведен эксперимент для подбора схемы взвешивания, использующую одну из трех схем, Модификация с генетическим алгоритмом обладает лучшими значениями метрик, по сравнению с базовым алгоритмом. Но при этом не оправдана сама эффективность использования векторной модели для ранжирования, т.к. вычисление косинусной меры сходства между вектором запроса и каждым вектором документа коллекции, сортировка по релевантности и выбор лучших документов является довольно затратным процессом и требует выполнения десятков тысяч арифметических операций.

Вероятностная модель – оценивает вес документа по схеме Okapi BM25 и рассчитывается по следующей формуле:

где — частота термина в документе, a и — длина документа и средняя длина документа во всей коллекции. Переменная 1 — это положительный параметр настройки, с помощью которого производится калибровка частоты термина. Если 1 = 0, то модель становится бинарной (частота термина не учитывается), а если параметр 1 принимает большие значения, то это эквивалентно прямому подсчёту частоты термина. Переменная — еще один параметр настройки (0 1), определяющий нормировку по длине документа: = 1 соответствует полноценному масштабированию веса термина с помощью длины документа, а = 0 не предусматривает нормировки по длине.

Оценка сложности данного алгоритма составит ( 3 ).

Генетический алгоритм встраивается как подбор коэффициентов для формулы ранжирования. По результатам экспериментов, модификация с генетическим алгоритмом не дала лучших результатов, чем базовая, т.к. за отведенное время ей не удалось подобрать более оптимальных параметров.

Модификация модели обратной связи по релевантности. Имеется запрос пользователя и частично знание о релевантности документов. Алгоритм Роккио предлагает использовать модифицированный запрос.

где 0 — оригинальный вектор запроса, и — множества известных релевантных и нерелевантных документов соответственно,, и — веса каждого слагаемого. С помощью генетического алгоритма будем подбирать веса слагаемых и сравним с базовой моделью, в которой веса установлены рекомендуемым значениям: = 1, = 0,75 и = 0,15. Оценка сложности данного алгоритма составляет ( 2 ).

Как показали исследования, метод RF позволяет очень эффективно повысить релевантность результатов. Для его успешного использования необходимы запросы, в которых существует достаточно много релевантных документов. А использование генетического алгоритма позволяет еще улучшить данную модель на 5%.

В модификации языковой модели реализована функция дивергенции КульбакаЛейблера, она позволяет оценить риск вернуть документ d в качестве релевантного запросу q между соответствующими языковыми моделями.

Для подбора генетическим алгоритмом введем дополнительные коэффициенты Здесь — языковая модель документа d, — языковая модель запроса, – термины, входящие в запрос.

В качестве модели документа и запроса используется следующая формула:

Где,,, — частота термина t в документе d и запросе соответственно, a, — количество лексем в документе d и запросе соответственно. Оценка сложности данного алгоритма составляет ( 2 ).

Как показали исследования, внедрение генетического алгоритма позволяет улучшить данную модель на 20%.

Проведены исследования современных средств полнотекстового поиска:

Sphinx, Lucene, Xapian, они используют стандартные модели со своими модификациями, которые подразумевают встраивание коэффициентов подбираемых с помощью ГА.

Все три алгоритма по-разному ведут себя для различных типов запросов, данные представлены в таблице 2. Оптимальными являются: по информационным запросам Xapian показывает на 10% лучше; по транзакционным запросам Lucene на 6%; по навигационным запросам Sphinx на 7%. По однословным запросам Xapian на 5% лучше; по двухсловным Lucene на 15% лучше; по трехсловным Sphinx лучше на 13%.

После подбора коэффициентов ГА, метрики улучшились в среднем на 12%.

Также алгоритмы перераспределились: по информационным запросам Sphiinx показывает на 15% лучше; по транзакционным запросам Lucene на 20%, по навигационным запросам Sphinx на 11%.

По однословным запросам Xapian на 6% лучше; по двухсловным и трехсловным Sphinx и Lucene с разницей около 2%.

Информационные Транзакционные В связи с такой разницей поведения алгоритмов по разным типам запросов, предложена улучшенная модель поиска, которая в зависимости от типа запроса использует необходимый алгоритм. Улучшенная модель включает обобщенную математическая модель ИПС, с добавлением 1 (, ) – функции определения релевантности.

где ( ) – функция определения типа запроса.

Ограничения 1,2 сохраняются.

Проведен эксперимент, который показывает эффективность данного подхода.

Благодаря внедрениям ГА, метрики улучшились в среднем на 12%, а после выбора модели поиска, для запроса получилось улучшить характеристики еще на 7%.

После всех изменений, характеристики полученной модели увеличились на 20%.

В четвертой главе приводится модель ИПС, включающая 6 уровней и процессов. Основные процессы:

обучение – эксперт вводит запросы и помечает релевантные документы;

индексирование - из хранилища берутся адреса документов для индексирования, и строится необходимый индекс;

поиск – по запросу пользователя отбираются документы и выдаются по мере уменьшения веса документа;

анализ – анализируются запросы пользователей, их поведение;

APM - набор пользовательских API функций для обращения к поисковой системе.

Описывается работа ИПС, схема хранения данных, которая подразумевает создание XML файлов индекса, и работы с базой данных. Представлена имитационная модель ИПС со стороны сервера, клиента и пользователя. Модель позволяет оценить среднее количество документов в очереди на индексацию, среднее время индексации документа, среднее время обработки запроса, количественно обрабатываемых заявок, время поиска пользователем необходимой информации.

Рассмотрено внедрение ИПС на сервер в виде модуля, что позволило уменьшить число повторных запросов на 50% и время нахождения человека на странице на 65%. Описано внедрение ИПС с дополнительной опцией разграничения доступа в зависимости от ПК или пользователя на предприятии, имеющем 33 ПК.

После внедрения ИПС на предприятии, время на передачу (поиск) информации уменьшилось на 40%.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ

отличающаяся тем, что модуль индексирования сразу создает индекс для входящего документа, что позволяет сократить количество операций чтение/запись из хранилища и уменьшить нагрузку на сервер на 6%.

2. Представлена новая обобщенная математическая модель информационнопоисковой системы, которая отличается учетом специфики функции вычисления релевантности и метрик эффективности, а также наличием статических, динамических, собственных и географических факторов.

3. Предложена новая метрика ошибок, учитывающая нахождение релевантных документов в первых пунктах результатов поиска и экспериментально подтверждена её эффективность в сравнении с традиционными: точностью, полнотой и F-мерой.

Предложена модификация метода инвертированных файлов, заключающаяся в хранении индекса по пути, формируемом на основании его термина, и экспериментально подтверждено увеличение скорости индексации на 30%, уменьшение времени ответа на 15%.

Рассмотрены и предложены модификации методов вычисления релевантности документа в алгоритмах булева поиска, модели векторного пространства, вероятностной и языковой моделях, метода обратной связи на основе вычисления коэффициентов с использованием генетического алгоритма, который позволяет улучшить методы поиска в среднем на 12%.

Предложена новая модель поиска, которая выполняет выбор алгоритма ранжирования в зависимости от количества слов в запросе и от типа информационного запроса, что позволяет улучшить характеристики информационно-поисковой системы на 20%.

Разработаны программные продукты, реализующие предложенные модификации алгоритмов и позволяющие выполнять поиск по документам в Internet/Intranet среде. Проведенные экспериментальные исследования предложенных решений показали увеличение значения параметров эффективности на 40%, уменьшение числа повторных запросов на 50%.

Результаты диссертационной работы внедрены в рамках информационных систем предприятий «НГЧ» и ООО «ВелесВент». По теме диссертации опубликовано 17 печатных работ, в том числе 3 в рекомендованных ВАК изданиях, получено свидетельство о регистрации программного продукта.

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ

Публикации в ведущих изданиях, рекомендованных ВАК 1. Хорошко, М.Б. Модификация алгоритма булевого поиска / М. Б. Хорошко // Известия высших учебных заведений. Северо-Кавказский регион. Серия:

Технические науки. – 2011 № 3 – С. 14- 2. Воробьев С.П., Хорошко, М.Б. Модификация модели векторного пространства для ранжирования документов/ Воробьев С.П., Хорошко, М.Б// Электронный http://www.ivdon.ru/magazine/archive/n3y2012/ 3. Воробьев С.П., Хорошко, М.Б. Модификация схемы BM25 с помощью генетического алгоритма / Воробьев С.П., Хорошко, М.Б// Электронный http://www.ivdon.ru/magazine/archive/n4t1y2012/ Публикации в сборниках научных статей, трудов и материалов конференций 4. Хорошко М.Б. Обзор математических моделей информационного поиска // Компьютерные технологии в науке, производстве, социальных и экономических процессах : материалы VII Междунар. науч. - практ. конф., г.

Новочеркасск, 16 ноября 2007 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2007. С. 83-89.

5. Хорошко М. Б. Информационно-поисковая система для интернета. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VI Междунар. науч. - практ. конф., г.

Новочеркасск, 26 мая 2008 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2008. С. 221-227.

6. Хорошко М.Б. Оценка эффективности поисковых систем. // VIII Межрегиональная научно-практическая конференция студентов и аспирантов :

материалы конф., 11 апр. 2008г. : в 3-х т. / Новокузнецк. филиал - ин-т гос. обр.

учрежд. высш. проф. обр. «Кемеровск. гос. ун-т». – Новокузнецк, 2008. – Т.1. С.

7. Хорошко М. Б. Система поиска информации в Интернете. // Студенческая научная весна 2008 : материалы Межрегион. науч.-техн. конф. студентов, аспирантов и молодых ученых Южного федерального округа / Юж. – Рос. гос.

техн. ун-т (НПИ). – Новочеркасск : ЛИК, 2008. – С. 97-99.

8. Хорошко М.Б. Алгоритмы, используемые в поисковых системах. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VII Междунар. науч. - практ. конф., г.

Новочеркасск, 25 мая 2009 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2009. - С. 272-284.

9. Хорошко М. Б. Контекстно-зависимые аннотации. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VII Междунар. науч. - практ. конф., г.

Новочеркасск, 26 мая 2009 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2009. - С. 232-242.

10. Хорошко М. Б. Методы формирования контекстно-зависимых аннотаций. // Результаты исследований 2009 : материалы 58-й науч. – техн. конф.

профессорско-преподавательского состава, науч. работников, аспирантов и студентов ЮРТУ (НПИ) / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск :

ЮРГТУ, 2009. -С. 277-278.

11. Хорошко М. Б. Оценка качества поиска. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем :

материалы VII Междунар. науч. - практ. конф., г. Новочеркасск, 25 мая 2009 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2009. - С. 242-250.

12. Хорошко М. Б. Типы, модели и методы информационного поиска. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VII Междунар. науч. - практ. конф., г.

Новочеркасск, 25 мая 2009 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2009. - С. 251-272.

13. Хорошко М. Б. Нейронные сети. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем :

материалы VIII Междунар. науч. - практ. конф., г. Новочеркасск, июнь 2010 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2010. - С. 80-83.

14. Хорошко М. Б. Нейронные сети высокого порядка и радиально базисные сети.

// Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VIII Междунар. науч. практ. конф., г. Новочеркасск, июнь 2010 г. / Юж. – Рос. гос. техн. ун-т (НПИ).

– Новочеркасск : ЮРГТУ, 2010. - С. 83-87.

15. Хорошко М. Б. Нейронные сетевые методы распознавания изображений. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы VIII Междунар. науч. практ. конф., г. Новочеркасск, июнь 2010 г. / Юж. – Рос. гос. техн. ун-т (НПИ).

– Новочеркасск : ЮРГТУ, 2010. - С. 76-80.

16. Хорошко М. Б. Использование модифицированной модели обратной связи по релевантности. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы XI Междунар.

науч. - практ. конф., г. Новочеркасск, 28 мая 2013 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2013. - С. 71-79.

17. Хорошко М. Б. Оценка алгоритмов поиска информации CPHIKS, LUCENE, XAPIAN. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем : материалы XI Междунар.

науч. - практ. конф., г. Новочеркасск, 28 мая 2013 г. / Юж. – Рос. гос. техн. ун-т (НПИ). – Новочеркасск : ЮРГТУ, 2013. - С. 79-85.



 
Похожие работы:

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОУВПО ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Кафедра новейшей истории России Корниенко С.И. Гагарина Д.А. Учебно-методический комплекс по дисциплине ИСТОРИЧЕСКАЯ ИНФОРМАТИКА Направление: История 030400.62 Согласовано: Рекомендовано кафедрой: Учебно-методическое управление Протокол № _2010 г. _2010 г. Зав. кафедрой _ Пермь 2010 Авторы-составители: Корниенко Сергей Иванович, д.и.н., профессор каф. новейшей истории России; Гагарина Динара Амировна, к.пед.н.,...»

«Правительство Российской Федерации Санкт-Петербургский государственный университет РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В АДМИНИСТРАТИВНОМ УПРАВЛЕНИИ INFORMATION TECHNOLOGIES IN ADMINISTRATION Язык(и) обучения Русский Трудомкость (границы трудомкости) в зачетных единицах: _2_ Регистрационный номер рабочей программы: 022664 Санкт-Петербург 2014 2 Раздел 1. Характеристики учебных занятий Цели и задачи учебных занятий 1.1. Курс Информационные технологии в административном...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ГЕОДЕЗИИ И КАРТОГРАФИИ (МИИГАиК) Геодезический факультет Кафедра прикладной информатики ГЕОИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ СБОРА КАРТОГРАФО-ГЕОДЕЗИЧЕСКОЙ ИНФОРМАЦИИ Учебно-методический комплекс по специальности 080800 – Прикладная информатика в геодезии Москва 2010г. ФГОС ВПО – Прикладная информатика, учебно-методический комплекс дисциплины...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Тверской государственный университет Математический факультет Кафедра компьютерной безопасности и математических методов управления Утверждаю: Деканф-та _ __ 2012_г. УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС Информатика 1 курс 1 семестр (наименование дисциплины, курс) 030700.62 Международные отношения Направление подготовки 030700.62 Международные отношения, 1 курс, 1...»

«План издания учебной и научной литературы на 1 полугодие 2014 г 2 16 Институт информационных технологий и автоматизации..... Институт менеджмента и внешнеэкономической деятельности Кафедра интеллектуальных систем и защиты информации 2 Кафедра бухгалтерского учета и аудита 16 Кафедра сопротивления материалов 6 Кафедра менеджмента 16 Кафедра машиноведения 6 Институт прикладного искусства Кафедра автоматизации пpоизводственных процессов 7 Кафедра технологии художественной обработки материалов...»

«Направление бакалавриата 210100 Электроника и наноэлектроника Профиль подготовки Электронные приборы и устройства СОДЕРЖАНИЕ ИСТОРИЯ ИНОСТРАННЫЙ ЯЗЫК ФИЛОСОФИЯ ЭКОНОМИКА И ОРГАНИЗАЦИЯ ПРОИЗВОДСТВА КУЛЬТУРОЛОГИЯ ПРАВОВЕДЕНИЕ ПОЛИТОЛОГИЯ СОЦИОЛОГИЯ МАТЕМАТИКА ФИЗИКА ХИМИЯ ЭКОЛОГИЯ ИНФОРМАТИКА ВЫЧИСЛИТЕЛЬНАЯ МАТЕМАТИКА МЕТОДЫ МАТЕМАТИЧЕСКОЙ ФИЗИКИ ФИЗИЧЕСКИЕ ОСНОВЫ ЭМИССИОННОЙ ЭЛЕКТРОНИКИ И КАТОДЫ СПЕЦИАЛЬНЫЕ ВОПРОСЫ ФИЗИКИ СПЕЦИАЛЬНЫЕ ВОПРОСЫ МАТЕМАТИКИ ОСНОВЫ ТЕОРИИ НАДЁЖНОСТИ ТЕОРИЯ ИНЖЕНЕРНОГО...»

«Вузовские библиотеки Алтайского края Сборник Выпуск 4 Барнаул 2004 3 Уважаемые коллеги! Примите поздравления с нашим профессиональным праздником – Общероссийским днем библиотек! Желаем вам творческих удач, радости побед, новых идей, любви читателей, благополучия и мира в доме. Труд каждого библиотекаря достоин сегодня похвалы и уважения! Редколлегия 4 5 6 7 Организационно-регламентирующие документы ПОЛОЖЕНИЕ О НАУЧНО-ТЕХНИЧЕСКОЙ БИБЛИОТЕКЕ АлтГТУ им. И.И. ПОЛЗУНОВА Общие положения 1....»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования САМАРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ НОРМАТИВНЫЕ ДОКУМЕНТЫ САМАРСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Выпуск 1 Издательство Универс-групп 2005 Печатается по решению Редакционно-издательского совета Самарского государственного университета Нормативные документы Самарского государственного университета. Информационные технологии. Выпуск 1. / Составители:...»

«Министерство образования Республики Беларусь Учреждение образования Белорусский государственный университет информатики и радиоэлектроники Кафедра систем управления А.П. Пашкевич, О.А. Чумаков МИКРОПРОЦЕССОРНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ Конспект лекций для студентов специальности I-53 01 07 Информационные технологии и управление в технических системах дневной формы обучения В 2-х частях Часть 2 Минск 2006 УДК 004.31(075.8) ББК 32.973.26-04 я 73 П 22 Рецензент: доц. кафедры ЭВМ БГУИР, канд. техн. наук...»

«Содержание 1 Организационно-правовое обеспечение образовательной деятельности 2 Структура подготовки магистров 3 Содержание подготовки магистров 3.1. Анализ рабочего учебного плана и рабочих учебных программ 3.2 Организация учебного процесса 3.3 Информационно-методическое обеспечение учебного процесса 3.4 Воспитательная работа 4 Качество подготовки магистров 4.1 Анализ качества знаний студентов по результатам текущей и промежуточной аттестации. 15 4.2 Анализ качества знаний по результатам...»

«Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Амурский государственный университет Кафедра философии УЧЕБНО–МЕТОДИЧЕСКИЙ КОМПЛЕКС ДИСЦИПЛИНЫ КУЛЬТУРОЛОГИЯ Основной образовательной программы по специальности: 010101.65 Математика 010501.65 Прикладная математика и информатика Благовещенск 2012 1 УМКД разработан доцентом кафедры философии Коренной Ольгой Борисовной и доктором философских...»

«Министерство образования и наук и Российской Федерации Институт вычислительной математики и математической геофизики Сибирского отделения РАН Кто есть кто на конференции ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ (ПаВТ’2012) Международная научная конференция, г. Новосибирск, 26 – 30 марта 2012 года ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ (ПаВТ’2012): кто есть кто на конференции. В данном справочнике приведена краткая информация об авторах докладов и участниках Международной научной конференции...»

«Т.М. Журавлева, Г.И. Анжина, Т.В. Зубович, Л.И. Алексеева АВТОМАТИЗИРОВАННЫЙ СТАТИСТИЧЕСКИЙ МЕТОД ПРОГНОЗА АНОМАЛИИ ТЕМПЕРАТУРЫ ВОЗДУХА НА ЗИМНИЕ МЕСЯЦЫ ПО СТАНЦИЯМ О. САХАЛИН С БОЛЬШОЙ ЗАБЛАГОВРЕМЕННОСТЬЮ Введение Для создания новых и совершенствования существующих методов долгосрочного прогнозирования элементов погоды требуется дальнейшее познание закономерностей развития взаимосвязанных между собой процессов, происходящих в системе атмосфера–гидросфера–литосфера. Найти в большом многообразии...»

«В.К. Клюев, Е.М. Ястребова МАРКЕТИНГОВАЯ ОРИЕНТАЦИЯ БИБЛИОТЕЧНО-ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ (Маркетинг в системе управления библиотекой) Второе доработанное и дополненное издание Рекомендовано Министерством культуры Российской Федерации в качестве учебного пособия для вузов и колледжей культуры и искусств Под общей редакцией В.К. КЛЮЕВА Москва ИПО Профиздат Издательство Московского государственного университета культуры и искусств 1999-2002 ББК 78.34(2)я УДК (002:658.14] (07) К Рецензенты: С.Г....»

«Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Амурский государственный университет Кафедра Конструирования и технологии одежды УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ДИСЦИПЛИНЫ Информатика Специальности 260704.65 – Технология текстильных изделий 260901.65 – Технология швейных изделий 260902.65 – Конструирование швейных изделий Благовещенск 2012 УМКД разработан канд.техн.наук, доцентами кафедры...»

«Стандарт университета ПОДГОТОВКА НАУЧНЫХ РАБОТНИКОВ СТУ 2.6-2013 ВЫСШЕЙ КВАЛИФИКАЦИИ Предисловие 1 РАЗРАБОТАН Учреждением образования Белорусский государственный университет информатики и радиоэлектроники. ИСПОЛНИТЕЛИ: Кузнецов А.П., проректор по научной работе, д-р техн. наук, профессор; Лихачевский Д.В., начальник Управления подготовки научных кадров высшей квалификации, канд. техн. наук; Гурская Е.А., заведующая отделом аспирантуры и докторантуры. ВНЕСЕН Рабочей группой по созданию и...»

«КОМПЬЮТЕРНАЯ НОТНАЯ ГРАФИКА Учебник для музыкально-образовательных заведений Maestro Music Software 2012 Компьютерная нотная графика: Учебник для музыкально-образовательных заведений Коллектив авторов под руководством Голованова Д. В. Издание предназначено для обучения навыкам современной компьютерной нотации с опорой на основные исторические сведения, стандарты и правила традиционной нотации. Оно может быть использовано в образовательных циклах, как начального, так среднего и отчасти высшего...»

«Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Амурский государственный университет Кафедра общей математики и информатики УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ДИСЦИПЛИНЫ ИНФОРМАЦИОННИЕ ТЕХНОЛОГИИ В СОЦИАЛЬНОЙ СФЕРЕ Основной образовательной программы по направлению подготовки 040100.62 – Социальная работа Благовещенск 2012 1 УМКД разработан старшим преподавателем Лебедь Ольгой Анатольевной,...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФГБОУ ВПО Кемеровский государственный университет Новокузнецкий институт (филиал) Факультет информационных технологий РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ ОПД.Ф.3 Базы данных для специальности 080801.65 Прикладная информатика в экономике Новокузнецк 2013 1 Сведения о разработке и утверждении рабочей программы дисциплины Рабочая программа дисциплины по выбору студента ОПД.Ф.3 Базы данных федерального компонента цикла ОПД составлена в соответствии с...»

«7Р УДК 004.93 А.Л. Ронжин, А.А. Карпов, И.В. Ли Санкт-Петербургский институт информатики и автоматизации РАН, Россия, ronzhin@iias.spb.su, karpov@iias.spb.su, lee@iias.spb.su Система автоматического распознавания русской речи SIRIUS* В статье представлена разработанная в группе речевой информатики СПИИРАН система распознавания слитной русской речи SIRIUS. Особенностью данной системы является наличие в ней морфемного уровня представления языка и речи, что позволяет значительно сократить размер...»





Загрузка...



 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.