Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List<T> 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73
Выдержка из текста
Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
извлечение смысла;
классификация и категоризация;
документооборот;
автореферирование;
извлечение знаний, текстмайнинг;
автоматическая генерация текста;
определение авторства, стиля, уникальности и прочих характеристик;
поиск по запросу, по ключевым словам, поиск по образцу;
парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также отсеет из выдачи поисковых систем практически идентичных документов.
В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.
В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.
Список использованной литературы
Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.].
– Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект Мониторинга Рунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru
При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.).
Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.
15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995