Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
Введение 3
1 ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ 4
1.1 Обработка текстовых документов, цели, задачи и область применения 4
1.2 Классификация и категоризация текстовых документов 5
1.3 Поиск по запросу, по ключевым словам, поиск по образцу, парсинг 12
1.4 Информационная модель базы документов 18
2 ОБЗОР ПРОГРАММНЫХ СРЕДСТВ 21
2.1 Среда разработки Visual Studio .Net 21
2.2 Язык программирования С# 25
2.3 Переменные типа String 29
2.4 Массивы и коллекции 36
3 РЕАЛИЗАЦИЯ ПРОГРАММЫ ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА 45
3.1 Анализ задачи дипломного проектирования 45
3.2 Разработка алгоритма программы для статистической обработки текста 45
3.3 Первичная обработка текста: загрузка текста из файла, разбиение на слова и подсчет частот 47
3.4 Создание классов и массивов объектов пользовательских классов 50
3.5 Удаление одинаковых элементов из массива объектов пользовательского класса 52
3.6 Внешний вид программы 54
3.7 Тестирование программы 56
4 ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ 57
4.1 Понятие информационной безопасности 57
4.2 Системный подход к информационной безопасности 59
4.3 Требования к безопасности программного обеспечения 64
4.4 Программно-технические способы и средства обеспечения информационной безопасности 65
4.5 Основные принципы контроля доступа к средствам вычислительной техники (СВТ) 70
4.6 Пассивные и активные системы обнаружения вторжений 74
5 Экономическая часть 78
5.1 Расход трудоемкости разработки программного продукта 78
5.2 Расход на оплату труда разработчика программы 80
5.3 Расчет полных затрат на эксплуатацию 81
5.4 Общие затраты на создание программного продукта 84
5.5 Целесообразность создания продукта 84
Заключение 86
Библиографический список 87
Приложение А 90
При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула:
Mij =TFij ∙ IDFi (1.4)
где:
TF – относительная частота встречаемости терма в данном документе;
IDF– величина, обратная частоте встречаемости терма в остальных документах.
В дипломной работе рассчитывается также показатель относительной частоты, который более нагляден, чем просто частота.
В данной случае, под частотой понимается относительная доля слова i в тексте j, то есть отношение частоты терма к общему количеству слов в тексте, в отличие от абсолютной частоты – количества вхождений. В векторной модели термин «частота терма» аналогичен вероятности () в законах Зипфа [6].
Основывается вычисление этой величины, прежде всего на законах Зипфа, благодаря которым рассчитывается вероятность встретить слово в тексте. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п.
Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков: как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости; все словоформы и некоторые однокоренные слова заменяются одним словом; используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин), а класс слов, объединенных по общему признаку (корню, значению).
1.4 Информационная модель базы документов
Хотя в дипломной работе напрямую не используются матрицы «документ-термин», строится подобная таблица для найденных пересечений между двумя текстами, за основу сравнения текстов берется показатель в матрице М.
Существуют разные способы сравнения текстов, однако часто используется именно относительный вес термина в документе.
Выдержка из текста
важными задачами являются поиск подобных документов, документов по образцу, автозаполнение контента и т.п. Выделение значимых терминов в тексте помогает определить его тему, быстрое сравнение текстов помогает установить, относится ли текст к теме, сравнивая его с образцом. Также статистический анализ используется для выделения наиболее часто исполь-зуемых терминов в тексте, что применяется для классификации.
Также статистика текста используется пользователями-переводчиками, и теми, кто изучает иностранный язык, с целью пополнения словарного запаса и составления собственных словарей и шаблонов.
Помимо частотного анализа, хорошо характеризует значимость терминов и относительная частота, показывающая значимость более наглядно, а общий показатель на основе относительной частоты и обратной инверсной частоты в выборке является популярной и часто используемой мерой.
Список использованной литературы
В основном используются научные статьи и обзоры по статистической обработке текстов и ее методикам, а также книги по программированию на языке С#
1. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
2. Ву Ш.-Х., Цай Ц.-В., Сюй В.-Л. Текстовая категоризация с использованием автоматически построенных онтологий [Электронный ресурс]: Инженерия знаний, 2011. URL: http://asp.mmc.nsu.ru
3. Агеев А.М. Обзор современных направлений развития автоматической классификации текстов [Электронный ресурс]: УИС Россия, 2008. URL: http://www.cir.ru/
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГГ, 2011. URL: http://masters.donntu.edu.ua