Пример готовой дипломной работы по предмету: Информатика
Содержание
Введение ………………………………………………………………….……….4
ГЛАВА
1. Методы интеллектуального анализа данных ………….………..…..6
1.1. Интеллектуальный анализ данных как процесс …..…….….……………..6
1.2. Инструменты интеллектуального анализа данных …………………….8
1.3. Основные методы ……………………………………………….………..9
1.4. Получение и подготовка данных …..…………….………….………… 16
1.5. Документальные базы данных и MapReduce ……………….………… 20
ГЛАВА
2. Технологии хранения и анализа данных …………………………..25
2.1. Хранилища данных………..…………………………………………….25
2.1.1. Многомерные хранилища данных ……….……………………….26
2.1.2. Реляционные хранилища данных ………..……………………….27
2.1.3. Гибридные хранилища данных ……….…………………………..33
2.2. Преимущества и недостатки использования хранилищ данных ……..35
2.3. Подготовка данных к анализу ……….………………………………… 37
2.4. Основные задачи консолидации данных ………..……………………..40
2.5. Загрузка данных в хранилище ……….………………………………… 45
ГЛАВА
3. Практическое применение Data Mining ……………………………47
3.1. Структура данных ………..………………………………………………48
3.2. Основные подходы обнаружения мошенничества ……….……………50
3.3. Причины выбора технологии Data Mining ………..……………………51
3.3.1 Анализ баз данных на месте (In-Place Database Processing) ….….51
3.3.2. Причина большой скорости IDP………..………………………… 52
3.4. Алгоритмы кластеризации ……….……………………………………..52
3.5. Описательный анализ ………..………………………………………….53
3.6. Кластеризация K-средних ……….………………………………………54
3.6.1. Анализ результатов — вкладка Quick ………..…………………….54
3.6.2. Результаты анализа: Описание кластеров ……….……………….55
3.6.3. Выявление потенциальных мошенников ………..……………….61
3.7. EM-алгоритм ……….…………………………………………………… 65
3.7.1. Анализ результатов – вкладка Quick ………..…………………… 65
3.7.2. Выявление потенциальных мошенников ……….………………..70
3.8. Автоматизация ………..………………………………………………… 74
Заключение…..………………………………………………………..………….83
Список использованной литературы………………………………..………….85
Приложения……………………………………………………………………….87
Выдержка из текста
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой [1].
Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.
Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания — они решали главным образом свои частные проблемы обработки небольших локальных баз данных.
И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией" Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
• Данные имеют неограниченный объем
• Данные являются разнородными (количественными, качественными, текстовыми)
• Результаты должны быть конкретны и понятны
• Инструменты для обработки сырых данных должны быть просты в использовании
Целью данной работы является понятие принципов Data Mining и использование технологии хранения, доступа и анализа Data Mining для выявление мошенничества (fraud detection) на базе Data Miner.
Кроме теоретической части данная работа будет иметь еще и практическую часть. В главе посвященной практической части будет рассмотрено применение данной технологии для решения конкретных задач. В данной главе будет приведен пример на котором и будет рассматриваться технология, также будет приведена пошаговая инструкция реализации и работы с Data Mining.
Список использованной литературы
1. Айвазян С. А., Бухштабер В. М., Юнюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989.
2. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery"
- Tandem Computers Inc., 1996
3. Кречетов Н. Продукты для интеллектуального анализа данных. — Рынок программных средств, N14-15_97, c. 32-39.
4. Boulding K. E. General Systems Theory — The Skeleton of Science//Management Science, 2, 1956.
5. Гик Дж., ван. Прикладная общая теория систем. — М.: Мир, 1981.
6. Киселев М., Соломатин Е.. Средства добычи знаний в бизнесе и финансах. — Открытые системы, " 4, 1997, с. 41-44.
7. Дюк В.А. Обработка данных на ПК в примерах. — СПб: Питер, 1997.
8. Анализ клиентских баз данных. Выявление мошенничества (fraud detection) на базе STATISTICA Data Miner. [Электронный ресурс].
– Режим доступа: http://www.statsoft.ru/solutions/ExamplesBase/tasks/detail.php?ELEMENT_ID=833#В начало
9. Методы интеллектуального анализа данных. [Электронный ресурс].
– Режим доступа: http://www.ibm.com/developerworks/ru/library/ba-data-mining-techniques/
10. Dental Insurance Claims Identification of Atypical Claims Activity. [Электронный ресурс].
– Режим доступа: http://www.actuaries.ca/members/publications/2007/Member's%20Paper-Senensky%20.pdf
11. ТЕХНОЛОГИИ ОПЕРАТИВНОГО АНАЛИЗА ДАННЫХ. [Электронный ресурс].
– Режим доступа: http://elibrary.unecon.ru/st_materials_files/433517785.pdf