Технология хранения, доступа и анализа Data Mining, Информатика

Содержание

Введение ………………………………………………………………….……….4

ГЛАВА 1. Методы интеллектуального анализа данных ………….………..…..6

1.1. Интеллектуальный анализ данных как процесс …..…….….……………..6

1.2. Инструменты интеллектуального анализа данных …………………….8

1.3. Основные методы ……………………………………………….………..9

1.4. Получение и подготовка данных …..…………….………….…………16

1.5. Документальные базы данных и MapReduce ……………….…………20

ГЛАВА 2. Технологии хранения и анализа данных …………………………..25

2.1. Хранилища данных………..…………………………………………….25

2.1.1. Многомерные хранилища данных ……….……………………….26

2.1.2. Реляционные хранилища данных ………..……………………….27

2.1.3. Гибридные хранилища данных ……….…………………………..33

2.2. Преимущества и недостатки использования хранилищ данных ……..35

2.3. Подготовка данных к анализу ……….…………………………………37

2.4. Основные задачи консолидации данных ………..……………………..40

2.5. Загрузка данных в хранилище ……….…………………………………45

ГЛАВА 3. Практическое применение Data Mining ……………………………47

3.1. Структура данных ………..………………………………………………48

3.2. Основные подходы обнаружения мошенничества ……….……………50

3.3. Причины выбора технологии Data Mining ………..……………………51

3.3.1 Анализ баз данных на месте (In-Place Database Processing) ….….51

3.3.2. Причина большой скорости IDP………..…………………………52

3.4. Алгоритмы кластеризации ……….……………………………………..52

3.5. Описательный анализ ………..………………………………………….53

3.6. Кластеризация K-средних ……….………………………………………54

3.6.1. Анализ результатов — вкладка Quick ………..…………………….54

3.6.2. Результаты анализа: Описание кластеров ……….……………….55

3.6.3. Выявление потенциальных мошенников ………..……………….61

3.7. EM-алгоритм ……….……………………………………………………65

3.7.1. Анализ результатов – вкладка Quick ………..……………………65

3.7.2. Выявление потенциальных мошенников ……….………………..70

3.8. Автоматизация ………..…………………………………………………74

Заключение…..………………………………………………………..………….83

Список использованной литературы………………………………..………….85

Приложения……………………………………………………………………….87

Выдержка из текста

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой [1]. Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.

Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания — они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией" Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

• Данные имеют неограниченный объем

• Данные являются разнородными (количественными, качественными, текстовыми)

• Результаты должны быть конкретны и понятны

• Инструменты для обработки сырых данных должны быть просты в использовании

Целью данной работы является понятие принципов Data Mining и использование технологии хранения, доступа и анализа Data Mining для выявление мошенничества (fraud detection) на базе Data Miner.

Кроме теоретической части данная работа будет иметь еще и практическую часть. В главе посвященной практической части будет рассмотрено применение данной технологии для решения конкретных задач. В данной главе будет приведен пример на котором и будет рассматриваться технология, также будет приведена пошаговая инструкция реализации и работы с Data Mining.

Список использованной литературы

1. Айвазян С. А., Бухштабер В. М., Юнюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989.

2. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery" — Tandem Computers Inc., 1996

3. Кречетов Н. Продукты для интеллектуального анализа данных. — Рынок программных средств, N14-15_97, c. 32-39.

4. Boulding K. E. General Systems Theory — The Skeleton of Science//Management Science, 2, 1956.

5. Гик Дж., ван. Прикладная общая теория систем. — М.: Мир, 1981.

6. Киселев М., Соломатин Е.. Средства добычи знаний в бизнесе и финансах. — Открытые системы, " 4, 1997, с. 41-44.

7. Дюк В.А. Обработка данных на ПК в примерах. — СПб: Питер, 1997.

8. Анализ клиентских баз данных. Выявление мошенничества (fraud detection) на базе STATISTICA Data Miner. [Электронный ресурс]. – Режим доступа: http://www.statsoft.ru/solutions/ExamplesBase/tasks/detail.php?ELEMENT_ID=833#В начало

9. Методы интеллектуального анализа данных. [Электронный ресурс]. – Режим доступа: http://www.ibm.com/developerworks/ru/library/ba-data-mining-techniques/

10. Dental Insurance Claims Identification of Atypical Claims Activity. [Электронный ресурс]. – Режим доступа: http://www.actuaries.ca/members/publications/2007/Member's%20Paper-Senensky%20.pdf

11. ТЕХНОЛОГИИ ОПЕРАТИВНОГО АНАЛИЗА ДАННЫХ. [Электронный ресурс]. – Режим доступа: http://elibrary.unecon.ru/st_materials_files/433517785.pdf

С этим материалом также изучают

Основы современных систем анализа данных: от информационных технологий к Data Mining

Полный разбор технологий анализа данных. Узнайте, как IT-системы, методы data mining и СППР связаны между собой для эффективного решения бизнес-задач.

Всё о методах классификации и прогнозирования в Data Mining для вашей курсовой работы

Узнайте все о методах классификации и прогнозирования в Data Mining. В статье представлен подробный разбор ключевых алгоритмов, их применение и структура для написания идеальной курсовой работы.

Управление качеством стали: комплексный подход на основе анализа хронологических рядов, статистических методов и Data Mining

Комплексный подход к управлению качеством стали: анализ хронологических рядов, статистические методы и Data Mining для оптимизации производства и прогнозирования дефектов.

Ключевые метрики в Data Mining: теоретические основы и практическое применение в курсовой работе.

Подробное руководство для студентов. Рассматриваем классификацию метрик (Accuracy, Precision, Recall), их роль в оценке моделей и даем пошаговый план написания курсовой.

Анализ использования интернет-технологий в современных политических кампаниях: методология для дипломной работы

Глубокий анализ интернет-технологий в предвыборных кампаниях, адаптированный для дипломной работы. Статья содержит структуру, методологию и разбор ключевых кейсов.

Интеллектуальный анализ данных (data mining) в логистике и управлении цепями поставок.

... Технологии Интеллектуального Анализа Данных (Data Mining) – одной из активно развивающихся областей информационных технологий, предназначенной для выявления полезных знаний из баз данных различной природы. Технология интеллектуального анализа данных ...

Технология хранения, доступа и анализа Data Mining

Содержание

Выдержка из текста

Список использованной литературы

« Современные требования к сестринскому уходу новорожденного ребенка при родовой травме »

тему «Проблемы финансирования деятельности бюджетных учреждений на примере МОУ «Лицей №6»»

Ключевые аспекты написания дипломной работы по анализу кредитоспособности предприятия

Сопоставительное исследование английских и русских фразеологизмов библейского происхождения

Диплом ДЕЯТЕЛЬНОСТЬ РОССИИ И БРАЗИЛИИ В РАМКАХ БРИКС

Разработка и внедрение сайта на примере транспортной компании

Содержание

Выдержка из текста

Список использованной литературы

С этим материалом также изучают

Похожие записи