Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ ……………………………………………………………………….3
ГЛАВА
1. ЗАДАЧИ КЛАССИФИКАЦИИ И РЕГРЕССИИ………………..6
1.1. Основные понятия и определения……..………………………………….6
1.2. Математическая постановка задач…..……………………………….…..9
1.3. Методы машинного обучения…………………………………..……… 13
1.4. Примеры практических задач…………………………………..…….. ..18
1.5. Выводы по главе 1………..….………………………………..…….. ..20
ГЛАВА
2. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ .……………………… 21
2.1. Логистическая регрессия………………………………………………..21
2.2. Линейная регрессия ………… …………………….…..…………… ….24
2.3. Классификатор Random Forest ………………………………………… 26
2.4. Бустинг Gradient Boosting Machine … …………………………….….32
2.5. Выводы по главе 2……… ..….………………………………..…….. ..34
ГЛАВА 3.ЭКСПЕРИМЕНТЫ…………………………………………….……..35
3.1. Инструментарий………… … …………………………………………..35
3.2. Сравнение методов логистической регрессии и Random Forest……..36
3.3. Сравнение методов линейной регрессии и Gradient Boosting ……..51
3.4. Выводы по главе 3……….. ..….………………………………..…….. ..56
ЗАКЛЮЧЕНИЕ ………………………………………………………………… 57
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ …………………………….60
Выдержка из текста
ВВЕДЕНИЕ
Основные понятия и определения. Машинное обучение (англ. Machine Learning) — это широкая область научного знания, о подраздел искусственного интеллекта, который изучает методы построения моделей, способных обучаться, и соответственно алгоритмов для их обучения и построения. Основу машинного обучения составляют алгоритмы «способные обучаться». Основной целью машинного обучения является частичная или полная автоматизация решения достаточно сложных профессиональных задач в самых разных областях человеческой деятельности.
Основоположником термина «машинное обучение», был изобретатель первой самообучающейся компьютерной программы игры в шашки А. Л. Самуэль в 1959 г. [ 31 ].
Обучение он понимал как процесс, в результате которого компьютер способен показать поведение, которое в нее не было заложено «явно». Это определение не выдерживает критики, так как не понятно, что означает наречие «явно». Наиболее точное определение дал намного позже Т. М. Митчеллб говоря, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E.
Различаются два основных типа машинного обучения:
1. Индуктивное обучение (обучение по прецедентам) — основано на изучении и выявлении определенных закономерностей в эмпирических данных.
2. Дедуктивное обучение — предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение используется в области экспертных систем, поэтому термин машинное обучение можно заменить термином обучение по прецедентам[7].
Раздел машинного обучения образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а также вобрал в себя методы математической статистики. Методы машинного обучения классифицируются в зависимости от способа обучения: обучение с учителем, обучение без учителя, обучение с подкреплением. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных (data mining).
Актуальность темы. Актуальность темы исследования заключается в том, что в настоящее время машинное обучение имеет многочисленные сферы приложения, такие, как компьютерное зрение, компьютерная лингвистика и обработка естественных языков, экспертные системы, медицинская диагностика, распознавание речи, биоинформатика, техническая диагностика, поиск и рубрикация текстов финансовые приложения, интеллектуальные игры и др.
Сфера применений машинного обучения постоянно расширяется и обновляется. Повсеместная информатизация общества приводит к накоплению огромных объёмов данных в производстве, науке, здравоохранении, бизнесе, транспорте. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к машинному обучению.
Объект исследования. Объектом исследования являются задачи классификации и регрессии в машинном обучении.
Предмет исследования. Предметом исследования являются модели логистической регрессии, классификатора Random Forest, линейной регрессии и бустинг Gradient Boosting Machine.
Цель работы. Целью выпускной квалификационной работы является изучение и сравнение моделей машинного обучения в задачах классификации и регрессии.
Поставленные задачи. Данная цель предполагает решение следующих задач:
1. Изучить основные идеи, лежащие в основе следующих алгоритмов классификации и регрессии:
o Линейной регрессии;
o классификатора Random Forest ;
o логистической регрессии ;
o бустинг Gradient Boosting Machine .
2. Рассмотреть простые примеры использования указанного набора функций.
3. Разработать приложения для решения задач классификации и регрессии рассмотренными методами.
4. Провести сравнительный анализ методов;
5. Применить разработанное приложение для решения прикладных модельных задач и проанализировать полученные результаты.
Практическая значимость. Практическая значимость работы заключается в поиске и создании алгоритма лучшей модели для конкретной поставленной задачи. Результаты данной работы могут использоваться для предсказания или прогнозирования качественных или количественных характеристик объекта.
Вычислительные эксперименты проводились с использованием следующей инфраструктуры: платформа Mac OSX Mavericks, среда разработки Pithon 2.6., библиотеки scikit-learn, mathplotlib.
Обстоятельными русскоязычными учебниками по машинному обучению являются «Машинное обучение (Machine Learning)» Н.Ю. Золотых, Машинное обучение (курс лекций, К.В.Воронцов), интернет-ресурсы.
Список использованной литературы
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ
1. Айвазян С.А., Енюков С.И., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. – М.: Финансы и статистика, 1983.-164с.
2. Беккенбах Э.,Белманн Р. Неравенства.-М.: Мир, 1965.-276с.
3. Вапник В.Н., Червоненкис А.Я.Теория распознавания образов (статистические проблемы обучения).
- М.:Наука, 1974.-416с.
4. Вьюгин В.В. Элементы математической теории машинного обучения: Учебное пособие.-М.:МФТИ: ИППИ РАН,2010.-231с.
5. Вьюгин В.В. Математические основы машинного обучения и прогнозирования: Учебное пособие.-М.:МФТИ: МЦНМО,2013.-304с.
6. Воронцов К.В.Лекции по метрическим алгоритмам классификации.2008
7. Воронцов К.В Машинное обучение (курс лекций).
2009
8. Воронцов К.В.. Математические методы обучения по прецедентам (теория обучения машин).
Москва, 2011.
9. Воронцов К.В.. Вероятностное тематическое моделирование. Москва, 2013.
10. Дьяконов А.Г.. Теория систем эквивалентностей для описания алгебраических замыканий обобщенной модели вычисления оценок. Журнал вычислительной математики и математической физики, 50(2):388– 400, 2010.
11. Дьяконов А.Г. Методы решения задач классификации с категориальными признаками. Прикладная математика и информатика, 46, 2014.
12. Золотых Н.Ю. Машинное обучение (Machine Learning) , ННГУ им. Н.И. Лобачевского, факультет ВМК,2014, сентябрь–декабрь,
13. Ширяев А.Н. Вероятность. –М.:МЦНМО,2007.- 968с.
14. Терехов А. Типовые задачи для информационного моделирования с использованием нейронных сетей.Снежинск, 2000г.
15. Шикин Е.В. и Шикина Г.Е. Исследование операций: Учебное пособие.-М.:ТК Велби, изд. «Проспект», 2006.-280с.
16. Alon N., Ben-David S., Cesa-Bianchi N.,Scale-sensisive dimensions, uniform convergence, and learnability// J.ACM.-1997.-V.44(4).
17. Antrony M., Bartlett P.L. Neural network learning: Theoretical foundations.- Cambridge: Cambridge University Press, 1999.
18. Aronszain N. Theori of reproducing kernels // Transactions of the American Mathematical Society.-1950.-V.68.
19. Bartlett P., Mendelson S., Rademacher and Gaussian Complexitier: Risk Bounds and Structural Resuults// Journal of Machine Learning Research.-2002.- V3.
20. Bartlett P., Boucheron S., Mendelson S., Local rademacher Complexitier: // The Annals of Stratistics.-2005.- V33, No 4.
21. Blackwell D. An analog of the minimax theorem for vector payoffs// Pacific Journal of Mathematics.-1956.-V.6.
22. Oliver B.,Boucheron S., Lugosi G. Introduchion to statistical leaning theory // Advance Lectures on Machine leaning.-2004.
23. Chernov A., Zhdanov F. Prediction with expert advice under discounted loss// Lecture Note in Computer Science.-Berlin: Springer,2010.-V66331.
24. Cover T., Ordentlich E. Universal portfolio with side information // IEEE Transaction on Information Theory . -1996.-V.42.
25. Cristianini N., Shawe- Taylor J.An Introduction to Support Vector Machines.- Cambridge UK: Cambridge University Press,2000.
26. Dawid A.P. Calibration- based empirical probability// Ann.Statist.-1985.-V13.
27. Foster D.P., Vohra R. Asymptotic calibration.// Biometrica .-1998.-V.85.
28. Freund Y., Schapire R.E. A Decision-Theoretic Generalization of on-line Learning and an Application to Boosting// Jornal of Computer and System Sciences-1997.-V.55.
29. Fisher, R.A. (1936).
«The Use of Multiple Measurements in Taxonomic Problems». Annals of Eugenics 7: 179– 188.
30. Hutter M., Poland J. Adaptiv online prediction by following the perturbed
Leader// Jornal of Machine Leaning Researrch.-2005.-V.6.
31. Kakade S.N.,Foster D.P. Deterministic calibration and Nash equilibrium//Lecture Notes in Computer Sciens.-Berlin: Springer,2004.-V.3120.
32. Kakade S.N.,Tewari A. Topics in Artifical Intelligence//Lecture Notes .- Springer,2008.
33. www.MachineLearning.ru — профессиональный вики-ресурс, посвященный машинному обучению и интеллектуальному анализу данных.
34. https://ru.wikipedia.org.Машинное обучение
35. https://ru.wikipedia.org. Обучение с учителем
36. https://ru.wikipedia.org. Задача классификации
37. http://www.machinelearning.ru/wiki/index.php
38. http://dic.academic.ru/dic.nsf/ruwiki/638600
39. Библиотека scikit-learn для машинного обучения на python. http://
scikit-learn.org.
40. Язык программирования python. http://python.org