Пример готовой дипломной работы по предмету: Информатика
Содержание
Введение 3
Глава
1. Анализ современных подходов к организации веб парсинга 5
Глава
2. Проектирование средств веб парсинга 23
Глава
3. Разработка процедур веб парсинга 37
Глава
4. Оценка и тестирование разработанных процедур 50
Заключение 60
Список литературы 62
Приложение. Листинг программы 65
Выдержка из текста
С момента своего создания почти полвека назад Всемирная паутина (World Wide Web) постоянно наращивает количество активных пользователей. Так в конце 2015 года количество пользователей интернета в мире составляло 3,2 миллиарда (всё население Земли составляет 7,2 миллиарда человек).
Из них в России –
8. миллиона [1].
Популяризации Интернета способствует рад факторов, а именно: появление нескольких новых технологий, увеличивающих мощности компьютеров и скорости глобальных сетей; низкие затраты на создание веб-сайтов и низкая стоимость компьютерной техники и телекоммуникационного оборудования.
Появление огромного количество новых средств разработки веб-приложений, фреймворков, называемых также CMS (системы управления сайтом), стало основой для быстрой и простой разработки веб-сайтов. Эти готовые к использованию системы имеют всё необходимое для легкой установки, настройки и публикации онлайн-контента. Даже обычный пользователь, не будучи специалистом по компьютерам либо программистом, может легко управлять современным сайтом и наполнять его содержимым.
Развитие Web 2.0 ещё более увеличило количество контента, создаваемого простыми пользователями. Социальные сети, веб-журналы, интернет-магазины и сайты электронной коммерции стали наполняться огромным количеством данных. Глобальным трендом общественного развития стал экспоненциальный рост объемов информации, так называемый информационный взрыв. При создании приложений, работающих с большими объемами данных, приходится сталкиваться с двумя основными проблемами: обработка экспоненциально нарастающих массивов данных, поступающих в реальном времени; существенное сокращение времени анализа данных [2].
В этой связи актуальным становится разработка методов и алгоритмов извлечения значимой информации из неструктурированных данных, размещенных в глобальной сети. Этим обусловлено интенсивное развитие новых методов последовательного синтаксического анализа информации, размещённой на интернет-страницах – парсинга сайтов.
Одним из сегментов Интернета, где идет быстрое наполнение информации является сегмент электронной коммерции. Процесс развития электронной торговли во всём мире идёт огромными темпами и можно сказать, что он необратим. Россия постепенно перестаёт быть аутсайдером в этом процессе. В нашей стране уже функционирует около
50. крупных электронных магазинов и торговых площадок. В стадии реализации находится большое количество инвестиционных проектов с участием отечественного и иностранного капитала.
Как показывает практика, наполнение контентом интернет-магазина дело несложное, но требует обычно серьезных затрат времени и сил. Наполнить каталог товаров и услуг можно и вручную, но всё же такой выбор слишком утомителен, либо затратен, если кого-то нанимать для выполнения работ. Импорт данных в онлайн-магазин зависит от опыта, навыков и умений человека. Однако в случае «ручного» заполнения данных интернет-магазина могут возникнуть простои, а это приводит просто к непозволительным для бизнеса потерям. Поэтому необходимо за считанные часы создать полноценный контент для интернет-магазина с полным каталогом необходимых товаров.
Целью данной работы является исследование и разработка процедур веб парсинга для импорта данных онлайн-магазинов.
Для достижения данной цели были поставлены следующие задачи:
• проанализировать современные подходы к организации веб парсинга;
• выполнить обзор существующих программных средств для осуществления веб парсинга;
• выполнить проектирование средств веб парсинга;
• разработать процедуры веб парсинга;
• оценить и протестировать разработанные процедуры.
Список использованной литературы
1. Интернет: цифры и факты [Электронный ресурс].
Режим доступа: http://www.bizhit.ru/
2. Кузнецов С. Большие хлопоты с большими объемами данных // Открытые системы. СУБД. – 2008. – № 4. С.64-69.
3. Синтаксический анализ [Электронный ресурс]
/ Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Синтаксический_анализ
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. – М.: Мир, 1978. – Т. 1, 612 с. Т.2, 487 с.
5. Revised report on the algorithmic language Algol 68 // ACTA Informatica
5. Пересмотренное сообщение о языке ALGOL 68. – 1974. – P. 1– 236.
6. Knuth D.E. Semantics of context-free languages // Mathematical system theory. – 1968 (2).
– P. 127– 145.
7. Koster Affix grammars // Algol 68 implementation. – Noth-Holland, 1971.
8. Griffiths M. Relationship between definition and implementation of language // Advanced courses on software engineering. Lecture Notes in Economics and Math Syst. Springer-Verlag 1973.
9. Ledgard H.F. Production system or can we do better than BNF? // CACM. – 1974, N2. – P. 94– 102.
10. Williams V.H. Static semantics features of Algol 60, and BASIC // The Computer Journal. – Vol. 21, №. 3. – P. 234– 242.
11. Хантер Р. Проектирование и конструирование компиляторов. – М.: Финансы и статистика, 1984.
12. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программирование. Основы построения трансляторов. – СПб.: КОРОНАпринт, 2000.
13. Карпов Ю.Г. Теория и технология программирования. Основы построения трансляторов. – С-Пб.: «БХВ-Петербург», 2005.
14. Парсинг html-сайтов с помощью PHP, Ruby, Python [Электронный ресурс].
Режим доступа: http://parsing.valemak.com/ru/what-why-how/
15. Этапы парсинга [Электронный ресурс].
Режим доступа: http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
16. Краковецкий А. Подходы к извлечению данных из веб-ресурсов. [Электронный ресурс].
Режим доступа: https://habrahabr.ru/post/99918/
17. Document Object Model [Электронный ресурс]
/ Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Document_Object_Model
18. Регулярные выражения [Электронный ресурс]
/ Викиучебник. Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
19. Описание универсального парсера Content Downloader [Электронный ресурс].
Режим доступа: http://sbfactory.ru/cd/
20. Описание программы ScraperLab [Электронный ресурс].
Режим доступа: http://scraperlab.com/ru/
21. Описание программы Datacol [Электронный ресурс].
Режим доступа: http://web-data-extractor.net/help/DatacolHelp.html
22. Описание программы Sjs parser [Электронный ресурс].
Режим доступа: http://sjs-soft.ru/super-parser-kontenta
23. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. // М.: Финансы и статистика, 2002.
24. Тарасенко Ф.П. Прикладной системный анализ. // М.: Издательство «Проспект». – 2013.
25. Антонов А.В. Системный анализ: учебник для вузов // М.: Высшая школа.– 2004.
26. Черняк Л. Третья опора компьютинга // Открытые системы. СУБД. – 2010 . – № 6.
27. Версии PHP на хостинге [Электронный ресурс].
Режим доступа: http://www.hostcomp.ru/versii-php-na-xostinge.html
28. Какой лучший редактор HTML, PHP, CSS, JS кода? [Электронный ресурс].
Режим доступа: http://sitear.ru/material/luchshiy-redaktor-html-php-css-js-koda
29. CURL [Электронный ресурс]
/ http://www.php.su/lessons/?lesson_11
30. Регулярные выражения [Электронный ресурс]
/ Викиучебник Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
31. CSV [Электронный ресурс]
/ Википедия Режим доступа:
https://ru.wikipedia.org/wiki/CSV