Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
Содержание
Введение 5
1 Обзор средств автоматического сбора информации 7
1.1 Основные средства для автосбора информации и их применение 7
1.2 Средства разбора HTML 18
1.3 Регулярные выражения и их синтаксис 21
2 Архитектурное проектирование 27
2.1 Определение системных требований 28
2.2 Выбор ПО и определение требований к нему 28
2.3 Структурный анализ 34
2.4 Функциональный анализ 36
2.5 Проектирование 36
2.6 Эксплуатация 41
3 Реализация модуля для автоматического пополнения базы документов 42
3.1 Парсинг веб-страниц 42
3.2 Запись в базу данных 46
3.3 Вывод базы данных на страницу 50
3.4 Тестирование и отладка 52
3.5 Экспорт базы данных. 53
4 БЖД и охрана труда. 56
4.1 Потенциальные опасности и вредности на производстве 56
4.2 Мероприятия по устранению этих опасностей и вредностей 57
4.3 Микроклимат (характеристика, допустимые и оптимальные значения) 58
4.4 Вентиляция, отопление 59
4.5 Освещение помещений. 60
4.6 Характеристика шума и вибраций 60
4.7 Электробезопасность 61
4.8 Пожарная безопасность. 62
4.9 Расчет воздухообмена по тепловыделению 62
5 Экономическая часть 64
5.1 Расход трудоемкости разработки программного продукта 64
5.2 Расход на оплату труда разработчика программы 66
5.3 Общие затраты на создание программного продукта 67
5.4 Целесообразность создания продукта 67
Выводы и рекомендации 69
Библиографический список 71
Приложение А 74
3.1 Парсинг веб-страниц
Прежде всего парсинг зависит от исходного кода веб-страницы. Он может быть разный в зависимости от сложности исходного кода страницы.
Парсинг журнала «Информационные технологии и вычислительные системы».
Как уже отмечалось, для парсинга берется свежий номер электронной версии журнала «Информационные технологии и вычислительные системы», он показан на рис. 3.1.
Рисунок 3.1 – Журнал «Информационные технологии и вычислительные системы»
Здесь на левой панели показан список статей нового номера, а в центре размещается аннотация и ключевые слова. Для начала нужно взять список статей и разделов, в которых они находятся. Для этого нужно рассмотреть исходный код (рис.3.2).
Рисунок 3.2 – Исходный код левой панели (статьи номера)
В данном случае легко выделить и категории, и статьи, достаточно просто указать нужный тег. На рис.3.2 видно, что выделена ссылка – это ссылка на описание статьи, аннотацию и ключевые слова. Но нужно сделать так, чтоб распознавался раздел статьи, а никаких указаний или иерархии на странице нет, все они (статьи и разделы) являются ячейками таблицы, как видно на рис.3.2.
Поэтому обработка была сделана следующим образом:
1. Взят весь текст левой панели (статьи и разделы):
//берем весь текст в строку
foreach($data_novtex->find('td.leftmenutd') as $left){
$l = $left->innertext;
$l 2=$l 2.$l;
}
2. Полученная строка выводится в массив по разделителю. В качестве разделителя выбран знак <, он разделяет теги:
$ok = explode("<",$l) ;
//проверяем массив, выводим на экран
echo Count($ok).
"eto massive<br>";
for($i=0; $i<Count($ok); $i++)
{
echo $i.$ok[$i].
"<br>"; //вывод на печать
}
Результат вывода показан на рис.3.3.
Рисунок 3.3 – Массив исходного кода по разделителю
3. Из созданного массива выбираются имена категории и название статьи с помощью регулярных выражений:
for($i=0; $i<Count($ok); $i++)
{
if(preg_match('!a href="http!si',$ok[$i])==1){
$ok 2[$i]=preg_replace ('!a href="http(.*?)"!si','2', $ok[$i]);
}
if(preg_match('!(.*?)cattitletd!si',$ok[$i])==1){
$ok 2[$i]=preg_replace ('!(.*?)cattitletd"!si','1', $ok[$i]);
}
}
Как видно из приведенного фрагмента, в новый массив $ok 2 записыва-лись только те строки, которые соответствовали условию. Например, название категории всего содержит ID «cattitletd». Найденные фрагменты заменялись значками 2> для статьи, 1> для раздела – чтобы легче было записывать в базу данных.
Выдержка из текста
Появление новых информационных ресурсов повышает потребность в сборе контента, причем полное или частичное заимствование контента – повсеместно распространенное явление. В связи с этим актуальны задачи парсинга и граббинга.
В дипломной работе рассматривается актуальная задача парсинга электронных журналов. В качестве ресурсов, которые необходимо отслеживать, выбраны ведущие научные журналы в сфере информационных технологий, электронные версии. Это «Информационные технологии», «Вестник компьютерных и информационных технологий», «Информационные технологии и вычислительные системы». В базу нужно сохранять все данные из новых номеров журналов.
Потребность ориентироваться в обновлениях актуальной информации делает необходимыми ее постоянный сбор в автоматическом режиме и сохранение в базы. Это могут быть полнотекстовые базы докуменов, или базы данных, в которых хранятся краткие данные, или оба этих вида вместе. Поэтому средства автоматического сбора, обработки и анализа является актуальными и востребованными в настоящее время.
Список использованной литературы
Список литературы включает в себя книги и интернет-ресурсы по языку php, а также статьи и методические материалы по обработке html и xml.
19. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2008. -560 с.
20. Электронный ресурс]: Блог доброго программиста C#, 2012. URL: http://foolsoft.ru (Дата обращения: 18.04.14)
21. Мешков В.Е. Методические указания по выполнению курсовой работы по дисциплине «Проектирование информационных систем» [Электронная версия], ВИС ЮРГУЭС, 2013.
22. Макконнелл С. Влияние итеративных подходов на предварительные условия [текст]
/ С. Макконнелл. – СПб: ПИТЕР, 2005. 896 с.
23. PHP [Электронный ресурс]: Википедия, 2004. URL: http://ru.wikipedia.org (Дата обращения: 12.05.14)
24. Зандстра , М. PHP. Объекты, шаблоны и методики программирования / М. Зандстра. – М.: Вильямс, 2011. – 560с.