Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
Содержание
Введение 5
1 Средства и инструменты реализации поиска и сбора информации в глобальных сетях 6
1.1 Основные средства информационного поиска 6
1.2 Информационные источники 7
1.3 Инструменты информационного поиска 9
2 Средства реализации модуля для поиска информации в глобальных сетях 25
2.1 Постановка задачи и выбор средств ее реализации 25
2.2 Библиотека cURL 32
2.3 Расширение DOM 40
3 Реализация модуля для поиска и сбора информации в глобальных сетях 44
3.1 Постановка задачи 44
3.2 Парсинг целевого ресурса 45
3.3 Интерфейс разработанного модуля 52
3.4 Использование библиотеки cURL 53
3.5 Сохранение скачанной информации в файл 53
3.6 Тестирование и отладка 54
3.7 Эксплуатация 57
4 Безопасность жизнедеятельности 59
4.1 Характеристика производства 59
4.2 Потенциальные опасности и вредности на производстве. 60
4.3 Мероприятия по устранению этих опасностей и вредностей. 62
4.4 Производственный микроклимат 63
4.5 Вентиляция, отопление 64
4.6 Производственное освещение 65
4.7 Воздействие шума и вибрации 66
4.8 Электро- и пожаробезопасность 67
4.9 Расчет заземлительного контура 70
5 Экономическая часть 76
5.1 Расход трудоемкости разработки программного продукта 76
5.2 Расход на оплату труда разработчика программы 78
5.3 Общие затраты на создание программного продукта 79
Выводы и рекомендации 80
Библиографический список 82
Приложение А 85
3.4 Использование библиотеки cURL
В главе 2.2 была описана библиотека cURL, ее особенности и возможности. Также были рассмотрены опции соединения, которые можно задать. В программе cURL использован для более гибкого управления соединением, прежде всего для того, чтобы увеличить время, которое отводится на ожидание.
Сам процесс использования cURL, создания и закрытия сессии уже рассматривался в 2.2, поэтому рассмотрим только наиболее существенные опции: CURLOPT_TIMEOUT CURLOPT_USERAGENT и CURLOPT_RETURNTRANSFER. Их параметры:
$ch = cURL_init( $link);
cURL_setopt($ch, CURLOPT_URL, $link);
// задается ссылка для cURL-сессии
cURL_setopt($ch, CURLOPT_HEADER, 0);
cURL_setopt($ch, CURLOPT_TIMEOUT, 240); //содержит максимальное время в секундах, которое отводится для работы CURL-функций
cURL_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ru; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 ( .NET CLR 3.5.30729)'); //программе передаются параметры браузера
cURL_setopt($ch,CURLOPT_RETURNTRANSFER,1);
//Передает ненулевое значение, так нужно, чтобы cURL возвращал инфоормацию в переменную, а не выводил непосредственно на печать
$res = cURL_exec($ch);
cURL_close($ch);
Таким образом, благодаря использования cURL и его настроек, повысилась надежность работы программы.
3.5 Сохранение скачанной информации в файл
Сохраняем скачанную информацию в создаваемый файл:
$myFile = "News.html ";
$fh = fopen($myFile, 'a') or die("can't open file");
И записываем в него всю информацию:
fwrite($fh, $h);
где вторая переменная (в данном случае $h) – это тот текст или графика, которая извлечена и сохраняется.
3.6 Тестирование и отладка
Отладка происходила в процессе создания программы. Первоначально программа отлаживалась на скачанных документах. Затем тестировалась в режиме он-лайн на заново появляющихся страницах. Программа работает правильно. Время срабатывания составляет примерно не более 60 секунд – это скачивание всех новостей по ссылкам в единый файл.
Результатом работы является собранная на одной странице информация, которая выводится на экран и сохраняется в файл.
Результат работы программы приведен на рис.3.7.
Рисунок 3.7 – Результат работы программы
Во время отладки и тестирования пришлось столкнуться со следующими проблемами:
1. Ошибка Warning: file_get_contents() [function.file-get-contents]: PHP_network_getaddresses: getaddrinfo failed: Этот хост неизвестен. Отла-женный на скачанной странице скрипт перестал работать, при выходе на стартовую страницу онлайн. Как оказалось, со скачанной страницы берется полная ссылка вида:
HTTP://ria.ru/defense_safety/20140508/1006949817.HTML
а непосредственно с онлайн-ресурса:
/defense_safety/20140508/1006949817.HTML
Поэтому пришлось вводить дополнительное условие – проверять наличие полной ссылки, и если ее нет, то дополнять в запросе до полной ссылки:
$HTML3 = file_get_HTML ("HTTP://ria.ru".$link_st 2[$i]);
2. Поскольку скорость обработки скрипта не всегда одинакова, при-шлось увеличить время ожидания с помощью cURL. Для этого были использованы средства библиотеки cURL. Более подробно новые настройки описаны в разделе 3.4.
3. Из-за использования библиотеки cURL пришлось по-другому создавать объект библиотеки Simple_HTML_DOM, используя вместо функции file_get_HTML следующий код:
$res = cURL_exec($ch); //скачанная в переменную страница
$HTML = new Simple_HTML_DOM(); //создаем новый объект Sim-ple_HTML_DOM
$HTML –>load($res, true, false); //загружаем в этот объект скачанную
//страницу и получаем объект Simple_HTML_DOM
Выдержка из текста
Автоматический поиск и сбор информации, парсинг контента очень популярен, при этом он применяется как владельцами небольших и разви-вающихся сайтов, так и крупными компаниями в целях сбора контента, от-слеживания тематических статей, баз для рерайтинга. Даже крупные компании, такие как Google, для новостей используют, в основном информацию со специализированных порталов информационных агентств – Лента.ру, РИА Новости, РБК, Утро.ру и т.д.
В целом в работе рассматриваются вопросы информационного поиска и сбора информации, рассматриваются различные инструменты и источники информационного поиска. Практическая часть представляет собой реализацию программного модуля для автоматического поиска и сбора информации из заданных источников.
Список использованной литературы
Список литературы включает в себя книги и интернет-ресурсы по языку php, а также научные статьи и методические материалы по средствам информационного поиска.