Содержание

Содержание

Введение 5

1 Средства и инструменты реализации поиска и сбора информации в глобальных сетях 6

1.1 Основные средства информационного поиска 6

1.2 Информационные источники 7

1.3 Инструменты информационного поиска 9

2 Средства реализации модуля для поиска информации в глобальных сетях 25

2.1 Постановка задачи и выбор средств ее реализации 25

2.2 Библиотека cURL 32

2.3 Расширение DOM 40

3 Реализация модуля для поиска и сбора информации в глобальных сетях 44

3.1 Постановка задачи 44

3.2 Парсинг целевого ресурса 45

3.3 Интерфейс разработанного модуля 52

3.4 Использование библиотеки cURL 53

3.5 Сохранение скачанной информации в файл 53

3.6 Тестирование и отладка 54

3.7 Эксплуатация 57

4 Безопасность жизнедеятельности 59

4.1 Характеристика производства 59

4.2 Потенциальные опасности и вредности на производстве. 60

4.3 Мероприятия по устранению этих опасностей и вредностей. 62

4.4 Производственный микроклимат 63

4.5 Вентиляция, отопление 64

4.6 Производственное освещение 65

4.7 Воздействие шума и вибрации 66

4.8 Электро- и пожаробезопасность 67

4.9 Расчет заземлительного контура 70

5 Экономическая часть 76

5.1 Расход трудоемкости разработки программного продукта 76

5.2 Расход на оплату труда разработчика программы 78

5.3 Общие затраты на создание программного продукта 79

Выводы и рекомендации 80

Библиографический список 82

Приложение А 85

3.4 Использование библиотеки cURL

В главе 2.2 была описана библиотека cURL, ее особенности и возможности. Также были рассмотрены опции соединения, которые можно задать. В программе cURL использован для более гибкого управления соединением, прежде всего для того, чтобы увеличить время, которое отводится на ожидание.

Сам процесс использования cURL, создания и закрытия сессии уже рассматривался в 2.2, поэтому рассмотрим только наиболее существенные опции: CURLOPT_TIMEOUT CURLOPT_USERAGENT и CURLOPT_RETURNTRANSFER. Их параметры:

$ch = cURL_init( $link);

cURL_setopt($ch, CURLOPT_URL, $link);

// задается ссылка для cURL-сессии

cURL_setopt($ch, CURLOPT_HEADER, 0);

cURL_setopt($ch, CURLOPT_TIMEOUT, 240); //содержит максимальное время в секундах, которое отводится для работы CURL-функций

cURL_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ru; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 ( .NET CLR 3.5.30729)'); //программе передаются параметры браузера

cURL_setopt($ch,CURLOPT_RETURNTRANSFER,1);

//Передает ненулевое значение, так нужно, чтобы cURL возвращал инфоормацию в переменную, а не выводил непосредственно на печать

$res = cURL_exec($ch);

cURL_close($ch);

Таким образом, благодаря использования cURL и его настроек, повысилась надежность работы программы.

3.5 Сохранение скачанной информации в файл

Сохраняем скачанную информацию в создаваемый файл:

$myFile = "News.html";

$fh = fopen($myFile, 'a') or die("can't open file");

И записываем в него всю информацию:

fwrite($fh, $h);

где вторая переменная (в данном случае $h) – это тот текст или графика, которая извлечена и сохраняется.

3.6 Тестирование и отладка

Отладка происходила в процессе создания программы. Первоначально программа отлаживалась на скачанных документах. Затем тестировалась в режиме он-лайн на заново появляющихся страницах. Программа работает правильно. Время срабатывания составляет примерно не более 60 секунд – это скачивание всех новостей по ссылкам в единый файл.

Результатом работы является собранная на одной странице информация, которая выводится на экран и сохраняется в файл.

Результат работы программы приведен на рис.3.7.

Рисунок 3.7 – Результат работы программы

Во время отладки и тестирования пришлось столкнуться со следующими проблемами:

1. Ошибка Warning: file_get_contents() [function.file-get-contents]: PHP_network_getaddresses: getaddrinfo failed: Этот хост неизвестен. Отла-женный на скачанной странице скрипт перестал работать, при выходе на стартовую страницу онлайн. Как оказалось, со скачанной страницы берется полная ссылка вида:

HTTP://ria.ru/defense_safety/20140508/1006949817.HTML

а непосредственно с онлайн-ресурса:

/defense_safety/20140508/1006949817.HTML

Поэтому пришлось вводить дополнительное условие – проверять наличие полной ссылки, и если ее нет, то дополнять в запросе до полной ссылки:

$HTML3 = file_get_HTML ("HTTP://ria.ru".$link_st2[$i]);

2. Поскольку скорость обработки скрипта не всегда одинакова, при-шлось увеличить время ожидания с помощью cURL. Для этого были использованы средства библиотеки cURL. Более подробно новые настройки описаны в разделе 3.4.

3. Из-за использования библиотеки cURL пришлось по-другому создавать объект библиотеки Simple_HTML_DOM, используя вместо функции file_get_HTML следующий код:

$res = cURL_exec($ch); //скачанная в переменную страница

$HTML = new Simple_HTML_DOM(); //создаем новый объект Sim-ple_HTML_DOM

$HTML –>load($res, true, false); //загружаем в этот объект скачанную

//страницу и получаем объект Simple_HTML_DOM

Выдержка из текста

Автоматический поиск и сбор информации, парсинг контента очень популярен, при этом он применяется как владельцами небольших и разви-вающихся сайтов, так и крупными компаниями в целях сбора контента, от-слеживания тематических статей, баз для рерайтинга. Даже крупные компании, такие как Google, для новостей используют, в основном информацию со специализированных порталов информационных агентств – Лента.ру, РИА Новости, РБК, Утро.ру и т.д.

В целом в работе рассматриваются вопросы информационного поиска и сбора информации, рассматриваются различные инструменты и источники информационного поиска. Практическая часть представляет собой реализацию программного модуля для автоматического поиска и сбора информации из заданных источников.

Список использованной литературы

Список литературы включает в себя книги и интернет-ресурсы по языку php, а также научные статьи и методические материалы по средствам информационного поиска.

Похожие записи