Пример готовой дипломной работы по предмету: Информационные технологии
Содержание
Введение 2
1 Задача определения близости текстов и способы ее решения 4
1.1 Цели, задачи и методы сравнения текстов 4
1.2 Обзор методов определения сходства документов 7
1.3 Алгоритм шинглов 11
2 Разработка и реализация программы для определения близости текстов методом шинглов 24
2.1 Анализ задания и архитектурное проектирование программы 24
2.2 Программная реализация алгоритма шинглов для определения близости текстов 31
2.3 Разработка интерфейса в WindowsForms 40
2.4 Тестирование и отладка программы 44
3 Экономическая часть 48
3.1 Расход трудоемкости разработки программного продукта 48
3.2 Расход на оплату труда разработчика программы 50
3.3 Общие затраты на создание программного продукта 51
Выводы и рекомендации 52
Библиографический список 53
Приложение А. 56
Исходный код программы для сравнения документов по алгоритму шинглов. 56
Раздел 1.2
Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:
1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;
2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);
3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;
4) Нейронные сети.
Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words).
Ее отличительная черта – независимость от места слова в тексте.
Раздел 2.3.
Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.
Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.
При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.
Выдержка из текста
Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.
Список использованной литературы
1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.
2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.].
– Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru
6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,
9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html
10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua
11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru
12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.
13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru
14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru
15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.
16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru
17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.
18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.
19. Шилдгт Г. Полное руководство по С# — 2-e изд., М.:Вильямс, 2010, -1024 с.
20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru
21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com
22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.
23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru
24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.