Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов, Информационные технологии

Содержание

Введение 2

1 Задача определения близости текстов и способы ее решения 4

1.1 Цели, задачи и методы сравнения текстов 4

1.2 Обзор методов определения сходства документов 7

1.3 Алгоритм шинглов 11

2 Разработка и реализация программы для определения близости текстов методом шинглов 24

2.1 Анализ задания и архитектурное проектирование программы 24

2.2 Программная реализация алгоритма шинглов для определения близости текстов 31

2.3 Разработка интерфейса в WindowsForms 40

2.4 Тестирование и отладка программы 44

3 Экономическая часть 48

3.1 Расход трудоемкости разработки программного продукта 48

3.2 Расход на оплату труда разработчика программы 50

3.3 Общие затраты на создание программного продукта 51

Выводы и рекомендации 52

Библиографический список 53

Приложение А. 56

Исходный код программы для сравнения документов по алгоритму шинглов. 56

Раздел 1.2

Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:

1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;

2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);

3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;

4) Нейронные сети.

Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words). Ее отличительная черта – независимость от места слова в тексте.

Раздел 2.3.

Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.

Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.

При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.

Выдержка из текста

Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.

Список использованной литературы

1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.

2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.

3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru

4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru

5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru

6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki

7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru

8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,

9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html

10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua

11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru

12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.

13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru

14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru

15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.

16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru

17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.

18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.

19. Шилдгт Г. Полное руководство по С# — 2-e изд., М.:Вильямс, 2010, -1024 с.

20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru

21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com

22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.

23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru

24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.

С этим материалом также изучают

Разработка биоинтегрированной экспертной системы для персонализированного подбора программ здорового питания и биологически активных добавок

Разработка методологии ЭС на базе гибридного ИИ (LLM, PSO) для индивидуального подбора питания и БАД с учетом генетики, биомаркеров и новых стандартов качества РФ 2025–2026.

Электронные деньги как объект исследования — всё для написания курсовой работы

Изучите исчерпывающий материал для вашей курсовой работы по электронным деньгам. В статье вы найдете детальный анализ сущности, истории развития от первых концепций до цифрового рубля, полную классификацию и готовую структуру с планом.

Курсовая. Разработка алгоритма и программы решения задачи трассировки лучевым методом

... Трассировка печатных плат [Электронный ресурс]: URL: https://ru.wikipedia.org/wiki/Трассировка_печатных_плат; (дата обраще-ния: 23.10.2017). 4. Лучевой алгоритм поиска пути [Электронный ресурс]: http://100byte.ru/100btwrks/wv/r.html; (дата обращения: ...

Актуальный протокол первой помощи при электротравме: Деконструкция устаревших методов и алгоритм 2024 года

Актуальный протокол первой помощи при электротравме. Узнайте, как безопасно освободить пострадавшего от тока (шаговое напряжение) и провести СЛР по стандарту Приказа Минздрава 2024.

Комплексный анализ трудовых ресурсов предприятия: от классических методов до современных подходов и практических рекомендаций в условиях российской экономики

Комплексный анализ трудовых ресурсов предприятия: методы, показатели, проблемы и практические рекомендации для повышения эффективности в условиях российской экономики.

Стратегический менеджмент человеческих ресурсов на предприятии: комплексное исследование для устойчивого развития

Комплексное исследование стратегического УЧР: от теории до практики, включая PESTLE-анализ, SWOT, HR-метрики и тренды. Узнайте, как управлять талантами и повышать производительность.

Материалы для подготовки к экзамену: Комплектование библиотечных фондов электронными ресурсами

Полный разбор экзаменационных вопросов по комплектованию библиотек электронными ресурсами. Рассмотрены типы ЭР, этапы и критерии отбора, ЭБС и ГОСТы.

ТУристские ресурсы Алтайского края и их использование в туристских программах

... ресурсов. [Электронный ресурс] Режим доступа: http://worldwidetour.ru. Загл. с экрана.45. Федеральная целевая программа ... методов генной инженерии для ... ресурсы [Электронный ресурс]: Оценка природно-ресурсной базы рекреации. Режим доступа: http:// ... [текст]. ...

ТУристские ресурсы Алтайского края и их использование в туристских программах 2

... рекреационных ресурсов. [Электронный ресурс] Режим доступа: http://worldwidetour.ru. Загл. с экрана. 45. Федеральная целевая программа «Развитие ... из текста Введение Актуальность темы. Туристская отрасль приобретает все большее значение для развития ...

Условия для реализации производственной программы предприятия ООО «ЕФН-Экотехпром МСЗ 3»

... затрат на промышленных предприятиях [Электронный ресурс]. - Режим доступа: http://docplayer.ru/39276968 ... СОВЕРШЕНСТВОВАНИЯ УСЛОВИЙ ДЛЯ РЕАЛИЗАЦИИ ПРОИЗВОДСТВЕННОЙ ПРОГРАММЫ В ООО ... основе концепции бережливого производства [Текст] / Ю.И. Ефи-мычев, ...

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

Содержание

Выдержка из текста

Список использованной литературы

ПРИМЕНЕНИЕ МЕТОДОВ ВСЕОБЩЕГО УПРАВЛЕНИЯ КАЧЕСТВОМ В ПРОЦЕССАХ ОБРАЗОВАНИЯ

Отопление и вентиляция цеха производства игровых автоматов в поселке Первомайском Тульской области

Контроль в управлении персоналом организации на примере Гимназии

Создание интернет – магазина компьютерной техники. Mysql.АИС.

«Анализ ассортимента и оценка качества при реализации швейных товаров».

Анализ и построение риск-модели атак на каналы связи распределенных платежных систем

Содержание

Выдержка из текста

Список использованной литературы

С этим материалом также изучают

Похожие записи