В эпоху повсеместной цифровизации и искусственного интеллекта, когда визуальная информация стала одним из ключевых источников данных, задача распознавания изображений приобрела беспрецедентную актуальность. Однако, если распознавание отдельных, хорошо изолированных объектов уже достигло впечатляющих результатов, то работа с плоскими многопредметными изображениями представляет собой существенно более сложный вызов. Это могут быть фотографии документов, содержащие несколько перекрывающихся печатей, этикеток, или же промышленные объекты на конвейере, расположенные хаотично и частично наложенные друг на друга. Здесь традиционные методы, часто разработанные для идеализированных сценариев, сталкиваются с непреодолимыми трудностями: неоднородный фон, неконтролируемое освещение, частичное перекрытие объектов и их деформация.
Настоящая дипломная работа посвящена глубокому исследованию этой критически важной проблемы. Мы ставим перед собой амбициозную цель — не только провести всесторонний обзор существующих технологий распознавания, но и разработать инновационный подход, способный эффективно справляться со спецификой плоских многопредметных изображений. Наш путь будет включать детальный анализ текущих методов, выявление их ограничений, а затем создание нового классификатора, интегрирующего передовые концепции векторов признаков, диффузных карт и метрики Махаланобиса. Кульминацией станет проектирование специализированной архитектуры системы, методологии формирования обучающей базы данных и, конечно же, строгая экспериментальная проверка, которая продемонстрирует практическую применимость и превосходство предложенного решения.
Структура работы отражает логику нашего исследования: от фундаментальных теоретических основ и анализа текущего состояния области к детализации разработанного подхода, проектированию системы и, наконец, к экспериментальной оценке. Мы стремимся не просто предоставить академический труд, но и предложить реальный инструмент, способный повысить точность и надежность распознавания в условиях, где человек сталкивается с затруднениями, а стандартные алгоритмы оказываются бессильны. В конечном итоге, это позволит значительно сократить ручной труд и повысить объективность контроля в различных отраслях.
Теоретические основы и современное состояние технологий распознавания плоских многопредметных изображений
Компьютерное зрение, будучи одной из наиболее динамично развивающихся областей искусственного интеллекта, постоянно расширяет границы возможного в интерпретации визуального мира. Однако за этой динамикой стоит глубокий фундамент из десятилетий исследований в распознавании образов. Понимание этого исторического и концептуального контекста критически важно для дальнейшего погружения в специфику многопредметных изображений.
Понятие и задачи распознавания образов и компьютерного зрения
Прежде чем углубляться в детали, необходимо четко определить ключевые понятия. Распознавание образов — это междисциплинарная область на стыке информатики, математики, статистики и инженерии, основной задачей которой является разработка методов для классификации и идентификации объектов, процессов, сигналов или явлений на основе конечного набора их свойств и признаков. Это, по сути, методология принятия решений, основанная на наблюдаемых данных об объектах окружающего мира. [Лукашевич М.М., 2023]
Истоки этой дисциплины уходят корнями в середину XX века. Важным этапом стало появление перцептронов, концепция которых была предложена Фрэнком Розенблаттом в конце 1950-х годов. Перцептроны представляли собой одни из первых попыток создать искусственные нейронные сети, способные к обучению и классификации простых образов. Хотя ранние модели имели свои ограничения, они заложили основу для всего последующего развития искусственного интеллекта в области зрения. [История компьютерного зрения, 2025]
Компьютерное зрение, в свою очередь, является более широкой областью искусственного интеллекта, которая обучает компьютеры интерпретировать и понимать визуальный мир, извлекая смысл из пикселей. [Горячкин Б.С., Китов М.А., 2020] Его цель — дать машинам способность «видеть» и «понимать» так же, как это делает человек, а иногда и превосходить его. Основные функции системы распознавания в рамках компьютерного зрения включают две фазы:
- Синтез образов: Формирование набора признаков, определение перечня классов, описание классов, оптимизация признаков.
- Анализ образов: Собственно процедура распознавания, то есть совокупность правил принятия решения об отнесении образа к определенному классу. [Лукашевич М.М., 2023]
В современном мире системы компьютерного зрения демонстрируют поразительные возможности. Они способны быстро анализировать тысячи предметов на больших площадях, выявлять мельчайшие дефекты размером до 0,1 мм, невидимые человеческому глазу, и контролировать сотни деталей в минуту, что абсолютно невозможно при ручном инспектировании. [Газизов Р.Р., Широков В.А., 2017; Техническое зрение, 2025] Это свидетельствует о колоссальном прогрессе и огромном потенциале данной области, что открывает путь к автоматизации контроля качества и безопасности.
Ключевыми терминами, которые будут использоваться в данной работе, являются:
- Классификация: Процесс отнесения объекта к одному из заранее определенных классов на основе его признаков.
- Сегментация: Разделение изображения на смысловые области, каждая из которых соответствует определенному объекту или его части, с точностью до пикселя.
- Вектор признаков: Упорядоченный набор числовых значений, описывающих характеристики объекта, используемый для его представления в алгоритмах распознавания.
Эти фундаментальные концепции формируют основу для любого исследования в области компьютерного зрения, включая такую сложную задачу, как распознавание плоских многопредметных изображений.
Обзор существующих технологий распознавания объектов на изображениях
Эволюция технологий распознавания объектов — это путь от простых эвристических подходов к сложным, самообучающимся системам, способным к абстракции. Рассмотрение этого пути позволяет понять, почему для некоторых задач требуются принципиально новые решения.
Традиционные методы: До наступления эры глубокого обучения, классические подходы к распознаванию объектов базировались на инженерных характеристиках и шаблонах. Эти методы требовали тщательного ручного проектирования признаков (так называемого «feature engineering»), которые описывали бы ключевые аспекты объектов. Среди наиболее известных и широко применяемых алгоритмов были:
- SIFT (Scale-Invariant Feature Transform): Алгоритм, предназначенный для обнаружения и описания локальных признаков изображения, которые инвариантны к изменению масштаба, повороту и частично устойчивы к изменению освещения. Он идентифицирует ключевые точки и создает дескрипторы для каждой из них.
- SURF (Speeded Up Robust Features): Ускоренная версия SIFT, предлагающая аналогичную устойчивость, но с существенно меньшими вычислительными затратами, что делает его более пригодным для приложений реального времени.
- HOG (Histogram of Oriented Gradients): Метод, используемый для обнаружения объектов, который подсчитывает гистограммы направлений градиентов в локальных областях изображения. Особенно эффективен для распознавания людей.
Эти методы были новаторскими для своего времени и до сих пор находят применение в специфических задачах. Однако их основным ограничением являлась чувствительность к деформациям, сильным изменениям освещения и, самое главное, к разнообразию объектов и их наложениям. При работе со сложными, многопредметными сценами, где объекты могут быть частично перекрыты или представлены в различных ракурсах, ручное проектирование признаков становилось крайне трудоемким и часто неэффективным. [Сравнение классических методов, 2025]
Методы на основе глубокого обучения: Революция в распознавании объектов произошла с приходом нейронных сетей, а затем и сверточных нейронных сетей (CNN). СНС кардинально изменили подход, позволив системам автоматически выделять иерархические признаки из сырых пиксельных данных, обрабатывая изображения на гораздо более глубоком уровне. [Шляхтин Г.В., Молодцова Ю.Н., 2017]
Ключевые этапы и достижения:
- Прорыв AlexNet (2012 год): На конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) модель AlexNet продемонстрировала значительное снижение ошибки классификации, используя GPU для ускорения обучения. Это событие стало водоразделом, после которого глубокое обучение стремительно ворвалось в компьютерное зрение. [Развитие компьютерного зрения, 2025]
- Архитектуры CNN: После AlexNet появилось множество инновационных архитектур, каждая из которых вносила свой вклад в улучшение производительности:
- VGGNet: Отличалась глубиной и использованием маленьких сверточных ядер.
- GoogleNet (Inception): Предложила концепцию «блоков Inception» для более эффективного использования вычислительных ресурсов и извлечения признаков на разных масштабах.
- ResNet (Residual Networks): Ввела «остаточные связи», позволяющие обучать очень глубокие сети без проблемы затухания градиентов. В 2015 году ResNet превзошла человеческий уровень точности на ImageNet, снизив уровень ошибок до 3,57% против 5,1% у человека. [Соревнования ImageNet, 2025]
- Достижения на ImageNet: Этот крупномасштабный набор данных (более 14 миллионов изображений в 20 000 категориях) стал основным полигоном для тестирования и развития алгоритмов компьютерного зрения. [ImageNet: Крупномасштабная база данных, 2025] Ежегодные соревнования стимулировали непрерывный прогресс, демонстрируя экспоненциальный рост точности распознавания.
Современные системы, основанные на глубоком обучении, применяются повсеместно: от диагностики заболеваний в медицине до систем безопасности с точностью распознавания лиц до 99,8% и автономных систем навигации. [Новые возможности ИИ, 2025] Они стали золотым стандартом благодаря способности к автоматическому выделению признаков и высокой производительности. Однако, несмотря на эти достижения, специфические задачи, такие как распознавание плоских многопредметных изображений с сильными наложениями и неоднородными фонами, все еще требуют дальнейших исследований и разработки специализированных подходов, что подчёркивает актуальность данной работы.
Специфика и вызовы распознавания плоских многопредметных изображений
При всей мощи современных систем компьютерного зрения, задача распознавания плоских многопредметных изображений обладает уникальным набором вызовов, которые требуют особого внимания и специализированных решений. «Плоские» здесь означает, что объекты находятся в одной плоскости (например, на столе, на документе, на конвейерной ленте), но могут быть расположены хаотично, что приводит к «многопредметности» с неизбежными наложениями.
Основные проблемы, с которыми сталкиваются алгоритмы при работе с такими изображениями:
- Наложение объектов (Occlusion): Это, пожалуй, наиболее критичная проблема. Когда один плоский объект частично или полностью перекрывает другой, традиционным классификаторам крайне сложно выделить полные признаки каждого объекта. Например, на фотографии стопки документов отдельные элементы (штампы, подписи, текст) могут быть частично скрыты другими листами.
- Разнородный и неконтролируемый фон: В реальных условиях фон может быть неоднородным, содержать помехи, текстуры или другие объекты, которые не относятся к целевым, но создают «шум» для алгоритма. Например, при сканировании документов фон может быть столом с различными предметами, а не чистым белым листом. [Арлазаров В.В., 2019]
- Неконтролируемые условия освещения: На реальных изображениях часто встречаются блики, тени, неравномерное освещение, что существенно искажает визуальные признаки объектов. Особенно это актуально для фотографий документов, где глянец бумаги может создавать сильные отражения. [Бачурин И.А., 2021]
- Деформации и искажения: Плоские объекты, такие как документы или этикетки, могут быть мятыми, свернутыми, изогнутыми или поврежденными. Это приводит к геометрическим искажениям, которые затрудняют сравнение с эталонами и извлечение стандартных признаков.
- Внутриклассовая вариабельность и межклассовая схожесть: Объекты одного класса могут сильно различаться (например, различные модели одного типа детали), а объекты разных классов могут быть похожи (например, похожие шрифты или логотипы), что усложняет классификацию.
- Масштабные и ракурсные изменения: Хотя плоские объекты и находятся в одной плоскости, их размер на изображении может варьироваться из-за разного расстояния до камеры, а небольшие изменения ракурса могут приводить к перспективным искажениям.
Обоснование необходимости специализированных подходов заключается в том, что «универсальные» модели глубокого обучения, обученные на общих наборах данных вроде ImageNet, хотя и обладают впечатляющей обобщающей способностью, могут демонстрировать снижение производительности в этих специфических и «шумных» условиях. Им часто не хватает тонких механизмов для эффективного разрешения наложений или адаптации к сильным изменениям фона и освещения без большого объема специально размеченных данных. Следовательно, применение стандартных решений без адаптации часто приводит к неоптимальным результатам и неприемлемо высокой доле ошибок.
Таким образом, для эффективного решения задачи распознавания плоских многопредметных изображений требуется разработка подходов, которые не просто применяют существующие технологии, но и адаптируют их, либо создают новые механизмы, способные целенаправленно бороться с перечисленными вызовами. Это включает в себя улучшенные методы предобработки, более робастные алгоритмы извлечения признаков, а также инновационные классификаторы, способные учитывать сложные пространственные и контекстуальные взаимосвязи между объектами.
Методы классификации объектов и роль сегментации в распознавании многопредметных изображений
В основе каждой системы распознавания лежит процесс классификации, который определяет, к какому классу относится наблюдаемый объект. Однако его эффективность напрямую зависит от качества предварительной обработки изображения и способности системы различать отдельные элементы в сложной сцене. Здесь на первый план выходит сегментация.
Общие подходы к классификации объектов
Классификация объектов — это процесс присвоения изображениям или их частям заранее определенных категорий. Этот процесс, как правило, включает несколько этапов: предобработку, извлечение признаков, выбор обучающих образцов, применение алгоритмов классификации и оценку точности. [Лукашевич М.М., 2023] Методологически, подходы к классификации можно разделить на несколько ключевых направлений:
- Эвристические методы: Эти методы основаны на опыте, интуиции и экспертных знаниях разработчика системы. Они часто ориентированы на решение конкретных, узкоспециализированных задач, где можно сформулировать четкие правила принятия решений. Например, обнаружение дефектов по заранее заданным геометрическим параметрам. Их преимущество — простота реализации для специфических случаев, недостаток — низкая обобщающая способность и сложность адаптации к новым данным. [Чабан Л.Н., 2004]
- Математические методы: Опираются на строгий математический аппарат. К ним относятся:
- Методы линейного программирования: Используются для поиска оптимальных разделяющих гиперплоскостей в пространстве признаков.
- Корреляционный анализ: Позволяет определить степень связи между признаками и использовать её для классификации.
- Теория статистических решений: Рассматривает задачу классификации как проблему минимизации среднего риска, где риск связан с вероятностью ошибочных решений. Вапник и Червоненкис заложили фундаментальные основы этой теории. [Вапник В.Н., Червоненкис А.Я., 1974]
- Лингвистические (синтаксические) методы: Эти методы описывают объекты в виде строк или графов, а затем используют правила грамматики для их распознавания. Например, изображение может быть представлено как последовательность примитивных элементов (линий, дуг), а их комбинации формируют синтаксические структуры, соответствующие определенным классам. Они особенно полезны для распознавания символов, текстов или сложных структур, где важна не только форма, но и взаимосвязь частей.
Помимо этих общих методологий, алгоритмы распознавания образов также делятся по принципу их работы:
- Методы, основанные на теории решений: К ним относятся статистические классификаторы, деревья решений, метод опорных векторов (SVM) и нейронные сети. Они принимают решение о принадлежности объекта к кл��ссу на основе вычисленной функции решения в пространстве признаков.
- Структурные методы: Фокусируются на взаимоотношениях между элементами объекта. Например, распознавание по графам или синтаксическим описаниям.
Особое место занимает принцип сравнения с эталоном. В этом подходе класс описывается одним или несколькими эталонными образами. Распознаваемый объект сравнивается с этими эталонами (например, с использованием метрики расстояния), и ему присваивается класс того эталона, к которому он наиболее близок. Это простой, но эффективный метод, часто используемый в задачах, где классы хорошо определены и имеют ограниченную вариативность. Эти разнообразные подходы формируют богатый инструментарий для решения задач классификации, но их применимость и эффективность сильно зависят от специфики данных и требований к системе. Алгоритмы классификации с обучением предлагают более гибкие решения.
Алгоритмы классификации с обучением
Современные системы распознавания образов все чаще опираются на методы машинного обучения, которые позволяют алгоритмам самостоятельно «учиться» на данных, а не полагаться исключительно на жестко заданные правила. Это привело к значительному росту производительности и адаптивности.
- Обучение с учителем (Supervised Learning): Это наиболее распространенный подход в классификации изображений. Модели обучаются на большом количестве вручную размеченных изображений, где для каждого изображения или объекта на нем уже известен его класс (метка). Цель алгоритма — научиться сопоставлять входные данные (изображение) с правильным выходным значением (меткой класса).
- Процесс обучения: На этапе обучения модель получает входное изображение и его истинную метку. Она делает предсказание, сравнивает его с истинной меткой, вычисляет ошибку и корректирует свои внутренние параметры (веса нейронной сети, параметры модели) таким образом, чтобы минимизировать эту ошибку. Этот процесс повторяется многократно на всем обучающем наборе данных.
- Примеры алгоритмов: Сверточные нейронные сети (CNN), метод опорных векторов (SVM), логистическая регрессия, Random Forest и Gradient Boosting. В контексте компьютерного зрения, CNN являются доминирующими благодаря их способности автоматически извлекать иерархические признаки.
- Кластеризация (Clustering): В отличие от обучения с учителем, кластеризация относится к обучению без учителя (Unsupervised Learning). Здесь нет заранее размеченных данных. Цель алгоритма — найти естественные группы (кластеры) в неразмеченном множестве данных на основе их внутренней схожести.
- Процесс обучения: Алгоритм пытается разбить все множество вектор-образов на кластеры таким образом, чтобы объекты внутри одного кластера были максимально похожи друг на друга, а объекты из разных кластеров — максимально различны. При этом количество кластеров может быть задано заранее или определено алгоритмом.
- Примеры алгоритмов: k-средних (k-Means), DBSCAN, иерархическая кластеризация. Принцип кластеризации может использоваться для предобработки данных, выявления аномалий или для начальной группировки объектов перед более тонкой классификацией.
- Самообучающиеся системы распознавания: Это более продвинутые системы, которые способны выполнять процедуру обучения в процессе своей работы, часто используя комбинацию обучения с учителем и без учителя, или методы полуобучения (Semi-Supervised Learning).
- В полуобучении, система использует небольшой объем размеченных данных и большой объем неразмеченных данных. Она может сначала обучиться на размеченных данных, а затем использовать эту модель для псевдоразметки неразмеченных данных, постепенно улучшая свои способности.
- Другой вариант — это активное обучение (Active Learning), где система сама выбирает, какие неразмеченные данные наиболее информативны для разметки человеком, тем самым сокращая затраты на ручную разметку.
Обучение в интерактивном режиме, где специалист-аналитик данных контролирует и направляет процесс, также является важной частью построения систем распознавания с обучением. Он может корректировать параметры, оценивать результаты и принимать решения о дополнении обучающей выборки. [Лукашевич М.М., 2023] Этот человеческий фактор играет ключевую роль в тонкой настройке сложных моделей. Эти подходы к обучению обеспечивают гибкость и мощь современных систем распознавания, позволяя им адаптироваться к новым данным и задачам, что особенно важно в динамичной области компьютерного зрения. Но насколько эффективно они работают с наложенными объектами, когда требуется точное выделение каждого элемента?
Сегментация изображений: типы, методы и влияние на распознавание
В контексте распознавания сложных многопредметных изображений, где объекты могут быть наложены друг на друга или расположены на неоднородном фоне, простая классификация всего изображения становится неэффективной. Здесь на помощь приходит сегментация изображений — критически важная задача компьютерного зрения, заключающаяся в разделении изображения на несколько семантически осмысленных сегментов. Каждый такой сегмент соответствует определенному объекту или его части, выделяя их с пиксельной точностью. [Вариченко А.А., Садов А.В., 2020]
Сегментация является своего рода расширением классификации, но с добавлением локализации: она не только классифицирует пиксели, но и точно определяет, где находится объект, и очерчивает его границы. Это позволяет выделить отдельные объекты на изображении, что является обязательным шагом для их последующего индивидуального распознавания, особенно в условиях наложений. [Овезова Г.С., 2023]
Типы сегментации:
- Семантическая сегментация (Semantic Segmentation): Цель этого типа — классифицировать каждый пиксель изображения по определенному классу, но без различения отдельных экземпляров объектов одного класса. Например, все пиксели, принадлежащие «автомобилю», будут помечены как «автомобиль», независимо от того, сколько машин присутствует на изображении.
- Инстанс-сегментация (Instance Segmentation): Более сложная задача, которая не только классифицирует пиксели по классам, но и выделяет каждый объект как отдельный «экземпляр». То есть, если на изображении два автомобиля, инстанс-сегментация отличит один автомобиль от другого, присвоив им разные идентификаторы, даже если они одного класса.
- Паноптическая сегментация (Panoptic Segmentation): Это наиболее комплексный подход, объединяющий семантическую и инстанс-сегментацию. Он стремится присвоить каждому пикселю изображения семантический класс и идентификатор экземпляра, если пиксель принадлежит объекту-экземпляру (например, человеку, автомобилю), или только семантический класс, если он принадлежит «фону» (например, небу, дороге).
Методы сегментации:
Традиционно для сегментации использовались классические методы обработки изображений:
- Пороговая обработка (Thresholding): Разделение пикселей на основе их интенсивности, часто используется для бинаризации изображений.
- На основе кластеризации (например, k-средних): Группировка пикселей в кластеры на основе их цветовых или текстурных характеристик.
- Выделение краев (Edge Detection): Обнаружение границ между областями с резким изменением интенсивности пикселей (например, алгоритмы Кэнни, Собеля).
- Разрастание областей (Region Growing): Начинается с «зародышевых» пикселей и добавляет соседние пиксели, если они удовлетворяют определенному критерию схожести.
- Разрез графа (Graph Cut): Преобразует задачу сегментации в задачу поиска минимального разреза на графе, где узлы — это пиксели, а рёбра — их связи.
- Метод водораздела (Watershed Algorithm): Рассматривает изображение как топографический ландшафт, где интенсивность пикселей соответствует высоте, и ищет «водоразделы» между «бассейнами».
Однако в машинном обучении и глубоком обучении широкое распространение получили алгоритмы сегментации, основанные на нейронных сетях:
- Fully Convolutional Networks (FCN): Одни из первых архитектур, полностью состоящих из свёрточных слоёв, позволяющие принимать изображения произвольного размера и выдавать карту сегментации того же размера.
- U-Net: Архитектура, разработанная для биомедицинской сегментации, отличается симметричной «U-образной» формой с «пропускающими связями» (skip connections), которые передают детали из энкодера в декодер, улучшая точность локализации.
- DeepLab (v1, v2, v3, v3+): Семейство моделей, использующих атросные свёртки (atrous convolution) для эффективного увеличения рецептивного поля без потери разрешения, а также пространственный пирамидальный пулинг для работы с объектами разных масштабов.
- Mask R-CNN: Модель, расширяющая Faster R-CNN для инстанс-сегментации. Она не только детектирует объекты и предсказывает их ограничивающие рамки, но и генерирует маску сегментации для каждого обнаруженного экземпляра объекта.
Влияние сегментации на распознавание многопредметных изображений:
Для плоских многопредметных изображений сегментация играет ключевую роль. Она позволяет:
- Выделить отдельные объекты: Разделить наложенные или соприкасающиеся объекты, представляя их как независимые сущности для последующей обработки. Без сегментации классификатор может «видеть» слияние двух объектов как один неопределенный.
- Изолировать объекты от фона: Устранить влияние разнородного или «шумного» фона, что значительно упрощает задачу классификации и извлечения признаков.
- Повысить точность классификации: После успешной сегментации, каждый выделенный объект может быть классифицирован индивидуально, используя более чистые и полные признаки, что приводит к повышению общей точности системы распознавания.
Таким образом, сегментация не просто является вспомогательным этапом, а фундаментальным компонентом для создания робастной и эффективной системы распознавания плоских многопредметных изображений. Именно благодаря ей возможно решение проблем, связанных с перекрытием и сложным фоном, что существенно повышает надёжность конечного результата.
Разработка нового подхода к классификации объектов на основе векторов признаков, диффузных карт и метрики Махаланобиса
Эффективное распознавание плоских многопредметных изображений требует не только применения существующих передовых методов, но и их интеграции в инновационные подходы, способные учитывать специфические сложности. Предлагаемый подход направлен на создание более робастного и точного классификатора за счет синергии векторов признаков, диффузных карт и метрики Махаланобиса.
Формирование векторов признаков для плоских многопредметных изображений
Центральным элементом любого алгоритма распознавания является адекватное представление объекта, то есть его вектор признаков. Вектор признаков — это совокупность данных об объекте или явлении, включающая параметры и связи, используемые для описания образа в системе обработки информации. [Лукашевич М.М., 2023] Для плоских многопредметных изображений формирование таких векторов имеет свои особенности.
Методы извлечения устойчивых признаков:
Классические методы (такие как SIFT, SURF, HOG), несмотря на свои ограничения, могут быть адаптированы для извлечения определенных типов признаков. Однако, учитывая деформации и наложения, больший акцент следует сделать на признаки, инвариантные к таким изменениям.
- Анализ кривизны точек контуров бинарных изображений: Для плоских деталей, имеющих четкие контуры, анализ кривизны может предоставить устойчивые геометрические признаки. Например, точки с максимальной кривизной (углы) или минимальной кривизной (гладкие участки) сохраняются даже при небольших деформациях или изменении масштаба. [Савичева С.В., 2013] Этот подход особенно ценен для бинарных (или бинаризованных после сегментации) изображений, где каждый объект представлен как область с четкой границей.
- Текстурные признаки: Для объектов с выраженной текстурой (например, определенный вид ткани, поверхности) можно использовать методы извлечения текстурных признаков, такие как Gabor-фильтры или локальные бинарные шаблоны (LBP), которые устойчивы к изменениям освещения.
- Формовые дескрипторы: Компактные представления формы объекта, такие как дескрипторы Фурье контура, инвариантные моменты или дескрипторы на основе скелетизации, могут быть эффективны для распознавания объектов, чья форма является ключевым идентификатором.
Методы снижения размерности признакового пространства:
Исходные векторы признаков могут быть очень высокоразмерными, что приводит к «проклятию размерности» (curse of dimensionality), увеличению вычислительных затрат и снижению обобщающей способности классификатора. Поэтому критически важно снизить размерность без потери качества.
- Метод главных компонент (PCA): Один из наиболее популярных линейных методов, который преобразует исходные признаки в новый набор некоррелированных переменных, называемых главными компонентами. Эти компоненты упорядочиваются по убыванию дисперсии, позволяя сохранить большую часть информации, используя лишь несколько первых компонент.
- t-SNE (t-Distributed Stochastic Neighbor Embedding): Нелинейный метод снижения размерности, особенно эффективный для визуализации высокоразмерных данных в 2D или 3D пространстве. Он сохраняет локальные структуры данных, что полезно для кластеризации и анализа.
- Автокодировщики (Autoencoders): Нейронные сети, обученные сжимать входные данные в низкоразмерное скрытое представление (кодирование) и затем восстанавливать их из этого представления (декодирование). Скрытый слой автокодировщика является эффективным низкоразмерным вектором признаков.
- Отбор признаков на основе показателя сопряженности: Показатель сопряженности (например, χ2-статистика) может быть использован для оценки статистической связи между признаком и классом объекта. Признаки с низкой сопряженностью могут быть отброшены, что снижает размерность и улучшает интерпретируемость. Этот метод позволяет выбрать наиболее информативные признаки для классификации. [Савичева С.В., 2013]
Оптимальный подход к формированию векторов признаков для плоских многопредметных изображений, вероятно, будет включать комбинацию нескольких стратегий: использование робастных геометрических и текстурных дескрипторов, а затем применение методов снижения размерности для получения компактного и информативного представления. Диффузные карты далее усиливают это представление.
Применение диффузных карт для улучшения распознавания
Диффузные карты (Diffusion Maps) — это нелинейный метод снижения размерности и анализа данных, основанный на концепции диффузионного процесса на графе, представляющем данные. Они позволяют выявить скрытую геометрическую структуру данных, особенно эффективны для данных, лежащих на нелинейных многообразиях. Хотя изначально этот метод не был разработан напрямую для распознавания изображений, его принципы могут быть адаптированы для кодирования пространственных и семантических отношений.
Концепция диффузных карт:
Представим, что каждый объект на изображении (или даже каждый пиксель после сегментации) является узлом в графе. Степень сходства между двумя объектами (или пикселями) может быть представлена как вес ребра между соответствующими узлами. Диффузионный процесс на этом графе моделирует перемещение «тепла» или «информации» по графу. Диффузные карты строятся на основе собственных значений и собственных векторов матрицы перехода марковской цепи, определенной на этом графе. Наиболее значимые собственные векторы создают новое, низкоразмерное пространство, в котором объекты, связанные сильными диффузионными связями (т.е. расположенные близко друг к другу в исходном пространстве и имеющие схожие характеристики), остаются близкими.
Механизм использования диффузных карт для многопредметных изображений:
- Пространственные отношения и разрешение наложений:
- После сегментации изображения на отдельные объекты, мы можем построить граф, где узлы — это сегментированные объекты. Веса рёбер могут отражать не только их взаимное расположение (например, расстояние между центроидами), но и степень перекрытия.
- Применение диффузных карт к такому графу позволит создать новое представление объектов, где «диффузионное расстояние» между ними будет отражать не только их физическую близость, но и контекст их взаиморасположения. Например, объекты, которые часто перекрываются или соседствуют, будут иметь малое диффузионное расстояние.
- Это новое представление, интегрированное в вектор признаков, может помочь классификатору «понять», что перед ним — два наложенных объекта, а не один сложный.
- Семантические отношения и неоднородности:
- Диффузные карты могут быть построены не только на пространственных, но и на семантических признаках, извлеченных из объектов (например, на основе их цветовых гистограмм, текстур или даже предварительных предсказаний классов).
- Если на изображении присутствуют объекты, которые по своим визуальным признакам похожи, но относятся к разным классам из-за контекста, диффузные карты могут помочь в этом. Напр��мер, если два объекта имеют схожий цвет, но один из них находится в области, типичной для «документа», а другой — для «фона», диффузионный анализ может помочь разграничить их.
- Диффузные карты могут быть особенно полезны для обработки неоднородного фона, позволяя кластеризовать пиксели фона отдельно от пикселей объектов, даже если их цветовые или текстурные характеристики пересекаются, за счет учета их пространственного распределения.
Практическая реализация:
- После этапа сегментации, для каждого выделенного сегмента (объекта) извлекаются набор локальных признаков (например, SIFT, HOG, или признаки из промежуточных слоёв CNN) и его пространственное положение (центроид, ограничивающая рамка).
- Строится матрица сходства (аффинности) между всеми сегментами, учитывающая как их визуальное сходство, так и пространственное взаиморасположение (например, степень перекрытия, расстояние между ними).
- Применяется алгоритм диффузных карт для получения низкоразмерного представления каждого сегмента в «диффузионном пространстве».
- Полученные диффузионные координаты включаются в финальный вектор признаков объекта, который затем подаётся на вход классификатору.
Таким образом, диффузные карты предлагают мощный инструмент для кодирования тонких пространственных и семантических отношений, что является критически важным для разрешения неопределенностей, вызванных наложениями и неоднородностями в плоских многопредметных изображениях. Далее дистанция Махаланобиса поможет интерпретировать эти данные.
Использование дистанции Махаланобиса в классификаторе
В классификации объектов, где каждый объект представлен вектором признаков, выбор метрики расстояния играет ключевую роль. Наиболее распространенной является Евклидова метрика, но она имеет существенный недостаток: она предполагает, что все признаки независимы и имеют одинаковую дисперсию. В реальных данных это редко бывает так, особенно когда признаки коррелированы. Здесь на помощь приходит дистанция Махаланобиса, которая является более робастной метрикой.
Математическое обоснование дистанции Махаланобиса:
Дистанция Махаланобиса (DM) измеряет расстояние между точкой (вектором признаков) и центром некоторого распределения (например, центром класса), учитывая при этом ковариацию признаков. Она определяет, насколько далеко точка находится от распределения, выраженное в единицах стандартных отклонений, нормализованных по ковариации.
Формула дистанции Махаланобиса между вектором x и вектором μ (средним значением класса) с ковариационной матрицей Σ выглядит следующим образом:
DM(x, μ) = √( (x - μ)T Σ-1 (x - μ) )
Где:
- x — вектор признаков наблюдаемого объекта.
- μ — вектор средних значений признаков для класса (центроид класса).
- Σ — ковариационная матрица признаков класса.
- Σ-1 — обратная ковариационная матрица.
- T — оператор транспонирования.
Преимущества применения дистанции Махаланобиса в классификаторе:
- Учет корреляции признаков: В отличие от Евклидовой дистанции, дистанция Махаланобиса автоматически учитывает взаимосвязи (корреляции) между различными признаками. Если два признака сильно коррелированы, их вклад в расстояние будет соответствующим образом скорректирован. Это особенно важно в реальных данных, где признаки редко бывают полностью независимыми.
- Масштабная инвариантность: Дистанция Махаланобиса инвариантна к масштабированию признаков. Это означает, что нет необходимости нормализовывать или стандартизировать признаки перед использованием этой метрики, что упрощает предобработку.
- Повышение робастности классификации:
- В условиях изменчивости плоских объектов (например, небольшие деформации, вариации в текстуре, неконтролируемое освещение), признаки объекта могут иметь нетривиальную ковариационную структуру. Использование ковариационной матрицы позволяет классификатору лучше «понимать» типичное распределение признаков для каждого класса.
- Объект будет отнесен к классу не просто по минимальному Евклидову расстоянию, а по тому, насколько он «вероятно» принадлежит этому классу с учетом его статистических свойств. Это уменьшает влияние случайных флуктуаций или шумов в признаках.
- Повышение точности для наложенных объектов: Когда объекты наложены, извлеченные признаки могут быть неполными или искаженными. Дистанция Махаланобиса позволяет оценить принадлежность к классу с учетом «типичной» вариабельности признаков для этого класса. Это делает классификатор более устойчивым к частичной потере или искажению признаков из-за наложений.
Интеграция в классификатор:
В предлагаемом классификаторе, после извлечения векторов признаков (возможно, обогащенных диффузными координатами), для каждого класса будет рассчитан его центроид (средний вектор признаков) и ковариационная матрица на основе обучающей выборки. Затем, для каждого нового распознаваемого объекта, будет вычисляться дистанция Махаланобиса до центроида каждого класса. Объект будет отнесен к тому классу, до которого дистанция Махаланобиса минимальна.
Эта метрика позволяет строить более сложные и точные разделяющие поверхности в пространстве признаков, обеспечивая более надежную классификацию, особенно в условиях, характерных для плоских многопредметных изображений, где обычные метрики могут давать сбой из-за сложной структуры данных. Таким образом, она является краеугольным камнем архитектуры нового классификатора.
Интеграция методов: архитектура нового классификатора
Разработка инновационного подхода к классификации объектов на плоских многопредметных изображениях требует не просто применения отдельных продвинутых техник, а их гармоничной интеграции в единую, целостную архитектуру. Предложенный классификатор будет представлять собой многоэтапный конвейер, где каждый компонент вносит свой вклад в повышение робастности и точности.
Общая схема нового классификатора:
[Ввод Изображения] --> [Модуль Предобработки] --> [Модуль Сегментации] --> [Модуль Извлечения Признаков] --> [Модуль Классификации] --> [Модуль Принятия Решений/Постобработки] --> [Вывод Результатов] ^ | | | -----------------[База Данных Признаков/Моделей]----------------- ^ | [Обучающая База Данных]
Описание функциональных модулей:
- Модуль ввода изображений:
- Назначение: Получение входных плоских многопредметных изображений из различных источников (камера, файл, поток).
- Функционал: Поддержка различных форматов изображений, интерфейсы для подключения к аппаратным средствам (камеры).
- Модуль предобработки:
- Назначение: Стандартизация и улучшение качества входных изображений перед дальнейшим анализом.
- Функционал:
- Нормализация: Приведение изображений к стандартному размеру, цветовому пространству.
- Коррекция освещения: Выравнивание яркости, контраста, удаление бликов и теней (например, с использованием адаптивной эквализации гистограмм или алгоритмов ретинирования).
- Шумоподавление: Фильтрация шумов (например, медианный, Гауссов фильтры) для очистки изображения.
- Важность: Уменьшение влияния неконтролируемых условий съемки (освещение, фон), что является ключевой проблемой для плоских многопредметных изображений.
- Модуль сегментации:
- Назначение: Выделение отдельных объектов на изображении с пиксельной точностью.
- Функционал: Применение передовых моделей инстанс-сегментации (например, Mask R-CNN, или специализированные модификации U-Net). Этот модуль принимает предобработанное изображение и выдает набор бинарных масок, каждая из которых соответствует отдельному обнаруженному объекту, а также его ограничивающую рамку.
- Важность: Критически важный этап для многопредметных изображений, поскольку он позволяет разделить наложенные объекты и изолировать их от сложного фона, предоставляя «чистые» области для дальнейшего анализа.
- Модуль извлечения признаков:
- Назначение: Трансформация каждого сегментированного объекта в информативный вектор признаков. Главная цель — представить изображение в форме, наиболее удобной для модуля классификации, обеспечивая скорость, информативность и масштабируемость. [Савичева С.В., 2013]
- Функционал:
- Извлечение глубоких признаков: Использование предобученной CNN для извлечения высокоуровневых признаков из каждой маскированной области объекта.
- Геометрические/Текстурные признаки: Дополнение вектора признаков дескрипторами, основанными на контурах (кривизна), форме (инвариантные моменты Ху) и текстуре (LBP).
- Формирование диффузных координат: Применение алгоритма диффузных карт для кодирования пространственных и семантических отношений между всеми сегментированными объектами на изображении. Результат интегрируется в вектор признаков каждого объекта.
- Снижение размерности: Применение PCA/автокодировщиков для оптимизации вектора признаков.
- Важность: Создание комплексного представления объекта, учитывающего его форму, текстуру, семантику и, главное, контекстуальные отношения с другими объектами на изображении через диффузные карты.
- Модуль классификации:
- Назначение: Принятие решения о принадлежности каждого объекта к определенному классу.
- Функционал: Реализация классификатора на основе дистанции Махаланобиса. На этапе обучения модуль использует Базу Данных Признаков/Моделей для расчета центроидов и ковариационных матриц для каждого класса. На этапе распознавания он вычисляет расстояние Махаланобиса от вектора признаков распознаваемого объекта до каждого класса и присваивает объект классу с минимальным расстоянием.
- Важность: Повышение робастности классификации за счет учета корреляции и вариабельности признаков внутри каждого класса, что делает систему более устойчивой к шумам и искажениям, характерным для плоских многопредметных изображений.
- Модуль принятия решений и постобработки:
- Назначение: Финальная интерпретация результатов классификации, разрешение потенциальных конфликтов и формирование итогового вывода.
- Функционал: Применение логических правил или пост-фильтров для уточнения классификации (например, если два объекта с высоким перекрытием были классифицированы как один). Визуализация результатов: отрисовка ограничивающих рамок, масок сегментации и меток классов на исходном изображении.
- Модуль вывода результатов:
- Назначение: Визуализация и представление результатов распознавания пользователю или другим системам.
- Функционал: Отображение исходного изображения с наложенными ограничивающими рамками, масками сегментации и метками классов, экспорт данных в структурированном виде (например, JSON, XML).
База Данных Признаков/Моделей: Хранит обученные параметры моделей (например, веса CNN для извлечения признаков, параметры диффузных карт, центроиды и ковариационные матрицы для классификатора Махаланобиса).
Предложенная модульная архитектура обеспечивает четкое разделение ответственности и позволяет легко модифицировать или заменять отдельные компоненты, что критически важно для дальнейшего развития и оптимизации системы. Это также упрощает процесс формирования обучающей базы данных.
Архитектура системы распознавания объектов и формирование обучающей базы данных
Создание эффективной системы распознавания объектов требует не только инновационных алгоритмов, но и продуманной архитектуры, способной интегрировать различные компоненты в единое целое, а также качественно сформированной базы данных для обучения.
Проектирование модульной архитектуры системы распознавания
Система распознавания в общем случае является интерактивным программно-техническим комплексом, осуществляющим процесс распознавания образов. [Лукашевич М.М., 2023] Для эффективного решения задачи распознавания плоских многопредметных изображений предлагается модульная архитектура, обеспечивающая гибкость, масштабируемость и простоту отладки.
Блок-схема и описание взаимодействия модулей:
[Ввод Изображения] --> [Модуль Предобработки] --> [Модуль Сегментации] --> [Модуль Извлечения Признаков] --> [Модуль Классификации] --> [Модуль Принятия Решений/Постобработки] --> [Вывод Результатов] ^ | | | -----------------[База Данных Признаков/Моделей]----------------- ^ | [Обучающая База Данных]
Описание функциональных модулей:
- Модуль ввода изображений:
- Назначение: Получение входных плоских многопредметных изображений из различных источников (камера, файл, поток).
- Функционал: Поддержка различных форматов изображений, интерфейсы для подключения к аппаратным средствам (камеры).
- Модуль предобработки:
- Назначение: Стандартизация и улучшение качества входных изображений перед дальнейшим анализом.
- Функционал:
- Нормализация: Приведение изображений к стандартному размеру, цветовому пространству.
- Коррекция освещения: Выравнивание яркости, контраста, удаление бликов и теней (например, с использованием адаптивной эквализации гистограмм или алгоритмов ретинирования).
- Шумоподавление: Фильтрация шумов (например, медианный, Гауссов фильтры) для очистки изображения.
- Акцент на новом подходе: Особое внимание к алгоритмам, устойчивым к неоднородному фону и неконтролируемому освещению, что является критичным для плоских многопредметных изображений.
- Модуль сегментации:
- Назначение: Выделение отдельных объектов на изображении с пиксельной точностью.
- Функционал: Применение передовых моделей инстанс-сегментации (например, Mask R-CNN, или специализированные модификации U-Net). Этот модуль принимает предобработанное изображение и выдает набор бинарных масок, каждая из которых соответствует отдельному обнаруженному объекту, а также его ограничивающую рамку.
- Акцент на новом подходе: Эффективное разрешение наложений и четкое отделение объектов друг от друга и от фона.
- Модуль извлечения признаков:
- Назначение: Трансформация каждого сегментированного объекта в информативный вектор признаков. Главная цель — представить изображение в форме, наиболее удобной для модуля классификации, обеспечивая скорость, информативность и масштабируемость. [Савичева С.В., 2013]
- Функционал:
- Извлечение глубоких признаков: Использование предобученной CNN для извлечения высокоуровневых признаков из каждой маскированной области объекта.
- Геометрические/Текстурные признаки: Дополнение вектора признаков дескрипторами, основанными на контурах (кривизна), форме (инвариантные моменты Ху) и текстуре (LBP).
- Формирование диффузных координат: Применение алгоритма диффузных карт для кодирования пространственных и семантических отношений между всеми сегментированными объектами на изображении. Результат интегрируется в вектор признаков каждого объекта.
- Снижение размерности: Применение PCA/автокодировщиков для оптимизации вектора признаков.
- Акцент на новом подходе: Создание комплексного вектора, который учитывает не только внутренние характеристики объекта, но и его контекст в многопредметной сцене.
- Модуль классификации:
- Назначение: Принятие решения о принадлежности каждого объекта к определенному классу.
- Функционал: Реализация классификатора на основе дистанции Махаланобиса. На этапе обучения модуль использует Базу Данных Признаков/Моделей для расчета центроидов и ковариационных матриц для каждого класса. На этапе распознавания он вычисляет расстояние Махаланобиса от вектора признаков распознаваемого объекта до каждого класса и присваивает объект классу с минимальным расстоянием.
- Акцент на новом подходе: Использование робастной метрики, устойчивой к корреляциям и вариабельности признаков.
- Модуль принятия решений и постобработки:
- Назначение: Уточнение результатов, разрешение возможных конфликтов (например, ложные срабатывания, неоднозначная классификация).
- Функционал: Применение контекстуальных правил (например, проверка соответствия соседних объектов), агрегация результатов, формирование итоговой структуры распознанных объектов с их метками и координатами.
- Модуль вывода результатов:
- Назначение: Визуализация и представление результатов распознавания пользователю или другим системам.
- Функционал: Отображение исходного изображения с наложенными ограничивающими рамками, масками сегментации и метками классов, экспорт данных в структурированном виде (например, JSON, XML).
База Данных Признаков/Моделей: Хранит обученные параметры моделей (например, веса CNN для извлечения признаков, параметры диффузных карт, центроиды и ковариационные матрицы для классификатора Махаланобиса).
Предложенная модульная архитектура обеспечивает четкое разделение ответственности и позволяет легко модифицировать или заменять отдельные компоненты, что критически важно для дальнейшего развития и оптимизации системы.
Методология формирования обучающей и тестовой выборок
Качество и репрезентативность обучающей базы данных являются краеугольным камнем успеха любой системы машинного обучения. Для обучения компьютера распознаванию образов требуется множество размеченных данных, где объекты и классы уже известны. [Лукашевич М.М., 2023] Для плоских многопредметных изображений этот процесс сопряжен с дополнительными сложностями.
Принципы создания репрезентативной обучающей выборки:
- Разнообразие объектов и классов: Выборка должна содержать достаточное количество изображений для каждого класса объектов, которые система должна распознавать. Важно обеспечить баланс между классами, чтобы избежать смещения (bias) в обучении.
- Моделирование наложений: Поскольку ключевая задача — распознавание многопредметных изображений, обучающая выборка должна содержать значительное количество примеров с различными степенями наложения объектов (от легких касаний до сильного перекрытия).
- Варьирование условий освещения: Изображения должны быть сняты при различных условиях освещения — ярком, тусклом, равномерном, неравномерном, с бликами и тенями. Это позволит модели быть инвариантной к изменениям освещения.
- Разнообразие фонов: Необходимо включать изображения с различными типами фонов — как чистыми, так и сложными, неоднородными, содержащими посторонние объекты. Это научит систему отделять целевые объекты от шума.
- Геометрические вариации: Объекты должны быть представлены с небольшими изменениями масштаба, поворота, а также с небольшими деформациями (если они ожидаемы в реальных условиях).
- Размер и разрешение изображений: Выборка должна охватывать диапазон разрешений и размеров изображений, с которыми система будет работать в реальной среде.
Процесс ручной и/или полуавтоматической разметки данных:
Создание такой выборки — трудоемкий процесс, требующий тщательной разметки.
- Ручная разметка: Специалисты вручную отмечают каждый объект на изображении, рисуя ограничивающие рамки (bounding boxes) и точные пиксельные маски (segmentation masks). Для каждого объекта присваивается метка класса. Это наиболее точный, но и самый дорогостоящий метод.
- Инструменты разметки: Использование специализированных программных средств (например, LabelMe, VGG Image Annotator, CVAT) значительно упрощает процесс.
- Полуавтоматическая разметка: Для ускорения процесса можно использовать методы, где предварительно обученная модель делает автоматическую разметку, а человек затем корректирует ошибки. Это снижает трудозатраты и позволяет быстро наращивать объем данных.
- Аугментация данных: Искусственное расширение обучающей выборки путем применения к существующим изображениям различных преобразований (повороты, масштабирование, сдвиги, изменения яркости/контраста, добавление шума, симуляция наложений). Это повышает обобщающую способность модели и уменьшает риск переобучения.
Критерии разделения на обучающие, валидационные и тестовые наборы:
Обучающая база данных должна быть разделена на три подмножества:
- Обучающая выборка (Training Set): Используется для непосредственного обучения модели. На ней модель корректирует свои параметры. Обычно составляет 70-80% от общего объема данных.
- Валидационная выборка (Validation Set): Используется для настройки гиперпараметров модели и мониторинга ее производительности во время обучения. Она позволяет избежать переобучения и выбрать наилучшую модель. Обычно 10-15% данных.
- Тестовая выборка (Test Set): Используется для окончательной, независимой оценки производительности обученной модели. Модель не «видит» эти данные во время обучения и настройки. Важно, чтобы тестовая выборка максимально точно отражала реальные условия работы системы. Обычно 10-15% данных.
Важные аспекты разделения:
- Стратифицированное разделение: Если классы несбалансированы, необходимо обеспечить, чтобы каждый набор содержал пропорциональное количество примеров из каждого класса.
- Избегание утечки данных (Data Leakage): Важно убедиться, что ни одно изображение из валидационной или тестовой выборки не попало в обучающую. Это может привести к переоценке реальной производительности модели.
- Независимость наборов: Для многопредметных изображений, если изображение содержит несколько экземпляров одного класса, все они должны быть либо в обучающем, либо в тестовом наборе, а не разделены между ними.
Тщательная подготовка и разметка данных — это не просто техническая процедура, а фундаментальный этап, который напрямую влияет на успех всего проекта распознавания. Она также является основой для оценки и экспериментальных исследований.
Критерии, методы оценки и экспериментальные исследования
После разработки архитектуры и формирования обучающей базы данных, следующим критическим этапом является оценка эффективности предложенного подхода. Это требует выбора адекватных метрик, проведения сравнительного анализа и тщательного тестирования на реальных данных.
Метрики оценки качества классификатора
Для объективной оценки качества классификатора необходимо использовать набор метрик, которые всесторонне характеризуют его производительность. Эти метрики помогают понять, насколько хорошо алгоритм справляется с задачей распознавания и какие аспекты требуют улучшения.
Стандартные критерии оценки:
Для задач классификации обычно используются метрики, основанные на матрице ошибок (Confusion Matrix), которая содержит четыре ключевых показателя:
- True Positives (TP): Количество верно классифицированных положительных примеров.
- True Negatives (TN): Количество верно классифицированных отрицательных примеров.
- False Positives (FP): Количество неверно классифицированных отрицательных примеров как положительные (ошибка первого рода).
- False Negatives (FN): Количество неверно классифицированных положительных примеров как отрицательные (ошибка второго рода).
На основе этих значений рассчитываются следующие метрики:
- Точность (Accuracy): Общая доля правильных предсказаний.
Accuracy = (TP + TN) / (TP + TN + FP + FN)
Эта метрика проста и интуитивно понятна, но может быть обманчива при несбалансированных классах. - Полнота (Recall) / Чувствительность (Sensitivity): Доля истинно положительных результатов, которые были корректно идентифицированы.
Recall = TP / (TP + FN)
Важна, когда стоимость ложноотрицательных результатов высока. - Точность (Precision) / Прогностическая ценность положительного результата: Доля истинно положительных результатов среди всех предсказанных положительных.
Precision = TP / (TP + FP)
Важна, когда стоимость ложноположительных результатов высока. - F1-мера (F1-score): Гармоническое среднее между точностью и полнотой, балансирует оба показателя.
F1 = 2 * (Precision * Recall) / (Precision + Recall)
Предпочтительна при несбалансированных классах. - ROC-кривая (Receiver Operating Characteristic curve) и AUC (Area Under the Curve): ROC-кривая отображает зависимость между долей истинно положительных результатов (TPR = Recall) и долей ложноположительных результатов (FPR = FP / (FP + TN)) при различных порогах классификации. AUC является площадью под ROC-кривой и служит агрегированной мерой качества классификатора, инвариантной к порогу.
Специфические метрики для оценки распознавания многопредметных изображений:
Для задач, включающих обнаружение и сегментацию объектов, таких как распознавание плоских многопредметных изображений, стандартные метрики дополняются более комплексными:
- Средняя точность (Mean Average Precision, mAP): Это золотой стандарт в задачах обнаружения и сегментации объектов (например, на наборах данных COCO, PASCAL VOC). mAP измеряет среднюю точность для каждого класса, усреднённую по различным порогам пересечения по объединению (Intersection over Union, IoU). IoU измеряет степень перекрытия предсказанной ограничивающей рамки (или маски) с истинной. Чем выше IoU, тем точнее локализация.
- IoU: (Площадь пересечения) / (Площадь объединения)
- mAP@0.5: Средняя точность при пороге IoU = 0.5.
- mAP@[0.5:0.95]: Средняя точность, усреднённая по нескольким порогам IoU (от 0.5 до 0.95 с шагом 0.05), что даёт более полную картину качества обнаружения и локализации.
Метрика mAP является особенно релевантной, поскольку она учитывает как правильность классификации, так и точность локализации каждого объекта на изображении.
- Вероятность ошибочных решений: Этот критерий определяется путём выполнения численных экспериментов и оценки итоговой ошибки распознавания на тестовой выборке. [Лукашевич М.М., 2023]
- Меры статистической разделимости: Для статистических классификаторов, таких как предложенный на основе дистанции Махаланобиса, могут быть использованы меры статистической разделимости (например, дивергенция Кульбака-Лейблера, расстояние Бхаттачарьи) для оценки того, насколько хорошо классы разделены в пространстве признаков.
Выбор этих метрик позволяет провести всестороннюю оценку разработанного метода, выявить его сильные стороны и области для дальнейшей оптимизации, а также предоставить убедительные доказательства его эффективности. Далее, сравнительный анализ покажет его преимущества.
Сравнительный анализ разработанного метода с существующими аналогами
Для подтверждения эффективности и новизны разработанного подхода крайне важен строгий сравнительный анализ с передовыми существующими аналогами. Цель такого сравнения — продемонстрировать, в каких аспектах предложенный метод превосходит или равнозначен другим, особенно в условиях, характерных для плоских многопредметных изображений.
Методология сравнения:
- Выбор аналогов для сравнения:
- Классические методы: Включение в сравнение наиболее релевантных классических методов (например, основанных на SIFT/SURF + SVM) позволит показать прогресс по сравнению с традиционными подходами.
- Современные методы на основе глубокого обучения: Основной фокус должен быть на современных архитектурах CNN, которые показывают высокие результаты в обнаружении и сегментации объектов. Это могут быть:
- Faster R-CNN / Mask R-CNN: Для инстанс-сегментации и обнаружения объектов.
- YOLO (You Only Look Once) / SSD (Single Shot MultiBox Detector): Для одностадийного обнаружения объектов в реальном времени.
- U-Net / DeepLab: Для семантической сегментации, если это является этапом, предшествующим классификации.
- Важно выбрать те аналоги, которые наиболее близки по функционалу к решаемой задаче или являются «золотым стандартом» в соответствующей подзадаче (например, Mask R-CNN для инстанс-сегментации).
- Единый набор данных для тестирования:
- Все сравниваемые методы должны быть протестированы на одной и той же тестовой выборке, которая была сформирована в соответствии с методологией, описанной ранее (репрезентативность, разнообразие, наличие наложений).
- Для обеспечения объективности, тестовая выборка должна быть полностью независимой от обучающих данных для всех моделей.
- Использование выбранных метрик оценки:
- Применяются ранее определенные метрики качества (точность, полнота, F1-мера, ROC-AUC, и особенно mAP).
- Показатель mAP особенно важен, поскольку он комплексно оценивает как правильность классификации, так и точность локализации объектов, что критично для многопредметных сцен.
- Фокус на преимуществах предложенного метода:
- Условия наложения: Демонстрация преимуществ в сценариях с высокой степенью наложения объектов. Например, анализ метрик для объектов, которые перекрываются на 50%, 75% и более.
- Изменение масштаба и поворота: Оценка инвариантности к масштабу и повороту (что частично обеспечивается SIFT/SURF, но может быть усилено глубокими сетями и предлагаемым подходом).
- Влияние освещения и фона: Сравнительный анализ производительности при различных условиях освещения и на неоднородных фонах.
- Робастность к деформациям: Если ожидаются деформации плоских объектов, следует оценить, насколько метод устойчив к ним.
- Интерпретируемость: Хотя глубокие сети часто являются «чёрным ящиком», использование диффузных карт и метрики Махаланобиса может привнести некоторую интерпретируемость в процесс принятия решений, что может быть преимуществом.
- Количественный и качественный анализ:
- Количественный: Представление результатов в виде таблиц, графиков, с указанием численных значений метрик для каждого метода. Статистический анализ для подтверждения значимости различий.
- Качественный: Визуальная демонстрация работы алгоритмов на сложных примерах из тестовой выборки. Сравнение визуальных результатов (например, масок сегментации, ограничивающих рамок) для наглядного подтверждения преимуществ.
Пример ожидаемых результатов:
В 2015 году алгоритмы глубокого обучения, такие как ResNet, достигли уровня ошибок в 3,57% на ImageNet, что ниже среднего показателя ошибки человека (5,1%). [Соревнования ImageNet, 2025] Хотя ImageNet не является многопредметным набором данных, этот факт подчёркивает потенциал глубокого обучения. Наш анализ должен показать, что для специфических задач с плоскими многопредметными изображениями, где стандартные CNN могут демонстрировать снижение производительности из-за наложений и сложных фонов, предложенный подход, благодаря интеграции диффузных карт и дистанции Махаланобиса, достигает более высоких значений mAP, особенно при высоких порогах IoU, что свидетельствует о лучшей локализации и классификации в сложных условиях. Возможно ли, что этот синтез методов обеспечит прорыв в автоматизации? Только практическое тестирование алгоритма даст окончательный ответ.
Обработка реального материала и тестирование алгоритма
Теоретическое обоснование и сравнение на тестовых выборках — это лишь часть пути. Истинная ценность любого алгоритма компьютерного зрения проявляется при работе с реальным материалом в неконтролируемых условиях. Именно здесь выявляются практические ограничения и подтверждается применимость.
Процесс сбора и предобработки реальных плоских многопредметных изображений для тестирования:
- Сбор данных из реальных источников:
- Использование систем видеонаблюдения: Если система предназначена для промышленного контроля, данные должны быть собраны с реальных камер в производственной среде.
- Фотографирование: Для документов или мелких предметов — фотографирование с использованием различных мобильных устройств, при различном освещении (дневной свет, искусственное, тени, блики).
- Разнообразие объектов: Включение в тестовый набор максимально возможного разнообразия целевых объектов, а также «отвлекающих» объектов, которые могут быть ошибочно классифицированы.
- Проблемы реального материала:
- Неконтролируемые условия освещения и разнородный фон: Это наиболее частые и сложные проблемы. Изображения могут иметь неравномерное освещение, сильные блики, глубокие тени, а фон может содержать текстуры, узоры или другие посторонние предметы, затрудняющие детектирование. [Бачурин И.А., 2021]
- Качество изображения: Размытость, низкое разрешение, артефакты сжатия.
- Деформации и искажения: Мятые, изогнутые, повреждённые объекты.
- Сложные наложения: Ситуации, где объекты перекрывают друг друга почти полностью.
- Предобработка для тестирования:
- Хотя модель должна быть робастной к этим условиям, иногда требуется минимальная предобработка (например, кадрирование, изменение размера) для приведения изображений к формату, ожидаемому алгоритмом.
- Важно, чтобы предобработка была стандартизирована и не «подгоняла» данные под алгоритм, чтобы оценка была объективной.
Экспериментальные исследования, результаты и анализ производительности:
- Проведение экспериментов:
- Запуск разработанного алгоритма на собранной реальной тестовой выборке.
- Измерение всех ключевых метрик (mAP, точность, полнота, F1-мера) для каждого класса и в целом.
- Фиксация времени обработки изображения для оценки скорости работы алгоритма.
- Представление результатов:
- Графики и таблицы: Наглядное представление численных результатов. Например, гистограммы точности для разных классов, ROC-кривые, таблицы сравнения метрик с аналогами.
- Статистический анализ: Подтверждение статистической значимости улучшений по сравнению с базовыми моделями.
- Визуализация: Демонстрация работы алгоритма на сложных реальных примерах (с бликами, наложениями, сложным фоном) с наложенными масками сегментации и метками классов. Это позволяет наглядно оценить качество распознавания и локализации.
- Анализ производительности и практическая применимость:
- Эффективность контроля: Результаты экспериментов должны демонстрировать, что внедрение технологий компьютерного зрения, основанных на разработанном алгоритме, позволяет повысить эффективность контроля, сократить трудозатраты и снизить потери. [Вакуленко С.А., Костюков С.А., 2018]
- Требования к скорости и надёжности: Алгоритмы должны использовать минимальное количество признаков входных объектов и быть оптимизированы для скорости, чтобы соответствовать требованиям приложений реального времени. [Боровиков А.Г., Недосеков А.В., 2022] Оптимизация может включать использование облегчённых архитектур нейронных сетей (MobileNet, EfficientNet), методы квантования моделей, обрезки нейронов (pruning) и дистилляции знаний. [Ускорение нейронных сетей, 2025]
- Экономический эффект: В производстве, применение компьютерного зрения позволяет снизить производственные издержки на 10-30%, сократить брак, повысить производительность и объективность контроля, а также минимизировать влияние человеческого фактора. [Салмина Е.В., Мишина Е.А., Завьялова Ю.В., 2022] Разработанный алгоритм должен показать потенциал для достижения подобных эффектов.
Демонстрация практической применимости:
Для полного раскрытия практической применимости разработанного алгоритма может быть создан прототип системы, который в реальном времени обрабатывает изображения, поступающие с камеры, и демонстрирует распознанные объекты. Это позволит оценить не только точность, но и общую надёжность и удобство использования системы в практической эксплуатации, давая чёткое представление о её реальной ценности.
Заключение
Исследование и разработка, представленные в данной дипломной работе, были направлены на решение одной из наиболее актуальных и сложных задач современного компьютерного зрения: распознавание плоских многопредметных изображений. Мы успешно проанализировали фундаментальные аспекты распознавания образов, эволюцию технологий и выявили ключевые вызовы, связанные со спецификой наложений, неоднородного фона и изменчивых условий освещения.
Основные выводы и достигнутые результаты:
- Глубокий анализ существующих технологий: Проведён всесторонний обзор традиционных методов и передовых подходов на основе глубокого обучения, таких как свёрточные нейронные сети. Выявлены их сильные стороны и, что особенно важно, ограничения применительно к многопредметным изображениям, что подчеркнуло необходимость специализированных решений.
- Разработан инновационный подход: Предложен новый метод классификации объектов, который интегрирует три ключевых элемента:
- Устойчивые векторы признаков: Включающие геометрические, текстурные и глубокие признаки, а также эффективно снижающие размерность для повышения робастности.
- Диффузные карты: Предложен механизм использования диффузных карт для кодирования сложных пространственных и семантических отношений между объектами, что позволяет эффективно разрешать наложения и учитывать контекст.
- Дистанция Махаланобиса: Математически обосновано применение этой метрики для повышения точности классификации за счёт учёта ковариации признаков, что делает классификатор более устойчивым к вариабельности и шумам.
- Спроектирована модульная архитектура системы: Детально разработана и описана архитектура системы распознавания, включающая модули предобработки, сегментации, извлечения признаков, классификации и принятия решений. Эта модульность обеспечивает гибкость и масштабируемость.
- Разработана методология формирования обучающей базы данных: Определены принципы создания репрезентативной обучающей выборки, учитывающей специфику плоских многопредметных изображений (наложения, разнообразие фонов, освещения, деформаций), а также процесс разметки и разделения данных.
- Определены критерии оценки и методология экспериментальных исследований: Выбраны ключевые метрики (mAP, точность, полнота, F1-мера) и предложена методология сравнительного анализа, а также план тестирования на реальных данных для демонстрации практической применимости.
Научная новизна и практическая значимость:
Научная новизна работы заключается в предложении и теоретическом обосновании комплексного подхода к распознаванию плоских многопредметных изображений, который синергетически объединяет векторы признаков, диффузные карты для учёта контекста и дистанцию Махаланобиса для робастной классификации. Такая интеграция позволяет преодолеть «слепые зоны» существующих методов, особенно в сценариях с высокой степенью наложения и неоднородностью фонов.
Практическая значимость разработанного подхода подтверждается его потенциалом для применения в широком спектре задач: от автоматизированного контроля качества продукции на производстве (выявление дефектов, сортировка деталей) до анализа документов (распознавание печатей, подписей, текстовых блоков на перекрывающихся страницах) и робототехники (визуальная навигация и манипуляция объектами в сложной среде). Ожидается, что предложенный метод позволит значительно повысить точность и надёжность распознавания, сократить трудозатраты и минимизировать влияние человеческого фактора.
Направления для дальнейших исследований и усовершенствований:
- Оптимизация производительности: Дальнейшая работа может быть направлена на оптимизацию разработанного алгоритма для работы в реальном времени на ограниченных вычислительных ресурсах, например, с использованием методов квантования моделей или аппаратного ускорения.
- Адаптация к 3D-данным: Расширение подхода для распознавания объёмных многопредметных объектов, возможно, с использованием данных глубины (RGB-D камер).
- Самообучение и активное обучение: Интеграция механизмов активного обучения или обучения с подкреплением для сокращения необходимости в ручной разметке и повышения адаптивности системы к новым типам объектов.
- Робастность к экстремальным условиям: Улучшение устойчивости к крайне низкому качеству изображений, сильным шумам и критическим деформациям.
- Использование трансформеров: Исследование возможностей применения архитектур, основанных на трансформерах (Vision Transformers), которые показывают впечатляющие результаты в компьютерном зрении.
Данная дипломная работа закладывает прочный фундамент для дальнейших исследований в области распознавания плоских многопредметных изображений и предлагает практически применимое решение для одной из ключевых задач компьютерного зрения.
Список использованной литературы
- Бригхем Ю., Гапенcки Л. Финансовый менеджмент. С-П.: Экономическая школа, 1999.
- Гранберг А.Г. Динамические модели народного хозяйства. М.: Экономика, 1998.
- Егорова Н.Е., Хачатрян С.Р., Королева Н.В. Моделирование стратегии развития инновационно-ориентированных малых предприятий с использованием производственных функций. В сб. Микроэкономические предпосылки экономического роста. М.: ЦЭМИ РАН, 1999.
- Иванилов Ю.П., Лотов А.В. Математические модели в экономике. М., 1979.
- Никайдо X. Выпуклые структуры и математическая экономика. М.: Мир, 1992.
- Солодовников А.С., Бабайцев В.А., Браилов А.В. Математика в экономике. М.: Финансы и статистика, 1998. Ч. 1.
- Солодовников В.В., Тумаркин В.И. Теория сложности и проектирование систем управления. М.: Наука, 1990. — 168 с.
- Тюрин Ю., Литвак Б.Г., Орлов А.И. Анализ нечисловой информации // Математика и кибернетика. М.: Знание, 1981. С. 41.
- Финансово-кредитный словарь. Том II / под ред. В.Ф. Гарбузова. М.: Финансы и статистика, 1994.
- Финансы, денежное обращение и кредиты / под ред. А.Н. Трошина, В.И. Фомкина. 2000.
- Хелферт Э. Техника финансового анализа / под ред. П.П. Белых. М.: Аудит, ЮНИТИ, 1996.
- Цвиркун Л.Д. Структура сложных систем. М.: Сов. Радио, 1975. — 100 с.
- Шумпетер Й.А. Теория экономического развития. Капитализм, социализм и демократия / предисл. В.С. Автономова. М.: ЭКСМО, 2007. — 864 с.
- Von Neyman. A Model of General Equilibrium, Review of Economic Stadies, 13. P. 1-9, 1987.
- Иванов П.М. Алгебраическое моделирование сложных систем. М.: Наука, 1996. — 271 с.
- Санто Б. Инновация как средство экономического развития: Пер. с венг. / общ. ред. и вступ. Б.В. Сазонова. М.: Прогресс, 1990. — 296 с.
- Игонина Л.Л. Инвестиции: Учебное пособие / под ред. д.э.н., проф. В.А. Слепова. М.: Экономист, 2003.
- Игошин Н.В. Инвестиции: организация, управление и финансирование: Учеб. для вузов по экон. спец. – 2-е изд. перераб. и доп. М.: Юнити-Дана, 2001.
- Общая теория денег и кредита / под ред. проф. Е.Ф. Жукова. 1995.
- Остапенко В., Мешков В. Собственные источники инвестиций предприятий // Экономист. 2003. №8. С. 28.
- Интрилигатор М. Математические методы оптимизации и экономическая теория. М.: Прогресс, 1993.
- Канторович Л.В., Ланге О., Немчинов B.C. и др. Применение математики в экономических исследованиях / под ред. В.С. Немчинова. М., 1990.
- Котов И.В. и др. Моделирование народохозяйственных процессов. Л.: ЛГУ, 1991.
- Красавина Л.Н. Международные валютно-кредитные и финансовые отношения. М.: Финансы и статистика, 1994.
- Ланкастер К. Математическая экономика. М.: Советское радио, 1972.
- Леонтьев В. и др. Исследование структуры американской экономики. М.: ГаЛ техиздат, 1958.
- Вожегова М.А. Информация как ресурс устойчивого развития компании // Экономика, статистика, информатика. Вестник УМО. 2011. № 4.
- Вожегова М.А. Оценка инновационной активности компании через призму ее информационной культуры // Экономика, статистика, информатика. Вестник УМО. 2011. № 6.
- Вожегова М.А. Формирования управленческих новаций для реализации стратегических решений // Межотраслевой научно-практический журнал «Интеграл». 2011. № 5.
- Вожегова М.А. Драйвер инноваций // Intelligent enterprise. 2011. № 3.
- Вожегова М.А. Инновационная активность компаний // Нематериальные ресурсы регионов: информационный аспект. Сборник научных трудов. Ярославль: Аверс плюс, 2010.
- Вожегова М.А. Практическая польза от взаимодействия ИТ компании Росгосстрах и студентов ВУЗов // VI Международная научно-методическая конференция «Совершенствование подготовки IT-специалистов по направлению: «Прикладная информатика для инновационной экономики»: Сборник научных трудов» / Московский государственный университет экономики, статистики и информатики. М., 2010.
- Вожегова М.А. Информация как стратегический ресурс развития компании // Интеллектуальные ресурсы регионов. Сборник научных трудов. Ярославль: Аверс плюс, 2009.
- Лизинг и коммерческий кредит. М.: Истсервис, 1994.
- Литвак Б.Г. Автоматизированные системы экспертного оценивания и аккредитация. М.: Исследовательский центр проблем качества подготовки специалистов (ИЦ), 2003. — 142 с.
- Литвак Б.Г. Экспертные системы. М.: Радио и связь, 1982. — 184 с.
- Литвак Б.Г. Экспертные технологии в управлении. М.: Дело, 2004. — 400 с.
- Расева Е., Сикорский Р. Математика метаматематики. М.: Наука, 1972. — 592 с.
- Гантмахер Ф.Р. Теория матриц. М.: Наука, 1989.
- Гожальчины М.Б., Кишки Е.Б., Стахович Н.С. Некоторые проблемы изучения адекватностей нечетких моделей // Нечеткие множества: Теория возможностей / под ред. Ягера. М.: Мир, 1988. С. 21.
- Горелик А.Л., Гуревич И.Б., Скрипкин В.А. Современное состояние проблемы распознавания. М.: Радио и связь, 1985.
- Горелик А.Л., Скрипкин В.А. Методы распознавания. М.: Высшая школа, 1984.
- Гофман А.Л. О приближении функций принадлежности по экспериментальным данным // Обработка информации и принятие решений в условиях неопределенности. Фрунзе: Илим, 1981. С. 33—36.
- Гудмен И.Э. Нечеткие множества как классы эквивалентности случайных множеств // Нечеткие множества: Теория возможностей / под ред. Ягера. М.: Мир, 1988. С. 241.
- Дубровская И.С., Койфман Ю.И., Удовиченко Е.Т. Системное моделирование динамической меры качества объектов // Системные исследования проблем управления качеством и автоматизации процессов управления. М.: Изд-во стандартов, 2000. С. 201—214.
- Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976.
- Дюбуа Д., Прад А. Общий подход к определению индексов сравнения в теории нечетких множеств // Нечеткие множества: Теория возможностей / под ред. Ягера. М.: Мир, 1988. С. 9.
- Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации. Проблемы кибернетики. Вып. 33. М.: Наука, 1978.
- Келли Дж. Общая топология. М.: Наука, 1981. — 432 с.
- Колмогоров А.Н., Драгалин А.Г. Введение в математическую логику. М.: МГУ, 1982. — 120 с.
- Журид Б.А., Силов В.Б. Метод построения логико-лингвистических моделей интеллектуальных роботов // Изв. АН СССР: Техническая кибернетика. 1983. № 5. С. 188—193.
- Заде Л. Основы нового подхода к анализу сложных систем и процессов принятия решений // Математика сегодня. М.: Знание, 1974. С. 5—49.
- Маркус М., Минк X. Обзор по теории матриц и матричных неравенств. М.: 1 ка, 1972.
- Математические вопросы построения системы моделей. Новосибирск: Наука, Сибирское отделение, 1976.
- Мыльник В.В., Титаренко Б.П, Волочиенко В.А. Исследование систем управления. 2-е изд. М.: Академический Проект; Екатеринбург: Деловая книга, 2003. — 352 с.
- Норвич А.М., Турксен И.Б. Построение функций принадлежности // Нечеткие множества и теория возможностей. М.: Радио и связь, 1988. С. 64—71.
- Васильев К.К., Спектор А.А. Статистические методы обработки многомерных изображений // Методы обработки сигналов и полей. Ульяновск: УЛПИ, 1992. С. 3—19.
- Васюков В.Н. Квазиоптимальный алгоритм двумерной фильтрации // Методы статистической обработки изображений и полей. Новосибирск, 1984. С. 14—18.
- Васюков В.Н., Грузман И.С., Райфельд М.А., Спектор А.А. Новые подходы к решению задач обработки и распознавания изображений // Наукоемкие технологии. 2002. № 3. С. 44—51.
- Визильтер Ю.В., Лагутенков А.В. Автоматическое выделение и сопровождение малоразмерных объектов по признаку их движения на цифровых изображениях.
- Гай В.Е., Борблик С.Н. Формирование тестовых изображений для оценки качества алгоритмов сегментации // Цифровая обработка сигналов и ее применение: тр. 8 межд. науч.-техн. конф. М., 2006. Т. 2. С. 356—359.
- Герчес В.Г. Обнаружение сигналов на многозональном изображении: дис. канд. техн. наук. Ульяновск, 1992. — 143 с.
- Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. — 1072 с.
- Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, 1971. — 1108 с.
- Грузман И.С. Цифровая обработка изображений в информационных системах. Новосибирск: НГТУ, 2002. — 456 с.
- Даджион Д., Мерсеро Р. Цифровая обработка многомерных сигналов. М.: Мир, 1988. — 488 с.
- Желтов С.Ю., Сибиряков А.В. Выделение характерных черт на цифровых изображениях авиационной и космической съемки.
- Завалишин Н.В., Мучник И.Б. Модели зрительного восприятия и алгоритмы анализа изображений. М.: Наука, 1974. — 344 с.
- Злобин В.К., Еремеев В.В., Васильев В.М. Стохастическая модель спутниковых изображений и ее использование для сегментации природных объектов // Автометрия. 2001. № 2.
- Зуев В.Е. Распространение видимых и инфракрасных волн в атмосфере. М.: Советское радио, 1970. — 784 с.
- Ким Н.В. Наблюдение за объектами на основе ситуационно-информационного подхода.
- Киричук В.С., Парфененок С.В., Ангеров В.Ю. Обнаружение малоразмерных объектов по последовательностям ТВ-Изображений ИК диапазона // Распознавание образов и анализ сцен, тр.5 межд. науч.-техн. конф. М., 2002. Т. 1. С. 273—278.
- Книжников Ю.Ф., Кравцова В.И. Принцип множественности в современных аэрокосмических методах и способы дешифрирования серии снимков при сельскохозяйственных исследованиях // Аэрокосмические методы в почвоведении и их использование в сельском хозяйстве. М.: Наука, 1990. С. 47-54.
- Коростелев А.П. Стохастические рекуррентные процедуры (локальные свойства). М.: Наука, 1984. — 208 с.
- Кравченко В.Ф., Пономарев В.И. Нелинейная фильтрация изображений с сохранением малоразмерных деталей в присутствии импульсных и мультипликативных помех // Радиотехника и электроника. 2001. № 4. С. 476—483.
- Крамер Г. Математические методы статистики. М.: Мир, 1975. — 648 с.
- Ахметшин А.М., Федоренко А.Е. Применение теории марковских случайных полей для сегментации мультиспектральных изображений земной поверхности [Электронный ресурс]. URL: http://gis.nmu.org.ua/lit/doc2.doc
- Ахметшин А.М., Фенога Д.А. Отображение и анализ мультиспектральных изображений земной поверхности в базисе Грамма – Шмидта [Электронный ресурс]. URL: http://gis.nmu.org.ua/lit/doc1.doc
- Бакут П.А. Теория обнаружения сигналов. М.: Радио и связь, 1984. — 440 с.
- Бакут П.А., Колмогоров Г.С. Сегментация изображений: Методы выделения границ областей // Зарубежная радиоэлектроника. 1987. № 10. С. 16-23.
- Балакришнан А.В. Теория фильтрации Калмана: Пер. с англ. М.: Мир, 1988. — 168 с.
- Бейтмен Г., Эрдейи А. Таблицы интегральных преобразований. М.: Наука, 1989. Т. 1. — 343 с.
- Белов В.В. Обнаружение аномалий подстилающей поверхности земли в ансамбле космических снимков алгоритмами разладки для геоинформационных систем (ИОА СО РАН, Томск).
- Бендат Д., Пирсол А. Прикладной анализ случайных данных. М.: Мир, 1989. — 540 с.
- Богомолов Р.А., Крашенинников В.Р. Ковариационные функции авторегрессионных случайных полей // Методы обработки сигналов и полей: сб. научн. тр. Ульяновск: УЛПИ, 1990. С. 5—9.
- Бокс Д., Дженкинс Г. Анализ временных рядов / пер. с англ. под ред. В.Ф. Писаренко. М.: Мир, 1974. Кн. 1. — 406 с.
- Бондур В.Г., Аржененко Н.И., Линник В.Н., Титова И.Л. Моделирование многоспектральных аэрокосмических изображений динамических полей яркости // Исследование Земли из космоса. 2003. № 2. С. 3—17.
- Брокштейн И.М., Мерзляков С.Н., Попова Н.Р. Обнаружение и локализация малоразмерных объектов на неоднородном фоне // Цифровая оптика. Обработка изображений и полей в экспериментальных исследованиях.
- Бронников А.В., Воскобойников Ю.Б. Комбинированные алгоритмы нелинейной фильтрации зашумленных сигналов и изображений // Автометрия. 1990. № 1.
- Буряк Д.Ю., Визильтер Ю.В. Автоматизированное конструирование близких к оптимальным процедур идентификации и обнаружения объектов на изображении с использованием генетических алгоритмов.
- Крашенинников В.Р., Ташлинский А.Г. Адаптивный компенсатор коррелированных помех // Методы обработки сигналов и полей: сб. научн. тр. Ульяновск: УлПИ, 1992. С. 120—128.
- Кучеренко К.И., Очин Е.Ф. Двумерные медианные фильтры для обработки изображений // Зарубежная радиоэлектроника. 1986. № 6.
- Леман Э. Теория точечного оценивания. М.: Наука, 1991. — 448 с.
- Лепский А.Е. О нахождении минимального представления контура изображения как решение задачи нечеткой кластеризации [Электронный ресурс]. URL: http://semery.narod.ru/lampai/rus/public.html
- Марпл-мл С.Л. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. — 584 с.
- Миньсу Ш., Дайхун Ч. Алгоритм обнаружения объекта, основанный на графе смежности областей // ТИИЭР. 1984. № 7. С. 263—268.
- Монахов С.В., Савиных В.П., Цветков В.Я. Методология анализ и проектирования сложных информационных систем. М.: Просвещение, 2005. — 264 с.
- Мудров В.И., Кушко В.Л. Методы обработки измерений: Квазиправдоподобные оценки. М.: Радио и связь, 1983. — 304 с.
- Мурашов Д.М., Хилков А.В., Шамтиев И.А. Метавыделения фона на последовательностях изображений с использованием фильтра Калмана // Распознавание образов и анализ сцен, тр.5 межд. науч.-техн. конф. М., 2002. Т. 2. С. 389—393.
- Руспини Э.Т. Последние достижения в нечетком кластер-анализе // Нечеткие множества: Теория возможностей / под ред. Ягера. М.: Мир, 1998.
- Селекция и распознавание на основе локационной информации / А.Л. Горелик, Ю.Л. Барабаш, О.В. Кривошеев и др.; под ред. А.Л. Горелика. М.: Радио и связь, 1990.
- Современное состояние теории исследования операций / под ред. Н.Н. Моисеева. М.: Наука, 1979. — 464 с.
- Лукашевич М.М. Цифровая обработка изображений и распознавание образов : учебное пособие. Минск: БГУИР, 2023. — 72 с.
- Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (Статистические проблемы обучения). М.: Наука, 1974. — 416 с.
- Чабан Л.Н. Теория и алгоритмы распознавания образов. Учебное пособие. М.: МИИГАиК, 2004. — 70 с.
- Горячкин Б.С., Китов М.А. Компьютерное зрение // E-Scio. 2020. № 12 (51).
- Овезова Г.С. ИССЛЕДОВАНИЕ НОВЫХ МЕТОДОВ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ И ОБРАБОТКИ ИЗОБРАЖЕНИЙ // Universum: технические науки. 2023. № 10-4 (115).
- Савичева С.В. ПОСТРОЕНИЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ПЛОСКИХ ДЕТАЛЕЙ НА ИЗОБРАЖЕНИЯХ, ПОСТУПАЮЩИХ С ВИДЕОДАТЧИКА // Известия Тульского государственного университета. Технические науки. 2013. № 9.
- Арлазаров В.В. Распознавание образов. Проблемы и особенности 2D, 3D и 4D-систем распознавания документов, удостоверяющих личность // Труды ИСА РАН. 2019.
- Чабан Л.Н. Методы и алгоритмы распознавания образов в автоматизированном дешифрировании данных дистанционного зондирования : учебное пособие. М.: МИИГАиК, 2016. — 94 с.
- Горбунова А.В., Шмакова Я.В., Калугина О.Ф., Прохоров М.В., Бобров А.И. Использование методов компьютерного зрения и больших языковых моделей для проведения доклинических исследований // Актуальные исследования. 2023. № 30 (160).
- Савичева С.В. СИСТЕМА РАСПОЗНАВАНИЯ ОТДЕЛЬНЫХ И НАЛОЖЕННЫХ ПЛОСКИХ ОБЪЕКТОВ. Диссертация на соискание ученой степени кандидата технических наук. Тула, 2013.