Опыт разработки модели распознавания русской речи со сверхбольшим словарем

Содержание

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург

В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.

Введение

Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словарем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.

Выдержка из текста

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург

В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.

Введение

Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словарем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.

Список использованной литературы

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург

В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.

Введение

Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словарем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.

Похожие записи