Введение: Постановка проблемы и место TTS в современных речевых системах
Синтез речи (Text-to-Speech, TTS) представляет собой одну из наиболее впечатляющих и технически сложных задач в области компьютерной лингвистики и искусственного интеллекта. По своей сути, TTS — это технология преобразования письменного текста в устную речь, которая функционально является зеркальным отражением системы автоматического распознавания речи (ASR). Если ASR переводит акустический сигнал в текст, то TTS преобразует лингвистические символы в акустическую форму, моделируя при этом сложнейший процесс человеческого речепроизводства. В этом и заключается его фундаментальное значение: TTS является ключевым звеном, обеспечивающим коммуникацию между человеком и машиной.
Актуальность технологии TTS в современных условиях обусловлена ее критической ролью в обеспечении естественного взаимодействия человека с машиной. Голосовые помощники, интерактивные системы обслуживания клиентов и ассистивные технологии — все они зависят от качества и натуральности синтезированного голоса. Исторически, прорыв в этой области был намечен еще в 1939 году, когда Гомер Дадли из Bell Laboratories представил VODER (Voice Operation DemonstRator) — первое электрическое устройство, способное генерировать речь по правилам, заложив основу для всего будущего развития.
Настоящая работа ставит целью провести комплексное исследование технологий синтеза речи, начиная с их фундаментальных психолингвистических и акустических принципов, и заканчивая глубоким анализом прорывных нейросетевых архитектур. Структура работы соответствует академическим требованиям и включает анализ классических и современных моделей, оценку их качества с помощью метрик (MOS) и рассмотрение социально-экономической значимости.
Глава 1. Фундаментальные принципы и историческая эволюция технологий синтеза речи
Базовый конвейер синтеза: от текста к акустическому сигналу
Процесс синтеза речи, независимо от конкретной используемой технологии, традиционно строится как последовательность модулей, образующих так называемый конвейер. Этот конвейер имитирует этапы, которые проходит речь от замысла до артикуляции. Знание этой последовательности позволяет точно диагностировать, на каком этапе возникают «артефакты» синтеза.
Этапы конвейера TTS:
- Предобработка текста (Text Pre-processing): Включает нормализацию исходного текста. На этом этапе обрабатываются аббревиатуры, числа, символы (например, «1999» преобразуется в «тысяча девятьсот девяносто девять»), а также проводится анализ границ предложений и знаков препинания, что критически важно для дальнейшего просодического анализа.
- Лингвистический анализ: На этом этапе текст проходит морфологический и синтаксический разбор. Определяется часть речи слова, его роль в предложении, что позволяет правильно расставить ударения и определить паузы.
- Фонетическое транскрибирование (Grapheme-to-Phoneme, G2P): Сердце лингвистического модуля. Текст преобразуется в последовательность фонем (минимальных смыслоразличительных звуковых единиц языка). Для языков с нерегулярным чтением (как английский) этот этап сложен и требует обширных словарей исключений или статистических моделей.
- Просодический анализ: На основе синтаксической и семантической структуры предложения формируется просодическая модель, включающая данные об интонации, длительности фонем и паузах, что придает речи естественность и выразительность.
- Генерация акустического сигнала: Финальный этап, где фонемная и просодическая информация преобразуется в реальную звуковую волну с использованием различных акустических моделей (вокодеров, генеративных сетей).
Эволюция TTS: от формантного синтеза до статистических моделей
История развития TTS — это непрерывная гонка за натуральностью и качеством звучания, которая традиционно делится на четыре ключевых этапа, разграниченных прорывами в базовых технологиях.
| Эпоха (Примерные Годы) | Ключевая Технология | Принцип Работы | Типичная MOS-оценка |
|---|---|---|---|
| 1970–1990 | Формантный синтез | Синтез по правилам, моделирование речевого тракта (Source-Filter Model). | Ниже 3.0 (Роботизированное) |
| 1990–2010 | Конкатенативный синтез (Unit Selection) | Соединение записанных фрагментов речи из большой базы данных. | 3.7–4.1 (Естественно, но со «швами») |
| 2010–2020 | Параметрический синтез (HMM, DNN) | Статистическое моделирование акустических параметров (мел-спектрограммы). | 4.0–4.3 (Гладко, но монотонно) |
| С 2020 г. | Нейросетевой синтез (DL-based TTS) | End-to-End генерация с использованием Seq2Seq и генеративных вокодеров (WaveNet, VITS). | 4.4–4.5+ (Неотличимо от человека) |
Истоки современного синтеза речи лежат в формантном синтезе. Этот метод, получивший развитие в 1970-х годах, опирался на прямую имитацию речевого аппарата человека через управление частотами и амплитудами формант — резонансных пиков в спектре звука. Хотя этот метод был гибок, позволяя генерировать речь для любого текста, его звучание было крайне роботизированным и синтетическим, с MOS-оценками, как правило, ниже 3.0.
Прорыв наступил с появлением конкатенативного синтеза (Unit Selection). Вместо моделирования физики речи, этот подход использовал «конструктор»: из огромной базы данных, содержащей десятки или сотни часов записанной профессиональной речи, выбирались и склеивались наилучшим образом подходящие акустические единицы (дифоны, слоги). Лучшие конкатенативные системы смогли поднять MOS до 3.7–4.1, однако их главный недостаток — неестественность на стыках и требование к колоссальному объему данных для базы речевых единиц. Именно эта проблема, связанная с дискретностью звуковых единиц, в конечном итоге и подтолкнула к переходу на непрерывные статистические модели.
Следующим этапом стало внедрение параметрического синтеза, основанного на статистических моделях. Пик этого направления пришелся на период, когда доминирующим подходом (примерно с 2007 года) стал Синтез на основе скрытых Марковских моделей (HMM). HMM моделировали зависимость акустических параметров от лингвистического контекста, что позволило сгладить неестественные переходы, характерные для конкатенативного метода.
Глава 2. Классические архитектуры: Акустические модели и их ограничения
Классические методы синтеза речи, несмотря на их вытеснение нейросетями, заложили фундаментальные акустические основы, без понимания которых невозможно осмыслить современные достижения.
Модель Источника-Фильтра как акустическая основа
Фундаментальным акустическим принципом, лежащим в основе большинства классических (и многих современных) параметрических систем синтеза, является модель Источника-Фильтра (Source-Filter Model). Эта модель была формализована шведским ученым Гуннаром Фантом в 1960-х годах в его новаторской работе «Акустическая теория речепроизводства».
Модель утверждает, что речевой сигнал $S(f)$ можно представить как свертку двух независимых компонентов в частотной области:
S(f) = E(f) ⋅ T(f)
Где:
- $E(f)$ (Источник возбуждения) — это сигнал, генерируемый голосовыми связками. Для гласных звуков это периодический тон (источник — пульсация голосовых связок), для согласных — белый шум (источник — трение или взрывной звук).
- $T(f)$ (Передаточная функция, Фильтр) — это характеристика, формируемая речевым трактом (гортанью, полостью рта и носа). Именно фильтр определяет конкретный гласный или согласный звук, выделяя форманты.
В рамках этой модели, синтез речи сводится к независимому управлению этими двумя компонентами: выбору типа возбуждения и изменению параметров фильтра, чтобы имитировать артикуляцию.
Формантный синтез по правилам (Synthesis by Rule)
Формантный синтез, который доминировал до 1990-х годов, является прямым применением модели Источника-Фильтра. Это был метод, основанный на жестких лингвистических правилах.
Принцип работы:
- Лингвистический модуль преобразовывал текст в последовательность акустических параметров.
- Синтезатор (вокодер) генерировал акустический сигнал, управляя четырьмя основными переменными: частотой основного тона (F0, или высота голоса), длительностью звуков и частотами и амплитудами первых четырех формант (F1, F2, F3, F4).
Ограничения:
Главный недостаток заключался в невероятной сложности написания правил, которые могли бы адекватно описать все контекстные изменения в человеческой речи. Небольшие ошибки в правилах или неточное моделирование переходных процессов между фонемами приводили к появлению «швов» и придавали речи неестественный, «металлический» или роботизированный характер. Из-за этого формантный синтез остался в истории как метод с низкой натуральностью, неспособный к выразительности.
Конкатенативный синтез (Unit Selection)
Конкатенативный синтез, возникший как ответ на роботизированность формантных систем, предложил принципиально иной подход — использование естественных звуков.
Принцип работы:
Вместо математического моделирования звука, система хранила обширную базу данных записанных речевых фрагментов (от дифонов до целых слогов), произнесенных одним диктором. Для генерации нового предложения, система искала в базе последовательность единиц, которая наилучшим образом соответствовала бы целевому тексту и, что самое важное, имела бы наилучшее акустическое соответствие на стыках с соседними единицами.
Требования и ограничения:
- Объем данных: Для создания коммерчески конкурентной системы, способной генерировать речь с приемлемой просодией и без резких перепадов на стыках, требуется профессионально записанный датасет объемом от десятков до более чем 100 часов речи.
- Проблема стыков: Несмотря на сложные алгоритмы поиска лучшей единицы (например, с помощью алгоритма Витерби), идеального совпадения акустических характеристик на стыках добиться было почти невозможно, что и создавало слышимые «швы» в речи.
- Негибкость: Система могла генерировать только тот голос, который был записан. Изменение тембра, высоты или добавление эмоционального окраса было крайне сложным или невозможным без перезаписи всей базы.
Именно требование к огромному объему исходных записей и неизбежность акустических «швов» на стыках стали непреодолимыми препятствиями для масштабирования конкатенативных систем в массовых продуктах.
Глава 3. Прорывные нейросетевые архитектуры (DL-based TTS) и их превосходство в натуральности
Революция в синтезе речи произошла с внедрением технологий глубокого обучения (Deep Learning, DL). Нейросетевой синтез (Neural TTS) смог преодолеть фундаментальные ограничения классических методов, подняв качество речи до уровня, практически неотличимого от человеческого.
Архитектуры Seq2Seq с нейросетевым вокодером (Tacotron 2 и WaveNet)
Первые прорывные нейросетевые системы были построены по двухэтапной модели, где основная работа делилась между акустической моделью и вокодером.
1. Акустическая модель (например, Tacotron 2):
Tacotron 2 (представленная Google в 2017 году) — это архитектура типа sequence-to-sequence (Seq2Seq). Она берет на вход последовательность символов (текст) и преобразует ее в промежуточное акустическое представление — обычно мел-спектрограмму.
- Кодировщик (Encoder): Обрабатывает текст, извлекая лингвистические особенности.
- Декодировщик (Decoder): С помощью механизма внимания (Attention Mechanism) генерирует последовательность кадров мел-спектрограммы, что позволяет динамически учитывать контекст при генерации звука.
- Ключевое преимущество: Механизм внимания позволяет модели самостоятельно, без жестких лингвистических правил, определять правильную просодию и длительность звуков, основываясь на статистике больших данных.
2. Нейросетевой Вокодер (например, WaveNet):
Мел-спектрограмма — это лишь «чертеж» звука. Для превращения его в конечный, высококачественный аудиосигнал необходим вокодер. WaveNet (DeepMind, 2016) стал прорывом. Это генеративная модель на основе сверточных нейронных сетей (CNN), которая генерирует аудиосигнал по сэмплам, используя каузальные свертки и дилатацию. Разве не удивительно, что всего за несколько лет мы перешли от склейки записанных фрагментов к генерации каждого отдельного сэмпла звуковой волны?
Прорыв в качестве:
Сочетание Tacotron 2 и WaveNet дало беспрецедентный скачок в натуральности. Впервые качество, неотличимое от человеческого, было зафиксировано в исследовании Tacotron 2 (2017).
| Тип Речи | MOS-оценка (Mean Opinion Score) |
|---|---|
| Живая (профессионально записанная) речь | 4.58 |
| Tacotron 2 + WaveNet | 4.53 |
| Лучший конкатенативный синтез | 4.10 |
Достижение MOS 4.53, которое практически сравнялось с оценкой живой речи (4.58), ознаменовало собой завершение «эпохи роботов» в синтезе речи.
Современные End-to-End модели (VITS)
Хотя двухэтапные системы обеспечили высокое качество, они были медленными и сложными в обучении, так как требовали отдельной тренировки акустической модели и вокодера. Современные исследования сосредоточены на End-to-End (сквозных) моделях.
VITS (Variational Inference Text-to-Speech) — это одна из самых значимых современных архитектур, представленная в 2021 году Кимом, Конгом и Юном.
Ключевые особенности VITS:
- Единая архитектура: VITS объединяет G2P-модель, акустическую модель и вокодер в единую, параллельно обучаемую нейросеть, что значительно ускоряет как обучение, так и инференс (генерацию).
- Вариационный вывод (Variational Inference): Использование вариационных автокодировщиков позволяет модели лучше захватывать и моделировать скрытые переменные, отвечающие за тонкие просодические особенности, которые делают речь выразительной.
- Состязательное обучение (Adversarial Learning): VITS использует дискриминатор (подобно GAN), который пытается отличить синтезированную речь от настоящей. Это заставляет генератор создавать максимально реалистичные звуковые волны, устраняя «артефакты», характерные для ранних нейросетевых вокодеров.
VITS и его аналоги являются сегодня стандартом в индустрии, обеспечивая не только сверхреалистичное звучание, но и необходимую скорость для работы в реальном времени.
Глава 4. Психолингвистические основы и основные нерешенные проблемы TTS
Синтез речи — это не только техническая задача, но и лингвистическая, которая опирается на психолингвистические теории, изучающие механизмы порождения и восприятия речи.
Влияние теорий Выготского и Хомского на архитектуру TTS
Психолингвистика, в частности, работы отечественных и зарубежных классиков, оказала существенное влияние на модульный дизайн ранних систем синтеза.
Л.С. Выготский и модульность систем
Идеи Л.С. Выготского о структуре речевой деятельности и разграничении грамматической и психологической предикативности во внутренней речи сформировали представление о том, что процесс речепорождения — это не монолитный акт, а последовательность преобразований от замысла (семантики) к внешней речи (акустике). Выготский подчеркивал эвристичность процессов речепорождения — творческий, контекстно-зависимый характер выбора слов и структуры. Это легло в основу модульного дизайна ранних TTS-систем, где сначала происходит сложный лингвистический анализ (моделирование внутренней речи и грамматической структуры), а затем — акустическая реализация. Такой дизайн позволял инженерам и лингвистам работать с четко определенными этапами: текст → лингвистическая структура → фонетика → акустика.
Н. Хомский и лингвистический анализатор
В 1950–1960-х годах, когда только зарождались первые системы синтеза по правилам, огромное влияние оказала трансформационная грамматика Н. Хомского. Идея о том, что поверхностные структуры языка генерируются из глубоких (синтаксических) структур с помощью трансформационных правил, вдохновила исследователей на создание систем, способных «автоматически» получать грамматически корректные конструкции и правильно их фонетически оформлять. Это влияние особенно заметно в разработке лингвистического анализатора в крупных исследовательских проектах 1970-х годов, таких как система **MITalk**. Эти системы стремились создать полный синтез речи по правилам, где глубокий синтаксический анализ использовался для правильной расстановки просодических границ и ударений, что стало краеугольным камнем для всех последующих поколений rule-based TTS.
Проблема просодии и эмоционального окраса
Несмотря на прорывы нейросетей, которые приблизили синтезированную речь к идеалу натуральности (MOS 4.5+), до сих пор остаются критически важные нерешенные проблемы, прежде всего связанные с просодией и эмоциональным окрасом. Почему же даже самая продвинутая нейросеть порой не может передать тончайшие оттенки человеческого разговора?
- Проблема контекстной просодии: Просодия включает интонацию, ритм и ударения. В естественной речи просодия зависит не только от синтаксиса, но и от семантического контекста (смысла) и коммуникативного намерения говорящего. Современные нейросети, хотя и обучаются на контексте, все еще испытывают сложности с генерацией идеально контекстно-зависимой просодии. Например, правильное ударение в омографах (слова, пишущиеся одинаково, но имеющие разное значение и произношение, как русское «за́мок» и «замо́к») требует глубокого семантического понимания, которое сложно полностью смоделировать статистическими методами.
- Эмоциональный окрас и выразительность: Передача тонких эмоциональных оттенков, таких как ирония, сомнение или усталость, остается сложной задачей. Хотя существуют модели, способные генерировать речь в заданном «стиле» (например, «радостный» или «грустный»), переход между эмоциями и реалистичное моделирование их тонких градаций в длинном диалоге пока недоступны.
Эти проблемы коренятся в том, что для их решения требуется не только воспроизведение звука, но и моделирование когнитивных процессов человека — того самого психологического аспекта речепорождения, о котором говорил Выготский. Речь идет о необходимости моделирования не просто лингвистической структуры, а *намерения*.
Глава 5. Социально-экономическая значимость и области практического применения
Технологии синтеза речи вышли за рамки чисто академических исследований и стали мощным инструментом, имеющим высокую социально-экономическую значимость, особенно в сферах автоматизации, инклюзии и образования.
Экономический эффект и использование в бизнесе
Внедрение TTS критически важно для оптимизации бизнес-процессов, в первую очередь в области клиентского обслуживания. Использование голосовых ботов на основе высококачественного синтеза речи позволяет:
- Снизить операционные расходы: Автоматизация типовых запросов, ранее обрабатываемых живыми операторами, ведет к прямой экономии на фонде оплаты труда.
- Повысить доступность: Голосовые помощники работают 24/7, обеспечивая мгновенный ответ на запрос.
Экономический эффект от внедрения TTS в государственные и коммерческие сервисы в России демонстрирует значительный рост. Например, в Санкт-Петербурге технологии TTS активно используются в виртуальных контактных центрах. Согласно актуальным данным, экономический эффект от внедрения таких голосовых помощников и виртуальных центров превысил 9 миллионов рублей только за II и III кварталы 2025 года. Это показывает, что TTS является не просто удобством, а высокоэффективным инструментом для масштабирования сервисов, приносящим измеримую финансовую выгоду.
Роль TTS в ассистивных и образовательных технологиях
Одной из самых благородных и социально значимых областей применения TTS являются ассистивные технологии.
- Инклюзивные решения: Для людей с нарушениями зрения TTS является ключевым элементом, обеспечивающим доступ к цифровой информации. Экранные читалки (скринридеры) используют высококачественные голоса, предоставляемые ведущими разработчиками (например, Алиса от Яндекса, SaluteSpeech от Сбера), для озвучивания веб-страниц, документов и интерфейсов. Высокое качество нейросетевого синтеза значительно снижает когнитивную нагрузку и улучшает восприятие информации.
- Образовательные платформы: В образовании TTS используется для создания интерактивного и персонализированного опыта. Приложения для изучения языков (например, Duolingo) применяют синтезированную речь для моделирования диалогов и предоставления эталонного произношения. Это позволяет студентам практиковаться в режиме реального времени, получая точную и стабильную обратную связь по произношению, что было невозможно с использованием только заранее записанных аудиофайлов.
- Создание контента: TTS революционизировал производство аудиокниг, подкастов и озвучивания видео, позволяя создавать контент быстрее и дешевле, чем при найме профессиональных дикторов.
Заключение
Технологии синтеза речи прошли долгий путь от механических устройств и жестких правил формантного синтеза до сверхреалистичных генеративных нейросетевых моделей.
Наше исследование показало:
- Фундаментальные основы: Базовый конвейер TTS, включающий лингвистический и просодический анализ, остается актуальным, хотя его реализация перешла от ручных правил к статистическим и нейросетевым моделям. Акустическим фундаментом по-прежнему служит модель Источника-Фильтра, хотя DL-модели научились ее обходить, генерируя сигнал напрямую.
- Эволюция архитектур: Классические методы (формантный и конкатенативный) столкнулись с непреодолимым барьером натуральности, что подтверждается низкими MOS-оценками (ниже 4.1).
- Прорыв DL: Нейросетевой синтез (Tacotron 2, WaveNet) совершил революцию, достигнув качества MOS 4.53, что практически неотличимо от человеческой речи, благодаря сквозному обучению и механизму внимания. Современные end-to-end модели, такие как VITS (2021), используют вариационный вывод и состязательное обучение для повышения реализма и скорости генерации.
- Академический контекст: Разработка TTS исторически опиралась на психолингвистические теории: идеи Выготского легли в основу модульности систем, а трансформационная грамматика Хомского повлияла на построение лингвистических анализаторов.
- Перспективы и проблемы: Главными нерешенными задачами остаются адекватное моделирование просодии и эмоциональной окраски в зависимости от глубокого контекста.
Технологии синтеза речи имеют критическую социально-экономическую значимость, обеспечивая миллионы рублей экономии в бизнесе (например, в контактных центрах Санкт-Петербурга) и являясь ключевым элементом ассистивных и образовательных систем.
Перспективы развития TTS сосредоточены на создании по-настоящему эмоционально отзывчивых голосов, способных не только воспроизводить заданный стиль, но и понимать эмоциональный подтекст диалога, а также на разработке персонализированных моделей, способных имитировать голос человека по минимальному объему аудиоданных.
Список использованной литературы
- Азнаурова Э.С. Прагматика текстов различных функциональных стилей // Общественно-политический и научный текст как предмет обучения иностранным языкам. М.: Наука, 1987. С. 3–20.
- Актуальные проблемы прагмалингвистики. Воронеж : Изд-во Воронежского ун-та, 1996. 90 с.
- Апресян В. Ю. Речевые стратегии выражения эмоций в русском языке // Рус. яз. в науч. освещении. 2010. № 2 (20).
- Баранов А. Н. Введение в прикладную лингвистику : учеб. пос. М. : Эдиториал УРСС, 2001. 360 с.
- Валгина Н. С. Теория текста. М. : Логос, 2004. 280 с.
- Валеева Н. Г. Жанрово-стилистическая характеристика научных текстов. Введение в переводоведении. М.: Изд-во РУДН, 2006. URL: www.trpub.ru/valeeva-has-text/html (дата обращения: 30.10.2025).
- Вежбицкая А. Семантические универсалии и описание языков. М.: Языки русской культуры, 1999. 780 с.
- Выготский Л.С. Избранные психологические исследования. М., 1956.
- Выготский Л.С. Мышление и речь // Собр. соч. М., 1982. Т. 2. С. 46–48.
- Карасик В. И. Языковой круг: личность, концепты, дискурс: монография. М. : Гнозис, 2004.
- Краткий словарь когнитивных терминов / Под общ. ред. Е.С. Кубряковой. М.: Филологический факультет МГУ им. М.В. Ломоносова, 1996. 245 с.
- Леонтьев Д.А. Психология смысла: природа, строение, и динамика смысловой реальности. М.: Смысл, 2003.
- Лобанов Б. М. Компьютерное “клонирование” персонального голоса и речи // Новости искусственного интеллекта. 2002. №5(55). С. 35–39.
- Лобанов Б.М. Синтез речи по тексту // Четвёртая Международная летняя школа-семинар по искусственному интеллекту: сб. науч. тр. Мн.: БГУ, 2000. С. 57–76.
- Лобанов Б.М., Давыдов А.Г., Киселёв В.В., Цирульник Л.И. Система сегментации речевого сигнала методом анализа через синтез // Известия Белорусской инженерной академии. 2004. №1/1. С.112–115.
- Маслова, В. А. Когнитивная лингвистика: учебное пособие. Минск: Тетра Системс, 2005. 256 с.
- Маслова В.А. Введение в когнитивную лингвистику. М.: Наука, 2004. 296 с.
- Меркулов И.П. Когнитивная эволюция. М., 1999. 310 с.
- Москвин В. П. Тропы и фигуры: параметры общей и частных классификаций // Филологические науки. 2002. № 4. С. 75–85.
- Обзор технологий синтеза речи. URL: https://habr.com/ru/articles/475472/ (дата обращения: 30.10.2025).
- Паршин, П. Б. Речевое воздействие: основные формы и разновидности // Рекламный текст: семиотика и лингвистика. М.: Издат. Дом Гребенникова, 2000.
- Персональный сайт — Леонтьев. Основы психолингвистики, продолжение (часть 3). URL: https://leontiev.narod.ru/Hrestomatiya/osnovy_psyholing_3.html (дата обращения: 30.10.2025).
- Попова З. Д., Стернин И. А. Семантико-когнитивный анализ языка: Воронеж : Истоки, 2006. 226 с.
- Психолингвистические основы развития речи ребенка. URL: https://defectologiya.pro/logopediya/psiholingvisticheskie-osnovy-razvitiya-rechi-rebenka/ (дата обращения: 30.10.2025).
- Распознавание и синтез речи: что это и как работает. URL: https://mts.ru/blog/ai/raspoznavanie-i-sintez-rechi-chto-eto-i-kak-rabotaet (дата обращения: 30.10.2025).
- Роль человеческого фактора в языке: Язык и картина мира. М.: Наука, 2008.
- Романова И.А. Основные направления исследования самопонимания в зарубежной психологии // Психологический журнал. 2001. № 1.
- Синтез речи: что это и как работает. URL: https://sky.pro/media/sintez-rechi-chto-eto-i-kak-rabotaet/ (дата обращения: 30.10.2025).
- Солсо Р. Когнитивная психология. М., 1995. Спб. Питер, 2011. 589 с.
- Способ анализа и синтеза речи и устройство для его осуществления: пат. SU1316030A1. URL: https://patents.google.com/patent/SU1316030A1/ru (дата обращения: 30.10.2025).
- Технология синтеза речи: будущее голоса: изучение бизнес-потенциала технологии синтеза речи. URL: https://fastercapital.com/ru/content/tekhnologiya-sinteza-rechi-budushchee-golosa-izuchenie-biznes-potentsiala-tekhnologii-sinteza-rechi.html (дата обращения: 30.10.2025).
- Технология синтеза речи: от формантного синтеза до нейросетевых TTS. URL: https://sky.pro/media/tehnologiya-sinteza-rechi-ot-formantnogo-sinteza-do-neyrosetevyh-tts/ (дата обращения: 30.10.2025).
- Уфимцева Н.В. Русские: опыт ещё одного самопознания // Этнокультурная специфика языкового сознания. М.: РАН. Ин-т языкознания, 2006.
- Хомский Н. Синтаксические структуры. М., 1957.
- Цирульник Л.И., Лобанов Б.М. Правила разметки речевого корпуса на фонетические сегменты и стратегия выбора элементов компиляции при синтезе речи // “Компьютерная лингвистика и интеллектуальные технологии”: труды междунар. конф. Диалог’2007. М.: 2007. 26.
- Что такое технология TTS: как устроен и используется синтез речи. URL: https://skillfactory.ru/media/chto-takoe-tehnologiya-tts-kak-ustroen-i-ispolzuetsya-sintez-rechi (дата обращения: 30.10.2025).