Глубокий академический анализ уровней параллелизма в вычислительных системах: от бита до задач, Программирование

В мире, где объем данных растет экспоненциально, а сложность вычислительных задач достигает беспрецедентных масштабов, потребность в высокопроизводительных вычислительных системах становится критически важной. Долгое время двигателем прогресса в этой области служило увеличение тактовой частоты процессоров, однако к началу 2000-х годов этот путь столкнулся с фундаментальными физическими ограничениями. Проблемы, связанные с чрезмерным тепловыделением (которое может быть пропорционально кубу тактовой частоты) и пределами миниатюризации транзисторов, вынудили индустрию переориентироваться. Именно в этот момент параллельные вычисления стали не просто одним из направлений, а доминирующей парадигмой в архитектуре компьютеров.

Цель данного реферата — предоставить глубокий академический анализ различных уровней параллелизма: битового, инструкционного (ILP), данных (DLP) и задач (TLP). Мы проследим их историческую эволюцию, подробно разберем механизмы реализации, сферы применения и архитектурные особенности, а также рассмотрим взаимосвязи между ними. В заключение будут проанализированы современные тенденции и будущие перспективы развития, что позволит сформировать комплексное представление о параллельных вычислительных системах и их роли в современной информатике.

Исторические предпосылки и эволюция концепции параллелизма

Путь к современным многоядерным архитектурам был долгим и извилистым, начавшись задолго до появления первых электронных компьютеров. Понимание того, что разделение труда может ускорить выполнение сложных задач, является краеугольным камнем идеи параллелизма, проложившим дорогу к революционным изменениям в вычислительной технике.

Зарождение идей параллелизма: от человеческих вычислителей до первых концепций

Истоки концепции параллельных вычислений уходят корнями в конец XVIII века, когда французский математик Гаспар де Прони столкнулся с колоссальной задачей по уточнению логарифмических и тригонометрических таблиц. Он разработал систему, в которой сложные вычисления разбивались на множество простых операций, выполняемых параллельно «людьми-вычислителями». Это был один из первых примеров макропараллелизма, реализованного человеческими ресурсами. Спустя десятилетия, Чарльз Бэббидж, создатель аналитической машины, также отмечал возможность совмещения длинных серий идентичных операций, предвидя потенциал параллельной обработки.

В середине XX века, уже в эпоху электронных вычислительных машин, академик С. А. Лебедев в 1957 году сформулировал принципы совмещения операций, заложив теоретическую основу для создания многомашинных и многопроцессорных систем. Эти идеи стали важнейшим шагом к осознанию потенциала параллельной архитектуры в машинном исполнении, демонстрируя, что абстрактные концепции могут быть воплощены в конкретных технических решениях.

Концепция клеточных автоматов фон Неймана как универсальная модель

Одним из наиболее фундаментальных вкладов в теорию параллельных вычислений стала концепция клеточных автоматов, разработанная Джоном фон Нейманом в конце 1940-х годов при содействии Станислава Улама. Хотя работа «Клеточные автоматы» была опубликована лишь в 1965 году, она заложила основу для универсальной модели параллельных вычислений.

Клеточный автомат — это дискретная модель, состоящая из регулярной решетки «клеток», каждая из которых находится в одном из конечного числа состояний. Состояние каждой клетки в следующий момент времени определяется состоянием самой клетки и состоянием ее соседей в текущий момент времени. Все клетки обновляются синхронно.

Эта простая, но мощная концепция позволила моделировать сложные системы, демонстрирующие самоорганизацию, самовоспроизведение и параллельную обработку информации. Фон Нейман использовал клеточные автоматы для исследования логики самовоспроизведения, но их универсальность сделала их применимыми для изучения широкого спектра параллельных явлений, от физических систем до алгоритмов обработки данных. По сути, каждый отдельный автомат работает параллельно с остальными, обмениваясь информацией с непосредственными соседями, что является квинтэссенцией идеи распределенных параллельных вычислений, позволяя моделировать сложные взаимодействия без централизованного управления.

Ранние многопроцессорные и специализированные вычислительные системы

Инженерная мысль, вдохновленная теоретическими изысканиями, быстро перешла к практической реализации. Экспериментальные разработки многопроцессорных систем начались задолго до массового распространения. Уже в 1954 году были связаны машины SEAC и DYSEAC, став одним из первых опытов по объединению вычислительных устройств. В 1958 году система резервирования билетов для американских авиалиний SABRE использовала связку двух машин IBM-7090, демонстрируя практическую ценность параллелизма для критически важных приложений. В начале 1960-х годов для научных исследований был создан многомашинный комплекс DCS (Direct Coupled System) на основе машин IBM-704X и IBM-709X, что подчеркивает растущий интерес к использованию множества процессоров для ускорения сложных научных задач.

Одной из первых крупномасштабных многопроцессорных систем, ставшей вехой в развитии параллельных вычислений, была ILLIAC IV. Разработка этой машины в Иллинойском университете началась в 1965 году, а ее первый проект был завершен в 1966 году. Первый квадрант с 64 процессорными элементами был собран в 1972 году и доставлен в Исследовательский центр NASA Ames. После трех лет доработок, в ноябре 1975 года, ILLIAC IV была подключена к сети ARPANET, став первым сетевым суперкомпьютером. Система включала 64 процессорных элемента, работающих по единой программе, применяемой к содержимому собственной оперативной памяти каждого ПЭ. Пиковая производительность ILLIAC IV достигала 50 МФЛОПС (миллионов операций с плавающей запятой в секунду), что по тем временам было выдающимся показателем. Этот проект продемонстрировал огромный потенциал параллелизма данных и стал предвестником современных векторных и графических процессоров, заложив основы для будущих поколений высокопроизводительных систем.

Позднее, в последней четверти XX века, появились такие машины, как CRAY-I (1976), STAR-100 и STARAN, которые также были ориентированы на параллельные вычисления, в частности на векторную обработку данных, что значительно продвинуло сферу высокопроизводительных вычислений.

Развитие параллельных архитектур в СССР: ЭВМ ЕС-2701 В. М. Глушкова

В Советском Союзе также велись активные исследования в области параллельных вычислений. В 1978 году академик В. М. Глушков работал над проблемой макроконвейерных, распределённых вычислений и предложил принципы распределения работы между процессорами, на базе которых была разработана ЭВМ ЕС-2701. Эта система, разработанная Институтом кибернетики АН Украины, представляла собой многопроцессорный вычислительный комплекс с макроконвейерной нефоннеймановской архитектурой.

ЕС-2701 планировалась к выпуску с 64, 128 или 256 процессорами, где производительность одного арифметического процессора составляла около 0.5 млн операций в секунду. Архитектура ЕС-2701 была революционной для своего времени, предусматривая глубокий параллелизм на уровне задач и данных. Однако, к сожалению, из-за социально-политического кризиса в СССР серийный выпуск этой перспективной машины так и не состоялся, что лишило советскую науку и промышленность мощного инструмента для будущего развития, демонстрируя, как внешние факторы могут повлиять на судьбу передовых технологических проектов. Тем не менее, концептуальные идеи, заложенные в ЕС-2701, остаются актуальными и сегодня.

От появления многопроцессорных систем с программируемой архитектурой до массовой многоядерности

Концепция многопроцессорных вычислительных систем с программируемой архитектурой, способных динамически адаптироваться под различные задачи, была разработана в начале 1980-х годов. Однако реальные образцы таких систем появились только в конце 1990-х годов. Основной причиной задержки стало отсутствие соответствующей элементной базы. Прорыв произошел, когда в СКБ «Белмикросистем» НПО «Интеграл» (г. Минск) в 1992–1994 годах был создан макропроцессорный комплект СБИС. На основе этой элементной базы в 1996 году был разработан базовый модуль универсальной многопроцессорной вычислительной системы (МВС) с программируемой архитектурой, включавший 32 элементарных процессора на одной плате.

В этот же период, в последней четверти XX века, НИИ многопроцессорных вычислительных систем Таганрогского государственного радиотехнического университета (ТРТУ) под руководством академика РАН А.В. Каляева разработал концепцию модульно-наращиваемой многопроцессорной вычислительной системы с двухуровневой программируемой архитектурой. Эти системы демонстрировали реальную производительность от 50% до 90% от пиковой на широком круге задач. Например, система на базе 4 базовых модулей достигала производительности 200 ГФЛОПС в объеме всего 40 дм³. Такие достижения подчеркивали потенциал гибких, масштабируемых параллельных архитектур.

Однако подлинный прорыв и массовое распространение параллелизма произошло благодаря изменению архитектуры индивидуальных процессоров. Параллельные вычисления стали доминирующей парадигмой, в основном в форме многоядерных процессоров (multicore), из-за непреодолимых физических ограничений на рост тактовой частоты. Какие же фундаментальные барьеры сделали этот переход неизбежным?

Основные физические ограничения включают:

Рост тепловыделения: Тепловыделение процессора (Q) пропорционально квадрату напряжения (U) и тактовой частоте (f), то есть Q ~ U²f. Однако для повышения частоты обычно требуется увеличение напряжения, что приводит к тому, что тепловыделение становится примерно пропорциональным кубу частоты (Q ~ f³). Удвоение частоты могло бы привести к восьмикратному увеличению тепловыделения, что требует значительно более сложных и дорогих систем охлаждения. Преодоление этого барьера стало практически невозможным без кардинальных изменений.
Физические пределы миниатюризации: Дальнейшее уменьшение размеров структурных элементов транзисторов ограничено физическими свойствами кремния (несколько нанометров). Каждый новый технологический процесс становится экспоненциально сложнее и дороже. Кроме того, миниатюризация приводит к увеличению токов утечки, что дополнительно повышает тепловыделение, даже когда транзистор находится в неактивном состоянии.

Эти фундаментальные ограничения вынудили разработчиков процессоров искать альтернативные пути повышения производительности, и таким путем стало увеличение числа вычислительных ядер на одном кристалле, что привело к массовому распространению многоядерных процессоров и утвердило параллелизм как основную стратегию развития вычислительных систем.

Битовый параллелизм: фундаментальный уровень повышения производительности

Битовый параллелизм является исторически первым и наиболее фундаментальным уровнем параллельных вычислений, который способствовал значительному росту производительности на заре компьютерной эры. Его сущность кроется в простом, но мощном принципе: увеличение ширины данных, которые процессор может обрабатывать за одну операцию.

Сущность и историческая эволюция битового параллелизма

Битовый параллелизм — это вид параллельных вычислений, основанный на увеличении размера машинного слова, то есть количества бит, которые процессор может обрабатывать за один такт. Если процессор способен работать с 16-битными числами за один такт, в то время как более ранняя архитектура обрабатывала только 8-битные, это означает, что он демонстрирует битовый параллелизм, выполняя вдвое больше работы за то же время для определенных операций.

С появлением первых микропроцессоров в начале 1970-х годов, увеличение размера машинного слова стало основным и наиболее очевидным направлением прогресса при разработке новых моделей. Эта эволюция происходила последовательно, становясь драйвером роста вычислительной мощности:

1971 год: Появился первый 4-битный микропроцессор Intel 4004, способный обрабатывать 4 бита данных за одну инструкцию.
1974 год: Вышел 8-битный Intel 8080, удвоив ширину обрабатываемых данных.
1976 год: Представлен 16-битный Intel 8086, который стал основой для архитектуры x86.
1985 год: Дебютировал 32-битный Intel 80386, установивший новый стандарт для персональных компьютеров.

Каждое такое удвоение размера машинного слова приводило к существенному снижению количества инструкций, необходимых для обработки данных, длина которых превышала размер прежнего машинного слова. Это был прямой путь к повышению эффективности, позволяя выполнять задачи быстрее и с меньшими накладными расходами.

Преимущества и ограничения битового параллелизма

Преимущества битового параллелизма очевидны и легко иллюстрируются. Рассмотрим, например, операцию сложения двух 16-битных чисел:

На 8-битном процессоре для выполнения этой операции потребуется несколько инструкций: сначала сложить младшие 8 бит, затем, возможно, учесть перенос и сложить старшие 8 бит. Это займет, как минимум, три инструкции (сложение младших частей, сложение старших частей с учетом переноса, сохранение результата).
На 16-битном процессоре эта же операция выполняется за одну инструкцию, значительно сокращая время выполнения и повышая производительность.

Таблица 1: Сравнение выполнения операции сложения на 8-битном и 16-битном процессорах

Процессор	Размер машинного слова	Операция	Количество инструкций
8-битный	8 бит	Сложение двух 16-битных чисел	≥ 3
16-битный	16 бит	Сложение двух 16-битных чисел	1

Однако возможности увеличения производительности исключительно за счёт увеличения размера машинного слова были в основном исчерпаны с появлением 32-разрядного микропроцессора Intel 80386 в 1985 году. Для большинства повседневных задач и типичных объемов данных того времени 32-битной разрядности было вполне достаточно.

Позднее появление 64-разрядных микропроцессоров, таких как AMD Athlon 64 и Intel EM64T (x86-64), было связано в основном не с кардинальным ростом производительности для большинства целочисленных операций (хотя для некоторых специфических задач он наблюдался), а с увеличением адресного пространства. 32-битные системы могли адресовать лишь 4 ГБ оперативной памяти, что стало серьезным ограничением для серверов, рабочих станций и даже некоторых пользовательских приложений с большими объемами данных. 64-битные процессоры позволили адресовать гораздо большие объемы памяти, открыв путь к обработке терабайтов данных.

На ноябрь 2025 года процессоров общего назначения с разрядностью машинного слова 128 бит для целых чисел и адресации памяти всё ещё не существует. Хотя существуют векторные расширения (например, AVX-512), которые оперируют с гораздо большей разрядностью регистров (512 бит и более) для специализированных операций (например, обработка медиа, научные вычисления, машинное обучение), они не увеличивают базовый размер машинного слова для стандартных целочисленных операций и адресации памяти. Это подчеркивает, что битовый параллелизм как основной драйвер роста производительности достиг своих практических пределов. Что же пришло ему на смену, когда этот ресурс был исчерпан?

Инструкционный параллелизм (ILP): одновременное выполнение команд в одном потоке

После того как возможности битового параллелизма были в значительной степени исчерпаны, внимание разработчиков переключилось на более тонкие механизмы ускорения вычислений, не требующие изменения базовой разрядности данных. Так появился инструкционный параллелизм — квинтэссенция микроархитектурных оптимизаций, позволяющих выполнять несколько операций в одном потоке одновременно.

Принципы и подходы к ILP

Параллелизм на уровне инструкций (Instruction-Level Parallelism, ILP) — это мера того, какое множество операций в компьютерной программе может выполняться одновременно, или потенциальное перекрытие нескольких инструкций во времени. Суть ILP заключается в способности процессора выполнять несколько инструкций за один тактовый цикл, тем самым значительно ускоряя вычисления внутри одного потока или процесса.

Развитие ILP стало одним из основных направлений в архитектуре компьютеров с середины 1980-х до середины 1990-х годов. В этот период были массово внедрены такие инновации, как конвейеризация, суперскалярные архитектуры, динамическое изменение порядка выполнения команд (out-of-order execution), механизмы предсказания ветвлений и переименования регистров для устранения ложных зависимостей.

Существуют два основных подхода к выявлению и использованию параллелизма на уровне команд:

Аппаратные средства (динамический параллелизм): Процессор в реальном ��ремени анализирует поток инструкций, определяет зависимости между ними и планирует их выполнение. Это позволяет процессору адаптироваться к изменяющимся условиям выполнения программы, но требует сложной внутренней логики.
Программное обеспечение (статический параллелизм): Компилятор на этапе компиляции программы анализирует код, выявляет независимые инструкции и группирует их для параллельного выполнения. Этот подход перекладывает сложность планирования на компилятор, упрощая аппаратную часть, но требует высокоинтеллектуальных компиляторов и может быть менее гибким.

Конвейеризация инструкций

Конвейеризация (pipelining) — это фундаментальный архитектурный приём, используемый для повышения быстродействия процессора путём разделения обработки каждой команды на последовательность независимых стадий, которые могут выполняться параллельно для разных команд. Подобно сборочному конвейеру на заводе, каждый «рабочий» (стадия конвейера) выполняет свою часть работы над разными «продуктами» (инструкциями) одновременно.

Классический пример конвейера — это RISC-процессор с пятью ступенями:

Выборка инструкции (IF — Instruction Fetch): Инструкция извлекается из памяти.
Декодирование инструкции (ID — Instruction Decode): Инструкция декодируется, определяются операнды и регистры.
Выполнение инструкции (EX — Execute): Арифметико-логическое устройство (АЛУ) выполняет операцию.
Доступ к памяти (MEM — Memory Access): Выполняется чтение или запись данных в память, если это требуется инструкцией.
Запись результата (WB — Write Back): Результат операции записывается обратно в регистр.

Конвейерный процессор принимает новую инструкцию каждый цикл, даже если предыдущие инструкции не завершены. Это означает, что в каждый момент времени в конвейере могут находиться до пяти разных инструкций, каждая на своей стадии выполнения. Конвейеризация значительно увеличивает пропускную способность процессора (количество инструкций, выполняемых за единицу времени), но важно понимать, что она не сокращает время выполнения отдельной команды. Время, необходимое для прохождения одной инструкции через все стадии конвейера, остается прежним или даже немного увеличивается из-за накладных расходов на управление конвейером.

Управление конвейером инструкций требует эффективной обработки событий, которые могут нарушить его плавный поток, таких как:

Переходы (ветвления): Если инструкция является условным переходом, и предсказание неверно, весь конвейер может быть очищен, что приводит к штрафам.
Исключения или прерывания: Непредвиденные события требуют остановки конвейера и переключения контекста.
Зависимости данных: Если одна инструкция требует результата другой, еще не завершенной инструкции, конвейер может «застопориться» (stalling) или использовать механизмы обхода (forwarding).

Для дальнейшего повышения производительности были разработаны суперконвейерные процессоры, которые делят каждую стадию конвейера на подступени, тем самым увеличивая тактовую частоту. Примерами таких процессоров являются MIPS R4000 (представлен в 1991 году), имевший 8-ступенчатый конвейер, и ранние версии Intel Pentium 4 с конвейерами, достигавшими до 31 стадии. Чем длиннее конвейер, тем выше потенциальная тактовая частота, но и выше штраф за неверное предсказание ветвлений, что требует еще более сложных механизмов управления.

Суперскалярные архитектуры

В то время как конвейеризация позволяет перекрывать выполнение разных инструкций во времени, суперскалярный процессор способен параллельно выполнять несколько команд за один такт благодаря наличию нескольких функциональных устройств (АЛУ, FPU, умножитель, сдвигающее устройство и т.д.). Эти устройства работают независимо друг от друга.

Планирование исполнения потока инструкций в суперскалярных процессорах осуществляется динамически вычислительным ядром. Процессор имеет сложную логику, которая в реальном времени анализирует зависимости между инструкциями, чтобы определить, какие из них могут быть выполнены одновременно. Для повышения эффективности используются:

Предварительная (спекулятивная) выборка данных: Процессор может заранее загружать данные, которые, по его мнению, потребуются в будущем.
Изменение порядка следования команд (out-of-order execution): Процессор не следует строгому порядку инструкций из программы. Вместо этого он выполняет инструкции, как только их операнды готовы, а результаты затем переупорядочиваются в исходный порядок, чтобы сохранить семантику программы.
Предсказание ветвлений: Специальные блоки предсказывают, по какому пути пойдет условный переход, чтобы избежать остановки конвейера.
Переименование регистров: Механизм, устраняющий ложные зависимости (WAR и WAW), позволяя независимым инструкциям использовать физически разные регистры, даже если логически они оперируют одними и теми же.

Процессоры Pentium с микроархитектурой P5, представленные в 1993 году, были первыми суперскалярными процессорами архитектуры x86, способными выполнять две инструкции за такт. Современные суперскалярные процессоры, такие как Intel Core и AMD Ryzen, значительно продвинулись в этом направлении. Они содержат от 4 до 8 и более исполнительных портов и могут выполнять в среднем от 2 до 5 и более инструкций за такт (IPC — Instructions Per Cycle) в зависимости от характера нагрузки и степени параллелизма в коде. Этот уровень ILP является одним из ключевых факторов их высокой производительности.

VLIW-архитектура (Very Long Instruction Word)

В отличие от динамического планирования в суперскалярных процессорах, VLIW (Very Long Instruction Word) — это архитектура процессоров, в которой полная ответственность за формирование пакета команд, которые могут выдаваться одновременно, несёт компилятор. В VLIW-машине компилятор анализирует программу, выявляет независимые инструкции и объединяет их в одну «сверхдлинную команду». Эта команда затем отправляется на процессор, который просто выполняет все указанные в ней операции параллельно.

Длина инструкции в VLIW может достигать 128, 256 бит или даже более, явно указывая, что должен делать каждый функциональный модуль процессора. Например, одна часть сверхдлинной команды может предписывать АЛУ выполнить сложение, другая — загрузить данные из памяти, третья — выполнить операцию с плавающей запятой, и все это за один тактовый цикл.

Преимущества VLIW-архитектуры:

Упрощение аппаратуры процессора: Поскольку логика планирования перенесена на компилятор, аппаратура VLIW-процессора значительно проще, чем у суперскалярного, что потенциально снижает энергопотребление и стоимость.
Потенциально более высокое быстродействие: При идеальной компиляции VLIW-процессор может достичь очень высокого уровня параллелизма, поскольку нет накладных расходов на динамическое планирование.
Исключение конфликтов: Компилятор заранее гарантирует отсутствие конфликтов зависимостей внутри сверхдлинной команды.

Однако VLIW-архитектура имеет и существенные недостатки. Программирование на уровне машинных кодов вручную для VLIW-архитектур практически невозможно из-за сложных внутренних зависимостей и необходимости точного планирования. Производительность таких систем сильно зависит от качества оптимизации компилятора. Неоптимизированный или плохо компилируемый код может работать крайне неэффективно.

Подавляющее большинство цифровых сигнальных процессоров (DSP) и мультимедийных процессоров с производительностью более 1 млрд операций/с базируется на VLIW-архитектуре, поскольку для них характерен фиксированный набор задач, которые можно эффективно компилировать. В системах, таких как российский Эльбрус и Intel Itanium (впервые представлен в 2001 году), используется статическое планирование, где компилятор объединяет параллельные инструкции в длинную команду. Intel Itanium, основанный на архитектуре EPIC (Explicitly Parallel Instruction Computing) — развитии VLIW — столкнулся с трудностями в широком распространении из-за сложностей компиляции и низкой производительности на неоптимизированном коде, что подчеркнуло критическую роль компилятора в успешности VLIW-подхода, а также показало, что статическое планирование не всегда обеспечивает необходимую гибкость для широкого круга задач.

Параллелизм данных (DLP): обработка множества данных одной инструкцией

Если инструкционный параллелизм фокусируется на одновременном выполнении различных инструкций в одном потоке, то параллелизм данных предлагает иной подход: выполнение одной и той же операции над множеством различных элементов данных одновременно. Этот подход особенно эффективен для задач, где требуется массовая обработка однотипных данных, таких как обработка изображений, видео, научные расчеты с матрицами и векторами, а также обучение нейронных сетей.

Принципы DLP и архитектура SIMD

Параллелизм данных (Data-Level Parallelism, DLP) предполагает выполнение одной и той же операции над несколькими элементами данных одновременно. Ключевая идея заключается в том, что исходная коллекция данных секционируется таким образом, чтобы несколько потоков или вычислительных элементов могли работать одновременно на разных сегментах.

Это характерно для архитектур типа SIMD (Single Instruction, Multiple Data), что переводится как «одна инструкция, множество данных». Принцип работы SIMD заключается в том, что вычисления хоть и выполняются параллельно, но все данные обрабатываются с помощью одной и той же операции. Представьте себе конвейер, где каждый рабочий выполняет одну и ту же операцию (например, закручивает гайку), но на разных изделиях.

Основные характеристики SIMD:

Одна инструкция: Процессор получает одну команду (например, «сложить», «умножить», «сравнить»).
Множество данных: Эта команда применяется одновременно к нескольким элементам данных, которые часто хранятся в специальных векторных регистрах.
Высокая пропускная способность: Позволяет обрабатывать большие объемы данных за минимальное количество тактов.

Однако SIMD-архитектура имеет свои ограничения: она неэффективна для выполнения разных операций над разными данными или для задач, где данные изменяются во время вычислений таким образом, что это нарушает их независимость. Если логика обработки данных сильно ветвится, или отдельные элементы требуют уникальных операций, SIMD может столкнуться с проблемами, что делает ее менее универсальной, чем другие подходы.

Векторные процессоры: история и особенности

Одной из наиболее ярких исторических реализаций DLP являются векторные процессоры. Это процессоры, в которых операндами некоторых команд могут выступать упорядоченные массивы данных (векторы), а не одиночные скалярные значения. Векторные процессоры оптимизированы для массовой параллельной обработки данных и способны выполнять одну операцию над целым массивом данных одновременно.

Архитектура векторных процессоров включает:

Векторные регистры увеличенной длины: Хранят целые векторы данных. Вместо одного значения, в регистре может храниться, например, 64 или 128 элементов, над которыми затем одновременно выполняется одна операция.
Скалярный процессор: Выполняет традиционные скалярные операции и управляет потоком выполнения.
Векторный процессор (или векторные функциональные блоки): Содержит специализированные конвейерные АЛУ, способные обрабатывать векторные операнды.
Контроллер векторной памяти: Управляет доступом к памяти для загрузки и сохранения векторов.
Арифметический конвейер: Используется для эффективного выполнения векторных операций.

Система памяти является самой сложной подсистемой векторного процессора. Для обеспечения быстродействия применяется принцип расслоения памяти (memory interleaving), когда память делится на несколько независимых банков, к которым можно обращаться одновременно. Это позволяет эффективно загружать и сохранять целые векторы данных без задержек.

Векторные процессоры были основой большинства суперкомпьютеров с 1980-х до 1990-х годов. Они применялись в задачах, где данные представлены в матричной форме, таких как прогноз погоды, ядерная физика, сейсморазведка и аэродинамика. Примерами таких систем являются легендарные Cray-1 (представлен в 1976 году), Cray X-MP (1982) и Cray Y-MP (конец 1980-х). Эти машины были настоящими пионерами в области высокопроизводительных вычислений, демонстрируя беспрецедентную скорость для своего времени.

Современные векторные расширения и GPU как векторные сопроцессоры

Хотя специализированные векторные суперкомпьютеры уступили место более универсальным архитектурам, концепции векторной обработки данных никуда не делись. Они интегрировались в современные микропроцессоры в виде векторных расширений:

SSE (Streaming SIMD Extensions): Первое 128-битное векторное расширение от Intel, появилось с 1999 года.
AVX и AVX2 (Advanced Vector Extensions): 256-битные расширения, представленные с 2011/2013 года, значительно увеличившие ширину регистров и набор инструкций.
AVX-512: 512-битное расширение, появившееся с 2016 года для Intel (в частности, в процессорах Xeon Phi и некоторых Xeon). Оно позволяет обрабатывать 16 чисел с плавающей запятой одинарной точности или 8 чисел двойной точности за одну инструкцию.
NEON: 64/128-битные векторные расширения для ARM-процессоров, широко используемые в мобильных устройствах.

Однако наиболее значимым прорывом в реализации DLP стало появление GPU-ускорителей или вычислительных узлов с несколькими GPU. Современные видеокарты, или, точнее, графические процессоры (GPU), можно рассматривать как высокопараллельные векторные сопроцессоры. Они построены по архитектуре, идеально подходящей для DLP, где тысячи маленьких ядер одновременно выполняют одинаковую операцию над своей частью данных.

В контексте серверных GPU, таких как NVIDIA A100 или AMD Instinct MI300X, используется архитектура SIMT (Single Instruction, Multiple Threads). SIMT является развитием SIMD, где одна инструкция выполняется одновременно не отдельными вычислительными элементами, а целыми группами потоков (warps/wavefronts), работающими с разными данными. Это эффективная реализация параллелизма данных на GPU, позволяющая достигать беспрецедентной производительности в задачах машинного обучения, вычислительной графики, научных симуляций и криптографии.

Современные серверные GPU, такие как NVIDIA H100 (выпущен в 2022 году) или AMD Instinct MI300X, могут обеспечивать петафлопсную производительность (до нескольких тысяч терафлопс для FP16/FP8 и десятки терафлопс для FP64). Это делает их незаменимыми для обработки огромных объемов данных и решения сложнейших вычислительных задач, подтверждая доминирование DLP как ключевого драйвера прогресса в эпоху искусственного интеллекта и высокопроизводительных вычислений.

Параллелизм задач (TLP): выполнение независимых потоков и процессов

В отличие от инструкционного параллелизма, который ускоряет выполнение одного потока, и параллелизма данных, который ускоряет одну операцию над многими данными, параллелизм задач ориентирован на одновременное выполнение нескольких совершенно независимых (или слабо связанных) вычислительных задач. Это наиболее крупнозернистый уровень параллелизма, требующий эффективного распределения работы между множеством вычислительных единиц.

Модели реализации TLP

Параллелизм задач (Task-Level Parallelism, TLP) подразумевает выполнение нескольких независимых потоков или отдельных задач одновременно. При использовании TLP одна общая вычислительная задача разделяется на отдельные подзадачи, которые могут быть различными по типу и размеру. Эти подзадачи затем обрабатываются параллельно. Ключевым условием является то, что каждая задача выполняется на отдельном процессоре, ядре или вычислительном узле.

Поскольку задачи не зависят друг от друга (или имеют минимальные зависимости, требующие явной синхронизации), они могут быть выполнены одновременно, что позволяет эффективно использовать ресурсы многозадачных процессоров, многоядерных систем или даже распределенных вычислительных кластеров.

Мультипоточность

В современных многоядерных процессорах операционная система может запускать программы или отдельные части программ (потоки) на разных ядрах, демонстрируя распараллеливание на уровне задач. Каждый поток может выполнять свою независимую часть работы, используя ресурсы одного ядра. Например, в веб-браузере один поток может отвечать за отрисовку пользовательского интерфейса, другой — за загрузку данных из сети, а третий — за выполнение JavaScript. Все они работают параллельно, улучшая отзывчивость приложения.

Мультипоточность позволяет эффективно использовать ресурсы одного физического процессора с несколькими ядрами, улучшая пропускную способность системы и отзывчивость приложений.

Многопроцессорность (SMP-системы)

Основным средством реализации параллелизма на уровне заданий служат многопроцессорные вычислительные системы. Симметричные мультипроцессоры (SMP) состоят из совокупности процессоров, имеющих разделяемую общую память с единым адресным пространством и функционирующих под управлением одной операционной системы. Все процессоры в SMP-системе равноправны и имеют одинаковый доступ к общей памяти и периферийным устройствам.

SMP-системы получили широкое распространение с 1980-х по 2000-е годы в серверах и высокопроизводительных рабочих станциях, предоставляя значительно большую вычислительную мощность для одновременного выполнения нескольких задач или потоков одной программы, эффективно используя TLP. Операционная система динамически распределяет задачи между доступными процессорами, обеспечивая балансировку нагрузки.

Распределенные системы (Node-Level Parallelism, NLP)

Параллелизм на уровне узлов (Node-Level Parallelism, NLP) подразумевает распределение работы между несколькими вычислительными единицами, которые могут быть физически разнесены и соединены сетью. Это могут быть отдельные серверы, кластеры GPU или более сложные распределенные вычислительные системы.

В NLP работа делится не просто между ядрами одного процессора, а между совершенно независимыми машинами (узлами). Это распределение может включать как обработку данных (когда каждый узел работает со своей частью большого набора данных), так и выполнение вычислений, хранимых или передаваемых между узлами.

На уровне узлов параллелизм реализуется через использование распределенных вычислительных моделей и библиотек. Примерами таких инструментов являются:

CUDA Multi-Node: Для распределения задач между несколькими GPU, расположенными на разных серверах.
TensorFlow и PyTorch с поддержкой распределенного обучения: Позволяют распределять обучение больших нейронных сетей между множеством вычислительных узлов, значительно сокращая время тренировки моделей.

NLP является высшим уровнем TLP, позволяющим строить суперкомпьютеры и облачные системы с практически неограниченной масштабируемостью, что особенно актуально для современных задач анализа больших данных и искусственного интеллекта.

Вызовы координации и синхронизации в TLP

Несмотря на очевидные преимущества, реализация TLP сопряжена с серьезными вызовами, особенно в части координации и синхронизации:

Сложность программирования: Писать программы для параллельных систем сложнее, чем для последовательных. Разработчику необходимо учитывать множество факторов, таких как распределение задач, взаимодействие между ними и управление общими ресурсами.
Конкуренция за ресурсы: Когда несколько потоков или процессов одновременно обращаются к одним и тем же общим ресурсам (например, переменным в памяти, файлам, устройствам ввода/вывода), возникает состояние гонки (race condition). Это самая распространённая и трудноотлаживаемая ошибка в параллельных системах, когда результат выполнения зависит от порядка, в котором потоки получают доступ к ресурсам, что приводит к непредсказуемому и некорректному поведению.

Взаимодействие и синхронизация между процессами представляют собой большой барьер для получения высокой производительности параллельных систем. Если потоки не будут корректно синхронизированы, могут возникнуть логические ошибки, тупиковые ситуации (deadlocks) или слишком большие накладные расходы на ожидание.

Для обеспечения корректности и эффективности используются различные механизмы синхронизации:

Мьютексы (Mutexes): Обеспечивают взаимоисключающий доступ к критическим секциям кода. Только один поток может владеть мьютексом в любой момент времени, что предотвращает одновременный доступ к общему ресурсу.
Семафоры (Semaphores): Используются для управления доступом к ограниченному числу ресурсов. Семафор представляет собой счетчик, который уменьшается при захвате ресурса и увеличивается при его освобождении. Если счетчик равен нулю, потоки вынуждены ждать.
Барьеры (Barriers): Служат для синхронизации потоков в определенных точках выполнения. Все потоки должны достичь барьера, прежде чем любой из них сможет продолжить выполнение. Это полезно, когда необходимо убедиться, что все части параллельной задачи завершили свой этап, прежде чем переходить к следующему.

Рассмотрим пример задачи, требующей синхронизации: быстрая сортировка массива на двухпроцессорной машине. Можно разделить массив пополам и сортировать каждую половину на отдельном процессоре. Однако сортировка каждой половины может занять разное время, в зависимости от начального состояния данных. Для объединения отсортированных половин (например, с помощью слияния) необходима синхронизация, чтобы убедиться, что оба процессора завершили свою работу, прежде чем приступать к финальному шагу. Без барьера или другого механизма синхронизации попытка слияния может начаться до того, как одна из половин будет полностью отсортирована, что приведет к некорректному результату. Это наглядно демонстрирует, насколько критичным является правильное управление синхронизацией для достижения достоверных результатов в параллельных вычислениях.

Взаимосвязь уровней параллелизма и законы эффективности

Уровни параллелизма — битовый, инструкционный, данных и задач — не существуют изолированно друг от друга. Напротив, они тесно взаимосвязаны и часто используются в комбинации, чтобы достичь максимальной эффективности. Более того, между ними нет чёткой границы, и конкретную технологию распараллеливания бывает сложно однозначно отнести к одному из них, поскольку они могут пересекаться и дополнять друг друга.

Комбинированное использование и гибридный параллелизм

Современные вычислительные системы демонстрируют многоуровневый подход к параллелизму. Например, увеличение количества ядер (многоядерность), что является формой TLP, и увеличение количества процессоров (многопроцессорность) могут использоваться совместно с конвейеризацией и суперскалярностью (ILP), а также с векторными расширениями (DLP) для повышения общей производительности.

Концепция гибридного параллелизма ярко иллюстрирует это взаимодополнение. Она может объединять параллелизм на уровне узлов (Node-Level Parallelism, NLP), параллелизм на уровне потоков (Thread-Level Parallelism, TLP) и параллелизм данных (Data-Level Parallelism, DLP) для оптимизации обучения, например, больших нейронных сетей:

NLP: Серверы (вычислительные узлы) распределенной системы могут разделять одну большую модель, каждый узел обрабатывает свою часть весов или слоев нейронной сети.
TLP: Внутри каждого сервера, несколько ядер CPU или GPU (или их комбинация) могут обрабатывать различные части данных или выполнять различные подзадачи.
DLP: GPU каждого сервера используют архитектуру SIMT (по сути, TLP и DLP в одном), обрабатывая данные параллельно, выполняя одну и ту же операцию над множеством элементов данных.

Такая многоуровневая стратегия позволяет максимально эффективно использовать доступные вычислительные ресурсы, преодолевая ограничения каждого отдельного уровня параллелизма, что критически важно для решения наиболее сложных задач современности.

Классификация Флинна

Для систематизации различных архитектур параллельных вычислений Майкл Дж. Флинн в 1966 году предложил классификацию, которая подразделяет ЭВМ на четыре категории по количеству потоков инструкций и данных. Эта классификация, несмотря на свою простоту, остается фундаментальной для понимания архитектур параллелизма:

SISD (Single Instruction, Single Data): Один поток инструкций, один поток данных. Это традиционные однопроцессорные системы, где процессор последовательно выполняет одну инструкцию за раз над одним элементом данных. Примером может служить ранний одноядерный процессор без конвейера.
SIMD (Single Instruction, Multiple Data): Один поток инструкций, множество потоков данных. В этом классе один управляющий блок посылает одну и ту же инструкцию множеству исполнительных элементов, каждый из которых работает со своим собственным набором данных. Примеры: векторные процессоры (Cray-1), матричные процессоры, современные GPU и процессоры с SIMD-расширениями (SSE, AVX).
MISD (Multiple Instruction, Single Data): Множество потоков инструкций, один поток данных. Этот класс встречается редко в чистом виде. Иногда к нему относят систолические массивы (которые обрабатывают данные в конвейерном режиме, где каждый элемент массива выполняет свою инструкцию над одним потоком данных) или отказоустойчивые системы, где несколько процессоров выполняют одни и те же инструкции над одними и теми же данными для проверки корректности.
MIMD (Multiple Instruction, Multiple Data): Множество потоков инструкций, множество потоков данных. Это наиболее общий и гибкий класс параллельных архитектур. Процессоры этого типа могут выполнять различные инструкции над различными данными одновременно. Примеры: многопроцессорные системы (SMP), многоядерные системы (Intel Core, AMD Ryzen), распределенные системы (кластеры, суперкомпьютеры).

Важно отметить, что векторные процессоры часто относят к машинам типа SIMD, хотя их высокая производительность также зависит от конвейерной организации, что может создавать ощущение пересечения с ILP. Многопроцессорные векторные системы, такие как Cray Y-MP, состоящие из нескольких векторных процессоров, могут быть отнесены к категории MSIMD (Multiple SIMD), подчеркивая их гибридный характер.

Законы Амдала и Густавсона: оценка масштабируемости

Для оценки эффективности и масштабируемости параллельных систем используются два фундаментальных закона: закон Амдала и закон Густавсона. Они помогают понять, какой прирост производительности можно ожидать от распараллеливания задачи.

Закон Амдала (Amdahl’s Law):
Этот закон, сформулированный Джином Амдалом в 1967 году, определяет максимальное теоретическое ускорение программы при распараллеливании, которое ограничено последовательной частью вычислений. Если P — это доля программы, которую можно распараллелить, а (1 - P) — последовательная доля, то максимальное ускорение S на N процессорах выражается формулой:
S = 1 / ((1 - P) + P/N)

Пример: Если 90% программы можно распараллелить (P = 0.9), а 10% является последовательной (1 - P = 0.1), то даже при бесконечном количестве процессоров (N → ∞) максимальное ускорение будет 1 / (0.1 + 0.9/∞) = 1 / 0.1 = 10. Это означает, что программа никогда не будет работать более чем в 10 раз быстрее, независимо от количества используемых процессоров. Закон Амдала подчеркивает, что даже небольшая последовательная часть может значительно ограничивать общее ускорение, и для достижения максимальной производительности необходимо минимизировать последовательные участки кода.
Закон Густавсона (Gustafson’s Law):
Закон Густавсона, предложенный Джоном Густавсоном в 1988 году, предлагает альтернативный взгляд на масштабируемость. Он фокусируется на масштабируемости проблемы, предполагая, что размер параллельной части задачи может увеличиваться с увеличением числа процессоров. То есть, чем больше процессоров, тем большую и более сложную задачу мы можем решить за то же время. Для фиксированного времени выполнения ускорение S на N процессорах, при доле последовательной части α, рассчитывается как:
S = N - (N - 1)α

Пример: Если 5% времени выполняется последовательная часть (α = 0.05), и мы используем 100 процессоров (N = 100), то ускорение будет S = 100 - (100 - 1) ⋅ 0.05 = 100 - 99 ⋅ 0.05 = 100 - 4.95 = 95.05.
Закон Густавсона показывает, что для крупномасштабных задач, где параллельная часть доминирует и может масштабироваться с количеством доступных ресурсов, можно достичь почти линейного ускорения. Этот закон более релевантен для современных суперкомпьютеров, решающих масштабные проблемы, поскольку они часто направлены на решение задач, размер которых растет пропорционально доступным вычислительным ресурсам.

Оба закона важны, но применяются в разных контекстах. Закон Амдала полезен для оценки максимального ускорения при фиксированном размере задачи, а закон Густавсона — для оценки того, насколько большую задачу можно решить за фиксированное время с увеличением ресурсов. Их комбинированное понимание критически важно для проектирования и оптимизации параллельных систем.

Современные тенденции и будущие перспективы развития параллелизма

Мир вычислительных систем находится в состоянии постоянной эволюции, и движущей силой этих изменений по-прежнему является стремление к повышению производительности. В условиях, когда традиционные последовательные архитектуры вычислителей и схем вычислений приближаются к технологическому пределу, ближайшие десятилетия пройдут под знаменем развития и распространения параллельных архитектур, средств описания и реализации параллельных вычислений.

Многоядерность и технологии явного параллелизма команд

Многоядерность (Multicore), когда несколько вычислительных ядер находятся в корпусе одного процессора, остается одной из основных тенденций развития параллельных вычислительных средств. Производители продолжают увеличивать количество ядер, внедрять гибридные архитектуры (например, с производительными и энергоэффективными ядрами) и оптимизировать их взаимодействие. Этот подход обеспечивает баланс между производительностью и энергопотреблением, отвечая запросам широкого спектра устройств — от мобильных гаджетов до высокопроизводительных серверов.

Параллельно с этим, продолжают развиваться технологии с явным параллелизмом команд (EPIC — Explicitly Parallel Instruction Computing). В таких архитектурах компилятор берет на себя ответственность за планирование параллельного выполнения инструкций. Наиболее известной коммерческой реализацией была архитектура Intel Itanium, впервые представленная в 2001 году. Несмотря на свою инновационность, Itanium столкнулась с трудностями в широком распространении из-за сложности компиляции и низкой производительности на неоптимизированном коде. Однако идеи EPIC продолжают жить в исследованиях и специализированных архитектурах, где контроль компилятора над параллелизмом позволяет достигать высокой эффективности в определенных областях.

Дальнейшее развитие DLP: ультраширокие векторные расширения и GPU-суперкомпьютеры

В области параллелизма данных (DLP) активно развиваются современные векторные расширения. Уже существующие AVX, AVX2 (256-бит) и AVX-512 (512-бит) демонстрируют неуклонное увеличение ширины данных, обрабатываемых одной инструкцией. Это позволяет центральным процессорам более эффективно выполнять векторные операции, ускоряя широкий круг задач, от обработки медиа до научных расчетов.

Однако истинным прорывом в DLP стало доминирование GPU (Graphics Processing Units) в качестве ключевых векторных сопроцессоров. Современные серверные GPU, такие как NVIDIA H100 или AMD Instinct MI300X, представляют собой мощнейшие вычислительные платформы, способные обеспечивать петафлопсную производительность (до нескольких тысяч терафлопс для FP16/FP8 и десятки терафлопс для FP64). Эти гигантские вычислительные ускорители стали незаменимыми для задач машинного обучения (особенно глубокого обучения), научных вычислений, моделирования и симуляции. Их архитектура SIMT (Single Instruction, Multiple Threads) позволяет эффективно масштабировать выполнение одной инструкции на тысячах потоков, обрабатывающих разные данные, что делает их идеальными для задач с высоким уровнем DLP.

Эволюция TLP: распределенные вычислительные модели

Для крупномасштабных задач, требующих параллелизма задач (TLP), наблюдается активное развитие распределенных вычислительных моделей и библиотек. Переход к мультипроцессорным и мультикомпьютерным вычислительным системам, включая кластерные ВС, супер-ЭВМ с массовым параллелизмом и программируемой структурой, является естественным продолжением этой тенденции.

Такие фреймворки и библиотеки, как CUDA Multi-Node, TensorFlow Distributed и PyTorch Distributed, обеспечивают гибкость и масштабируемость для решения задач, которые не могут быть выполнены на одном узле. Они позволяют эффективно распределять задачи и данные между сотнями и тысячами вычислительных узлов, каждый из которых может содержать несколько GPU, тем самым открывая новые горизонты для исследований и разработок в области ИИ, анализа больших данных и высокопроизводительного моделирования.

Кооперативный параллелизм (CP): новая парадигма взаимодействия

Одной из новейших тенденций, набирающих обороты, является концепция Кооперативного параллелизма (Cooperative Parallelism, CP). В отличие от традиционного TLP, где задачи могут быть относительно независимы, CP предполагает координированное выполнение потоков или задач, которые тесно взаимодействуют и работают вместе для достижения общего, неделимого результата. Это не просто параллельное выполнение, а слаженное сотрудничество.

CP используется в распределенных обучениях нейронных сетей, где различные части модели (или разные аспекты обучения) требуют постоянного обмена информацией и синхронизации. Он также находит применение в сложных симуляциях (например, физических или биологических систем), где взаимодействие между компонентами системы является критически важным. Основной вызов здесь — минимизация накладных расходов на коммуникацию и синхронизацию, чтобы не свести на нет выгоды от параллелизма, иначе само понятие кооперации теряет смысл.

Вызовы и перспективы дальнейшего развития

Потребность в больших вычислительных ресурсах для решения прикладных задач моделирования в физике, биофизике, химии, материаловедении и других областях является одним из основных факторов, поддерживающих актуальность параллельных вычислений. С появлением квантовых вычислений и нейроморфных архитектур возникают совершенно новые парадигмы, которые также будут использовать формы параллелизма, отличные от классических.

Таким образом, дальнейшая тенденция — это не только увеличение количества ядер и узлов, но и разработка более совершенных средств описания и реализации параллельных вычислений, включая новые языки программирования, компиляторы и runtime-системы, способные эффективно управлять всеми уровнями параллелизма. Параллельные архитектуры, средства их программирования и оптимизации будут доминировать в вычислительном ландшафте ближайших десятилетий, обеспечивая непрерывный прогресс в науке, технологиях и повседневной жизни.

Заключение

Путешествие по уровням параллелизма в вычислительных системах — от исторического зарождения идей до современных тенденций — открывает перед нами сложную, но захватывающую картину инженерной мысли и научных открытий. Мы увидели, как битовый параллелизм, заложенный в увеличении размера машинного слова, дал первый импульс к росту производительности, хотя и достиг своих пределов. Инструкционный параллелизм (ILP), воплощенный в конвейеризации и суперскалярных архитектурах, позволил выжимать максимум из одного потока команд, выполняя несколько операций одновременно. Параллелизм данных (DLP) с его векторными процессорами и мощными GPU произвел революцию в массовой обработке однотипных данных, став краеугольным камнем эпохи искусственного интеллекта. Наконец, параллелизм задач (TLP) обеспечил масштабируемость систем от мультипоточных приложений до распределенных суперкомпьютеров, позволяя решать задачи колоссального масштаба.

Ключевым выводом является то, что эти уровни не являются взаимоисключающими. Напротив, их взаимосвязь и комбинированное использование в гибридных архитектурах составляют основу современных высокопроизводительных вычислительных систем. Классификация Флинна помогает систематизировать это многообразие, а законы Амдала и Густавсона дают фундаментальные инструменты для оценки потенциала и ограничений масштабирования.

Будущее вычислительной техники несомненно связано с дальнейшим развитием и распространением параллельных архитектур. От ультрашироких векторных расширений и петафлопсных GPU до новых парадигм, таких как кооперативный параллелизм, — все эти направления подтверждают, что глубокое и комплексное понимание параллельных архитектур является не просто академическим интересом, но и критически важным навыком для любого специалиста в области компьютерных наук и инженерных дисциплин, стремящегося создавать эффективные и масштабируемые решения для вызовов завтрашнего дня.

Список использованной литературы

Косяков М.С. Введение в распределенные вычисления : Учебное пособие. Санкт-Петербург: НИУ ИТМО, 2014. 155 с.
Левин М.П. Параллельное программирование с использованием OpenMP. М.: Интернет-Университет Информационных Технологий, БИНОМ Лаборатория знаний, 2012. 121 с.
Лин К., Снайдер Л. Принципы параллельного программирования. М.: Издательство Московского университета, 2013. 408 с.
Лупин С.А., Посыпкин М.А. Технологии параллельного программирования. М.: ИД «ФОРУМ»: ИНФРА-М, 2011. 208 с.
Михайлов Б.М., Халабия Р.Ф. Классификация и организация вычислительных систем : Учебное пособие. М.: МГУПИ, 2010. 144 с.
Орлов С.А. Теория и практика языков программирования. СПб.: Питер, 2014. 688 с.
Уильямс Э. Параллельное программирование на С++ в действии. Практика разработки многопоточных программ. ДМК Пресс, 2012. 672 с.
Федотов И.Е. Модели параллельного программирования. М.: Солон-Пресс, 2012. 384 с.
Типы и архитектуры параллельных вычислений: какие они бывают? // Хабр. URL: https://habr.com/ru/companies/tinkoff/articles/803879/ (дата обращения: 01.11.2025).
История создания многопроцессорных систем с программируемой архитектурой. URL: http://www.computer-museum.ru/histdev/mvs_prog_arch.htm (дата обращения: 01.11.2025).
Параллелизм на уровне команд. Суперскалярный процессор, VLIW-процессор. URL: https://kvckr.ru/computer_architecture/lecture_05.php (дата обращения: 01.11.2025).
Конвейер команд. Конвейеризация — способ обеспечения параллельности выполнения команд. URL: https://perscom.ru/component/k2/item/420-konvejer-komand-konvejirizacija (дата обращения: 01.11.2025).
Суперскалярные процессоры — Архитектура ЭВМ и систем. URL: https://studme.org/168925/informatika/superskalnyh_protsessorov (дата обращения: 01.11.2025).
История параллельных и высокопроизводительных вычислений // PARALLEL.RU. URL: https://parallel.ru/history.html (дата обращения: 01.11.2025).
Архитектура ЭВМ. Лекция 10: Конвейеризация // НОУ ИНТУИТ. URL: https://intuit.ru/studies/courses/2194/133/lecture/19223?page=1 (дата обращения: 01.11.2025).
Параллельные вычислительные системы, Типы параллелизма, Параллелизм на уровне битов — Параллелизм как способ параллельной обработки данных. URL: https://studbooks.net/1544665/informatika/parallelnye_vychislitelnye_sistemy_parallelizm_bitov (дата обращения: 01.11.2025).
Знакомство с уровнями распараллеливания // Хабр. URL: https://habr.com/ru/companies/intel/articles/82434/ (дата обращения: 01.11.2025).
Параллелизм данных (библиотека параллельных задач) — .NET // Microsoft Learn. URL: https://learn.microsoft.com/ru-ru/dotnet/standard/parallel-programming/data-parallelism-task-parallelism-library (дата обращения: 01.11.2025).
Параллельные вычисления // Казанский федеральный университет. URL: https://kpfu.ru/portal/docs/F_1400262660/lek_par_vych_sist.pdf (дата обращения: 01.11.2025).
Параллелизм в алгоритмах — выявле́ние и рациональное его использование. Возможности компьютерного моделирования // Хабр. URL: https://habr.com/ru/companies/selectel/articles/687784/ (дата обращения: 01.11.2025).