Архитектура векторно-конвейерных супер-ЭВМ CRAY C90
Изучение параметров классификации параллельно-векторных компьютеров. Краткое описание особенностей архитектуры суперкомпьютеров. Концепции проектирования электронно-вычислительной машины. Структура компьютера CRAY C90, разделяемые ресурсы процессора.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 05.06.2016 |
Размер файла | 232,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Тема: Архитектура векторно-конвейерных супер-ЭВМ CRAY C90
ПЛАН
ВВЕДЕНИЕ
ГЛАВА I. СУПЕРКОМПЬЮТЕР
1.1 Определение понятия суперкомпьютер
1.2 Параллельно-векторные суперкомпьютеры
1.3 Суперкомпьютеры NEC SX
ГЛАВА II. ОБЩАЯ СТРУКТУРА КОМПЬЮТЕРА CRAY C90
2.1 Cray C90
2.2 Основные концепции проектирования супер ЭВМ
2.3 Разделяемые ресурсы процессора
ЗАКЛЮЧЕНИЕ
СПИСОК ИСТОЧНИКОВ
ВВЕДЕНИЕ
Основным параметром классификации паралелльных компьютеров является наличие общей (SMP) или распределенной памяти (MPP). Нечто среднее между SMP и MPP представляют собой NUMA-архитектуры, где память физически распределена, но логически общедоступна. Кластерные системы являются более дешевым вариантом MPP. При поддержке команд обработки векторных данных говорят о векторно-конвейерных процессорах, которые, в свою очередь могут объединяться в PVP-системы с использованием общей или распределенной памяти. Все большую популярность приобретают идеи комбинирования различных архитектур в одной системе и построения неоднородных систем.
При организациях распределенных вычислений в глобальных сетях (Интернет) говорят о мета- компьютерах, которые, строго говоря, не представляют из себя параллельных архитектур.
Более подробно особенности всех перечисленных архитектур будут рассмотрены далее на этой странице, а также в описаниях конкретных компьютеров - представителей этих классов. Для каждого класса приводится следующая информация:
· краткое описание особенностей архитектуры,
· примеры конкретных компьютеров,
· перспективы масштабируемости,
· типичные особенности построения операционных систем,
· наиболее характерная модель программирования (хотя возможны и другие).
ГЛАВА I. СУПЕРКОМПЬЮТЕР
1.1 Определение понятия суперкомпьютер
Чаще всего авторство термина приписывается Джорджу Майклу (George Anthony Michael) и Сиднею Фернбачу (Sidney Fernbach), в конце 60-х годов XX века работавшим в Ливерморской национальной лаборатории, и компании CDC. Тем не менее, известен тот факт, что ещё в 1920 году газета New York World (англ.) рассказывала о «супервы- числениях», выполняемых при помощи табулятора IBM, собранного по заказу Колумбийского университета.
В общеупотребительный лексикон термин «суперкомпьютер» вошёл благодаря распространённости компьютерных систем Сеймура Крэя, таких как, CDC 6600, CDC 7600, Cray-1, Cray-2, Cray-3 (англ.) и Cray-4 (англ.). Сеймур Крэй разрабатывал вычислительные машины, которые по сути становились основными вычислительными средствами правительственных, промышленных и академических научно-технических проектов США с середины 60-х годов до 1996 года. Не случайно в то время одним из популярных определений суперкомпьютера было следующее: -- «любой компьютер, который создал Сеймур Крэй». Сам Крэй никогда не называл свои детища суперкомпьютерами, предпочитая использовать вместо этого обычное название «компьютер».
Компьютерные системы Крэя удерживались на вершине рынка в течение 5 лет с 1985 по 1990 годы. 80-е годы XX века охарактеризовались появлением множества небольших конкурирующих компаний, занимающихся созданием высокопроизводительных компьютеров, однако к середине 90-х большинство из них оставили эту сферу деятельности, что даже заставило обозревателей заговорить о «крахе рынка суперкомпьютеров». На сегодняшний день суперкомпьютеры являются уникальными системами, создаваемыми «традиционными» игроками компьютерного рынка, такими как IBM, Hewlett-Packard, NEC и другими, которые приобрели множество ранних компаний, вместе с их опытом и технологиями. Компания Cray по-прежнему занимает достойное место в ряду производителей суперкомпьютерной техники.
Из-за большой гибкости самого термина до сих пор распространены довольно нечёткие представления о понятии «суперкомпьютер». Шутливая классификация Гордона Белла и Дона Нельсона, разработанная приблизительно в 1989 году, предлагала считать суперкомпьютером любой компьютер, весящий более тонны. Современные суперкомпьютеры действительно весят более 1 тонны, однако далеко не каждый тяжёлый компьютер достоин чести считаться суперкомпьютером. В общем случае, суперкомпьютер -- это компьютер значительно более мощный, чем доступные для большинства пользователей машины. При этом скорость технического прогресса сегодня такова, что нынешний лидер легко может стать завтрашним аутсайдером.
Архитектура также не может считаться признаком принадлежности к классу суперкомпьютеров. Ранние компьютеры CDC были обычными машинами, всего лишь оснащёнными быстрыми для своего времени скалярными процессорами, скорость работы которых была в несколько десятков раз выше, чем у компьютеров, предлагаемых другими компаниями.
Большинство суперкомпьютеров 70-х оснащались векторными процессорами, а к началу и середине 80-х небольшое число (от 4 до 16) параллельно работающих векторных процессоров практически стало стандартным суперкомпьютерным решением. Конец 80-х и начало 90-х годов охарактеризовались сменой магистрального направления развития суперкомпьютеров от векторно-конвейерной обработки к большому и сверхбольшому числу параллельно соединённых скалярных процессоров.
Массово-параллельные системы стали объединять в себе сотни и даже тысячи отдельных процессорных элементов, причём ими могли служить не только специально разработанные, но и общеизвестные и доступные в свободной продаже процессоры. Большинство массивно-параллельных компьютеров создавалось на основе мощных процессоров с архитектурой RISC, наподобие PowerPC или PA-RISC.
В конце 90-х годов высокая стоимость специализированных суперкомпьютерных решений и нарастающая потребность разных слоёв общества в доступных вычислительных ресурсах привели к широкому распространению компьютерных кластеров. Эти системы характеризует использование отдельных узлов на основе дешёвых и широко доступных компьютерных комплектующих для серверов и персональных компьютеров и объединённых при помощи мощных коммуникационных систем и специализированных программно-аппаратных решений. Несмотря на кажущуюся простоту, кластеры довольно быстро заняли достаточно большой сегмент суперкомпьютерного рынка, обеспечивая высочайшую производительность при минимальной стоимости решений.
В настоящее время суперкомпьютерами принято называть компьютеры с огромной вычислительной мощностью («числодробилки» или «числогрызы»). Такие машины используются для работы с приложениями, требующими наиболее интенсивных вычислений (например, прогнозирование погодно-климатических условий, моделирование ядерных испытаний и т. п.), что в том числе отличает их от серверов и мэйнфреймов (англ. mainframe) -- компьютеров с высокой общей производительностью, призванных решать типовые задачи (например, обслуживание больших баз данных или одновременная работа с множеством пользователей).
Иногда суперкомпьютеры используются для работы с одним-единственным приложением, использующим всю память и все процессоры системы; в других случаях они обеспечивают выполнение большого числа разнообразных приложений.
1.2 Параллельно-векторные суперкомпьютеры
суперкомпьютер процессор векторный
С момента появления первых вычислительных устройств их создатели пытались усовершенствовать свои творения, в частности, повысить их эффективность за счет увеличения производительности или изобрести новые устройства, более совершенные. Суперкомпьютеры работают очень быстро не только благодаря самой современной элементной базе, но и за счет принципиальных решений, заложенных в их архитектуру. Основную роль здесь играет принцип параллельной обработки данных, воплощающий идею одновременного (параллельного) выполнения нескольких действий. С аппаратной точки зрения для реализации параллельных систем напрашиваются две основные схемы. Первая - несколько отдельных систем, с локальной памятью и процессорами, взаимодействующих в какой-либо среде посредством посылки сообщений. Вторая - системы, взаимодействующие через разделяемую память. Существуют и промежуточные архитектуры, где память физически распределена, но логически общедоступна.
Можно перечислить ряд задач, предъявляющих высокие требования к производительности систем. Вот лишь краткий список отраслей, в которых не обойтись без использования высокопроизводительных вычислений HPC (High Performance Computing): автомобилестроение, авиационная промышленность, атомная промышленность, космические исследования, разведка нефти и газа, химическая промышленность, фармакология, прогноз погоды, сейсмическая разведка, системы принятия решений.[1]
Первый векторно-конвейерный компьютер Cray-1 появился в 1976 г. Архитектура его оказалась настолько удачной, что он дал начало целому семейству компьютеров PVP (Parallel Vector Processing). Название этому семейству дали два принципа, заложенных в архитектуре процессоров: конвейерная организация обработки потока команд и введение в систему команд набора векторных операций, которые позволяют работать с целыми массивами данных.
Длина одновременно обрабатываемых векторов у векторных компьютеров может составлять, например, 128, 256 и более элементов. Очевидно, что векторные процессоры должны иметь гораздо более сложную структуру и по сути дела содержать множество арифметических устройств. Основное назначение векторных операций состоит в том, чтобы распараллелить выполнение операторов цикла, в которых в основном и сосредоточена большая часть вычислительной работы. Для этого циклы подвергаются процедуре векторизации с тем, чтобы их можно было реализовать с использованием векторных команд. Как правило, это автоматически выполняют компиляторы при подготовке исполнимого кода программы. Поэтому изначально векторно-конвейерные компьютеры не требовали никакой специальной технологии программирования, что и стало решающим фактором в их успехе на компьютерном рынке. Тем не менее при написании циклов требовалось соблюдение некоторых правил с тем, чтобы компилятор мог их эффективно векторизовать.
Исторически это были первые компьютеры, к которым в полной мере было приложимо понятие "суперкомпьютер". Как правило, несколько векторно-конвейерных процессоров работали в режиме с общей памятью (SMP, Symmetric MultiProcessing), образуя вычислительный узел, а несколько таких узлов объединялись с помощью коммутаторов, образуя либо NUMA- (Non-Uniform Memory Access), либо MPP-систему. Основным параметром классификации параллельных компьютеров служит наличие общей (SMP) или распределенной памяти (MPP, Massive Parallel Processing). Нечто среднее между SMP и MPP представляют собой NUMA-архитектуры, где память физически распределена, но логически общедоступна. Кластерные системы представляют собой более дешевый вариант MPP. При поддержке команд обработки векторных данных говорят о векторно-конвейерных процессорах, которые, в свою очередь, могут объединяться в PVP-системы с использованием общей или распределенной памяти.
Суперкомпьютеры, разработанные по технологии MPP, объединяют большое число микропроцессоров - вплоть до нескольких тысяч, - соединяя каждый из них с локальным банком памяти посредством высокоскоростной коммутационной среды. Главная особенность систем с симметричной многопроцессорной архитектурой SMP - наличие общей физической памяти, разделяемой всеми процессорами (напомним, что в массивно-параллельной архитектуре MPP память физически разделена). В этом случае система строится из отдельных модулей, содержащих процессор, локальный банк операционной памяти, два коммуникационных процессора или сетевой адаптер, иногда жесткие диски и/или другие устройства ввода-вывода. Один коммутационный процессор обычно используется для передачи команд, другой - для передачи данных. По сути, такие модули представляют собой полнофункциональные компьютеры. Доступ к банку оперативной памяти из конкретного модуля имеют только процессоры того же модуля. Модули соединяются специальными коммуникационными каналами.
Гибридная архитектура NUMA воплощает в себе удобства систем с общей памятью и относительную дешевизну систем с раздельной памятью. Суть этой архитектуры состоит в особой организации памяти. Здесь память физически распределена по различным частям системы, оставаясь логически разделяемой, так что пользователь видит единое адресное пространство. Система формируется из однородных базовых модулей, состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью высокоскоростного коммутатора. Поддерживается единое адресное пространство, аппаратно организован доступ к удаленной памяти, т. е. к памяти других модулей. При этом доступ к локальной памяти осуществляется в несколько раз быстрее, чем к удаленной. По существу архитектура NUMA представляет собой массивно-параллельную архитектуру, где в качестве отдельных вычислительных элементов выступают SMP-узлы.
Основной признак параллельно-векторных систем PVP - наличие специальных векторно-конвейерных процессоров, в которых предусмотрены команды однотипной обработки векторов независимых данных, эффективно выполняющиеся на конвейерных функциональных устройствах. Как правило, несколько таких процессоров работают одновременно над общей памятью (аналогично SMP) в рамках многопроцессорных конфигураций. Несколько таких узлов могут объединяться с помощью коммутатора.[2]
Большое разнообразие архитектур вычислительных систем породило естественное желание ввести для них какую-то классификацию. Эта классификация должна была однозначно относить ту или иную вычислительную систему к некоему классу, который, в свою очередь, должен достаточно полно ее характеризовать. Таких попыток предпринималось множество. Одна из первых классификаций, ссылки на которую чаще всего встречаются в литературе, была предложена М. Флинном в конце 60-х годов прошлого века. Она базируется на понятиях двух потоков: команд и данных. На основе числа этих потоков выделяется четыре класса архитектур: SISD (Single Instruction Single Data) - единственный поток команд и единственный поток данных, SIMD (Single Instruction Multiple Data) - единственный поток команд и множественные потоки данных, MISD (Multiple Instruction Single Date) - множественные потоки команд и единственный поток данных и, наконец, MIMD (Multiple Instruction Multiple Date) - множественные потоки команд и данных.
1.3 Суперкомпьютеры NEC SX
Типичным примером PVP-решений могут служить системы SX, которые создает подразделение корпорации NEC - HNSX Supercomputers. Развитие PVP-архитектуры продолжается, а суперкомпьютеры на ее основе в ряде случаев существенно опережают конкурентов. NEC имеет давние традиции производства больших универсальных ЭВМ (достаточно упомянуть выпускавшиеся в 80-х годах мэйнфреймы ACOS). Примерно в то же время появились и первые суперкомпьютеры семейства SX. Процессоры в SX-1 имели пиковую производительность 570 MFLOPS. Во второй половине 80-х были разработаны NEC SX-2 со временем цикла 6 нс; пиковая производительность старшей модели SX-2 составила уже 1,3 GFLOPS. В 1989 г. была выпущена NEC SX-3 с пиковой производительностью центрального процессора около 5 GFLOPS, в состав которой входило до четырех процессоров. Основные характеристики одноузловых систем семейства SX приведены в табл. 1.
Таблица 1 Характеристики одноузловых систем NEC SX
Модель |
SX-2 |
SX-3 |
SX-4 |
SX-5 |
SX-6 |
SX-7 |
|
Число процессоров |
1 |
4 |
32 |
16 |
8 |
32 |
|
Пиковая производительность на процессор, GFLOPS |
1,3 |
5,5 |
2 |
8 |
8 |
8,83 |
|
Пиковая производительность системы, GFLOPS |
1,3 |
22 |
64 |
128 |
64 |
282 |
|
Максимальная емкость оперативной памяти, Гбайт |
0,256 |
2 |
16 |
128 |
64 |
256 |
|
Общая пропускная способность памяти, Гбайт/с |
11 |
44 |
512 |
1024 |
256 |
1129 |
|
Пропускная способность памяти на процессор, Гбайт/с |
11 |
22 |
16 |
64 |
32 |
35,3 |
К современному поколению суперкомпьютеров следует относить КМОП-cистемы NEC SX-5 и SX-6. Здесь следует напомнить, что многие суперкомпьютеры долгое время использовали ЭСЛ-технологию (транзисторы с эмиттерно-связанной логикой), которая отличается достаточно высоким энергопотреблением. Во многом именно благодаря применению КМОП-технологии системы SX-4 стали первыми в мире суперкомпьютерами PVP-архитектуры, работающими с воздушным, а не с жидкостным охлаждением. Современные полупроводниковые КМОП-микросхемы обеспечили не только более высокую степень интеграции, но и хорошую масштабируемость по частоте.
Когда NEC в 1995 г. анонсировала суперкомпьютеры SX-4, большинство специалистов в области высокопроизводительных вычислений считали, что этот суперкомпьютер станет последним "динозавром" векторной архитектуры. Однако сейчас, с появлением масштабируемых векторных систем, интерес пользователей к векторным архитектурам возвращается. Кстати, на момент выпуска модель SX-4 показала производительность на уровне 1 TFLOPS.
Начинка суперкомпьютера SX-4A
Суперкомпьютеры различных поколений NEC совместимы снизу вверх. К основным компонентам архитектуры NEC SX относятся центральный процессор, подсистема оперативной памяти и подсистема ввода-вывода. Эти компоненты объединяются в узлы SMP-архитектуры, которые, в свою очередь, связаны через межсоединение Internode Crossbar Switch (IXS). Вся память всех узлов является общей; иными словами, многоузловые модели SX имеют архитектуру NUMA.
Каждый центральный процессор в NEC SX состоит из двух основных блоков: векторного и скалярного устройств. В архитектуре SX имеются операционные векторные регистры (над ними выполняются основные команды) и векторные регистры данных. В большинстве случаев применение векторных регистров позволяет заметно уменьшить трафик при обмене данными между центральным процессором и оперативной памятью.
Исполнительные блоки векторного устройства конвейеризованы. Основные конвейеры в SX - блоки сложения/сдвига, умножения, деления и логических операций. Как характерно для многих PVP-систем, операции над векторами могут выполняться при участии маски, для чего в архитектуре предусмотрено наличие регистров маски.
Скалярное устройство в SX содержит кэш данных и кэш команд, а также 64-разрядные регистры общего назначения. Так, для SX-5 размеры указанной кэш-памяти составляют по 64 Кбайт, а число регистров общего назначения равно 128. Все команды выдает на исполнение скалярное устройство, способное декодировать до четырех команд за такт. Например, как скалярное, так и векторное устройства SX-5 оперируют с 32- и 64-разрядными числами с плавающей точкой в формате IEEE. Скалярное устройство SX-5 поддерживает также 128-разрядные числа расширенной точности.
В составе процессора, кроме основных блоков - скалярного и векторного, можно также выделить интерфейс с оперативной памятью и так называемые коммуникационные регистры. Они служат в первую очередь для обеспечения синхронизации при распараллеливании задач.
Подсистема памяти SMP-узлов SX доступна процессорам через неблокирующийся коммутатор. Так, каждая плата памяти SX-5 может иметь емкость 4 Гбайт, а весь 16-процессорный узел - до 128 Гбайт. Вся оперативная память разбита на банки. Платы памяти SX умеют обрабатывать запросы к оперативной памяти во внеочередном порядке, что повышает эффективную пропускную способность при наличии конфликтов по обращению к банку памяти. Конвейерная выдача данных из памяти, поддержка переупорядочения запросов к памяти для уменьшения конкуренции из-за доступа к ней, наличие аппаратных средств, позволяющих скрыть задержки при обращении к оперативной памяти, - все это обеспечивает высокую реальную пропускную способность памяти.
В NEC SX используется страничная адресация оперативной памяти. За счет этого программные модули могут загружаться в несмежные области физической оперативной памяти, т. е. устраняются проблемы фрагментации. IXS обеспечивает работу с таблицами страниц при глобальной адресации оперативной памяти, с коммуникационными регистрами и командами глобальной пересылки данных.
Основные блоки подсистемы ввода-вывода в NEC SX - специализированные процессоры. Эти функциональные устройства разгружают центральный процессор от непосредственного управления вводом-выводом. Стоит отметить, что в NEC SX-5 пропускная способность процессоров ввода-вывода была увеличена вдвое по сравнению с SX-4 и составляет около 3,2 Гбайт/с. SMP-узел SX-5 может содержать до четырех таких устройств. Каждое из них способно поддерживать работу многих каналов ввода-вывода при наличии соответствующих канальных плат. Основные типы канальных карт в SX - HIPPI-800 (100 Мбайт/с), FC-AL (1 Гбит/с) и Ultra SCSI.
ГЛАВА II. ОБЩАЯ СТРУКТУРА КОМПЬЮТЕРА CRAY C90
2.1 Cray C90
Cray C90 (изначальное название Y-MP C90) -- серия векторных суперкомпьютеров, запущенная компанией Cray в 1991 году. Cray C90 была развитием архитектуры Cray Y-MP. По сравнению с Y-MP, C90 имел сдвоенный векторный конвейер и время такта менее чем 4.1 нс (244 МГц), что в совокупности дало тройное превосходство в производительности. Максимальное число процессоров в системе также было увеличено с 8 до 16[1].
Серия C90 включала модели C94, C98 и C916 (конфигурации с максимум четырьмя, восемью и шестнадцатью процессорами, соответственно) и C92A и C94A (модели с воздушным охлаждением). Максимум SRAM -- от 1 Гб до 8 Гб, в зависимости от модели. D92, D92A, D94 и D98 (также известные как C92D, C92AD, C94D и C98D соответственно) были оснащены медленной, но высокоплотной DRAM, позволяющей увеличить максимальный размер памяти до 16 Гб, в зависимости от модели. Преемником C90 стала Cray T90 (1995 г.).
Выпуск на рынок Cray C90 привел к финансовому краху проект Cray-3 инженера Сеймура Крэя, над которым тот работал с 1988 года. Сеймур Крэй в 1989 году покинул Cray Research, чтобы продолжить работу над Cray-3 в своей новой компании - Cray Computer Corporation, в то время как Cray Research бросила все усилия на завершение проекта C90. Главный потенциальный покупатель Cray-3 - Ливерморская национальная лаборатория - в декабре 1991 года отказалась от покупки Cray-3 в пользу C90 из-за сорванных сроков сдачи проекта.
Таблица 2 Разработки компании Cray
Cray Research |
Cray-1 * Cray X-MP * Cray-2 * Cray Y-MP * Cray XMS * Cray Y-MP EL * CrayC90 * Cray EL90 * Cray T3D * Cray J90 * Cray T90 * Cray T3E *Cray SV1 |
|
Cray Computer Corp. |
Cray-3 * Cray-4 |
|
Cray Research Superservers |
Cray APP * Cray S-MP * Cray CS6400 |
|
Cray Inc. |
Cray SX-6 * Cray MTA-2 * Cray Red Storm * Cray X1 * Cray XT3 * Cray XD1 * Cray XT4 * Cray XMT * Cray XT5 * Cray CX1 * Cray XT6 * Cray XE6 * Cray CX1000 * Cray XK6 * Cray XK7 * Cray XC30 * Cray XC40 |
|
Программное обеспечение |
Cray Operating System * Cray Time Sharing System * Unicos |
2.2 Основные концепции проектирования суперЭВМ
В векторных суперЭВМ обеспечена предельная производительность для процессов скалярной и векторной обработки, которая присутствует в большинстве задач. Задачи, содержащие высокую степень внутреннего параллелизма, могут быть хорошо адаптированы к системам массового параллелизма. Реальные задачи и, тем более, пакеты задач содержат целый ряд алгоритмов, имеющих различные уровни параллелизма.
Все это говорит о том, что вместо попыток приспособить все типы алгоритмов к одной архитектуре, что отражается на конфигурации архитектур и сопровождается не всегда корректными сравнениями пиковой производительности, более продуктивным является взаимодополнение архитектур в единой системе. Одним из первых примеров такой системы является объединение векторной системы Cray Y-XM с системой Cray T3D. Однако, это объединение с помощью высокоскоростного канала приводит к необходимости разбиения задач на крупные блоки и к потерям времени и памяти на обмен информацией.
Ситуация в данном случае подобна той, которая существовала до появления векторных машин. Для решения задач, содержащих большое число операций над векторами и матрицами, использовались так называемые матричные процессоры, например, фирмы FSP, которые подключались к универсальной машине с помощью канала ввода/вывода. Интеграция скалярной и векторной обработки в одном процессоре наряду с обеспечением высокой скорости работы синхронного конвейера обеспечила успех векторных машин.
Следующим логическим шагом является интеграция скалярной, векторной и параллельной обработки. Благодаря этому, может быть достигнута высокая реальная производительность за счет распределения отдельных частей программы по подсистемам с различной архитектурой. Естественно, это распределение работы должно быть поддержано аппаратно-программными средствами автоматизации программирования. Эти средства должны содержать возможность интерактивного вмешательства программиста на этапе анализа задачи и возможность моделирования или пробного запуска программы с измерением параметров эффективности. Следует подчеркнуть, что формы параллелизма в алгоритмах достаточно разнообразны, поэтому и их аппаратное отражение может быть различным. К наиболее простым можно отнести системы с одним потоком команд и множественными потоками данных, системы с множественными потоками команд и данных, систолические системы.
Одним из многообещающих подходов, обеспечивающих автоматическое распараллеливание, является принцип потока данных, при котором последовательность или одновременность вычислений определяется не командами, а готовностью операндов и наличием свободного функционального арифметического устройства. Однако, и в этом случае степень реального распараллеливания зависит от внутреннего параллелизма алгоритма и, очевидно, нужны эффективные способы подготовки задач. Кроме того, для реализации таких систем необходимо создание ассоциативной памяти для поиска готовых к работе пар операндов и систем распределения вычислений по большому числу функциональных устройств.
Аппаратная реализация параллельных подсистем полностью зависит от выбранных микропроцессоров, БИС памяти и других компонентов. В настоящее время по экономическим причинам целесообразно использовать наиболее высокопроизводительные микропроцессоры, разработанные для унипроцессорных машин.
Вместе с тем, существуют подходы, связанные с применением специализированных микропроцессоров, ориентированных на использование в параллельных системах. Типичным примером является серия транспьютеров фирмы Inmos. Однако, из-за ограниченного рынка эта серия по производительности резко отстала от универсальных микропроцессоров, таких, как Alpha, Power PC, Pentium. Специализированные микропроцессоры смогут быть конкурентноспособными только при условии сокращения расходов на проектирование и освоение в производстве, что в большой степени зависит от производительности инструментальных вычислительных средств, используемых в системах автоматизированного проектирования.
В различных вычислительных машинах использовались различные подходы, направленные на достижение, в первую очередь, одной из следующих целей:
· максимальная арифметическая производительность процессора;
· эффективность работы операционной системы и удобство общения с ней для программиста;
· эффективность трансляции с языков высокого уровня и исключение написания программ на автокоде;
· эффективность распараллеливания алгоритмов для параллельных архитектур.
Однако, в любой машине необходимо в той или иной форме решать все указанные задачи. Отметим, что сначала этого пытались достичь с помощью одного или нескольких одинаковых процессоров.
Дифференциация функций и специализация отдельных подсистем начала развиваться с появления отдельных подсистем и процессоров для обслуживания ввода/вывода, коммуникационных сетей, внешней памяти и т.п.
В суперЭВМ кроме основного процессора (машины) включались внешние машины. В различных системах можно наблюдать элементы специализации в направлениях автономного выполнения функций операционной системы, системы программирования и подготовки заданий.
Во-первых, эти вспомогательные функции могут выполняться параллельно с основными вычислениями. Во-вторых, для реализации не требуются многие из тех средств, которые обеспечивают высокую производительность основного процессора, например, возможность выполнения операций с плавающей запятой и векторных операций. В дальнейшем, при интеграции скалярной, векторной и параллельной обработки в рамках единой вычислительной подсистемы состав этих вспомогательных функций должен быть дополнен функциями анализа программ с целью обеспечения требуемого уровня параллелизма и распределения отдельных частей программы по различным ветвям вычислительной подсистемы.
Появление суперЭВМ сопровождалось повышением их общей мощности потребления (выше 100 кВт) и увеличением плотности тепловых потоков на различных уровнях конструкции. Их создание не в последнюю очередь оказалось возможным, благодаря использованию эффективных жидкостных и фреоновых систем охлаждения. Является ли значительная мощность существенным признаком суперЭВМ? Ответ на этот вопрос зависит от того, что вкладывается в понятие суперЭВМ.
Если считать, что суперЭВМ или, точнее, суперсистема - это система с наивысшей возможной производительностью, то энергетический фактор остается одним из определяющих эту производительность. По мере развития технологии мощность одного вентиля в микропроцессорах уменьшается, но при повышении производительности процессора за счет параллелизма общая мощность в ряде случаев растет. При объединении большого числа микропроцессоров в системе с массовым параллелизмом интегральная мощность и тепловыделение становятся соизмеримыми с аналогичными показателями для векторно-конвейерных систем. Однако, иногда в рекламных целях параллельные системы с небольшим числом процессоров сравниваются с суперкомпьютерами предыдущего или более раннего поколений, чтобы показать их преимущества в смысле простоты и удобства эксплуатации. Естественно, из такого некорректного сравнения нельзя сделать вывод о целесообразности создания современных суперсистем.
Основным стимулом создания суперсистем являются потребности решения больших задач. В свою очередь, исследования и разработки по суперсистемам стимулируют целый комплекс фундаментальных и прикладных исследований, результаты которых используются в дальнейшем в других областях. Прежде всего, это касается архитектуры и схемотехники вычислительных машин, высокочастотных интегральных схем и средств межсоединений, эффективных систем отвода тепла. Не менее важны результаты по методам распараллеливания при выполнении отдельных операций и участков программ на аппаратном уровне, методам построения параллельных алгоритмов, языков и программных систем для эффективного решения больших задач.
В развитии вычислительных средств можно выделить три основные проблемы:
· повышение производительности;
· повышение надежности;
· покрытие семантического разрыва.
Этапы развития вычислительных средств принято различать по поколениям машин. Характеристика поколения определяется конкретными показателями, отражающими достигнутый уровень в решении трех перечисленных проблем. Поскольку подавляющий вклад в развитие вычислительных средств всегда принадлежал технологическим решениям, основополагающей характеристикой поколения машин считалась элементная база. И действительно, переход на новую элементную базу хорошо коррелируется с новым уровнем показателей производительности, надежности и сокращения семантического разрыва.
В настоящее время актуальным является переход к новым поколениям вычислительных средств. По сложившейся традиции решающая роль отводится технологии производства элементной базы. В то же время становится очевидным, что технологические решения утратили монопольное положение. Так, например, в ближайшей перспективе заметно возрастает значение проблемы покрытия семантического разрыва, что отражается в необходимости создания высокосложных программных продуктов и требует кардинального снижения трудоемкотси программирования. Эта проблема решается преимущественно архитектурными средствами. Роль технологии здесь может быть только косвенной: высокая степень интеграции создает условия для реализации архитектурных решений.
В настоящее время одним из доминируюших направлений развития суперЭВМ являются вычислительные системы c MIMD-параллелизмом на основе матрицы микропроцессоров. Для создания подобных вычислительных систем, состоящих из сотен и тысяч связанных процессоров, потребовалось преодолеть ряд сложных проблем как в программном обеспечении (языки Parallel Pascal, Modula-2, Ada), так и в аппаратных средствах (эффективная коммутационная среда, высокоскоростные средства обмена, мощные микропроцессоры). Элементная база современных выcокопроизводительных систем характеризуется выcокой степенью интеграции (до 3,5 млн. транзисторов на кристалле) и высокими тактовыми частотами (до 600 МГц).
В настоящее время все фирмы и все университеты США, Западной Европы и Японии, разрабатывающие суперЭВМ, ведут интенсивные исследования в области многопроцессорных суперЭВМ с массовым параллелизмом, создают множество их типов, организуют их производство и ускоренными темпами осваивают мировой рынок в этой области. Многопроцессорные ЭВМ с массовым параллелизмом уже сейчас существенно опережают по производительности традиционные суперЭВМ с векторно-конвейерной архитектурой. Системы с массовым параллелизмом предъявляют меньшие требования к микропроцессорам и элементной базе и имеют значительно меньшую стоимость при любом уровне производительности, чем векторно-конвейерные суперЭВМ.
На ежегодной конференции в Чепел-Хилл (Сев.Каролина) представлен проект фирмы IBM, целью которого является создание гиперкубического параллельного процесора в одном корпусе. Конструкция, названная Execube, имеет 8 16-разрядных микропроцесоров, встроенных в кристалл 4Мбит динамического ЗУ (ДЗУ). При этом степень интеграци составляет 5 млн. транзисторов. Микросхема изготовлена по КМОП-технологии с тремя уровнями металлизации на заводе IBM Microelectronic (Ясу, Япония). Execube представляет собой попытку повышения степени интеграции процессора с памятью путем более эффективного доступа к информации ДЗУ. По существу, память превращается в расширенные регистры процессоров. Производительность микросхемы составляет 50 млн оп/с.
Фирма CRAY Research обёявила о начале выпуска суперкопьютеров CRAY T3/E. Основная характеристика, на которой акцентировали внимание разработчики - масштабируемость. Минимальная конфигурация составляет 8 микропроцессоров, максимальная - 2048. По сравнению с предыдущей моделью T3/D соотношение цена/производительность снижена в 4 раза и составляет 60 долл/Мфлопс, чему способствовало применение недорогих процессоров DEC Alpha EVC, изготовленных по КМОП-технологии. Предполагаемая стоимость модели Т3/Е на основе 16 процессоров с 1-Гбайт ЗУ составит 900 тыс. долларов, а цена наиболее мощной конфигурации (1024 процессора, ЗУ 64 Гбайт) -39,7 млн. долларов при пиковой производительности 600 Гфлопс.
Одним из способов дальнейшего повышения производительности вычислительной системы является объединение суперкомпьютеров в кластеры при помощи оптоволоконных соединений. С этой целью компьютеры CRAY T3/E снабжены каналами ввода/вывода с пропускной способностью 128 Гбайт/с. Потенциальные заказчики проявляют повышенный интерес к новой разработке фирмы. Желание приобрести компьютер изъявили такие организации как Pittsburgh Supercomputer Center, Mobile Oil, Департамент по океанографии и атмосферным исследованиям США. При этом подписано несколько контрактов на изготовление нескольких компьютеров 512-процессорной конфигурации.
Среди японских компаний следует выделить фирму Hitachi, которая выпустила суперкомпьютер SR2201 с массовым параллелизмом, содержащий до 2048 процесоров. В основе системы переработанная компанией процессорная архитектура RA-RISC от фирмы Hewlett-Paccard. Псевдовекторный процессор функционирует под управлением ОС HP-UX/MPP Mash 3.0. В компьютере, кроме того, использована система поддержки параллельного режима работы Express, созданная корпорацией Parasoft и получившая название ParallelWare. Производительность нового компьютера составляет 600 Гфлопс.
2.3 Разделяемые ресурсы процессора
Структура оперативной памяти.
Оперативная память этого компьютера разделяется всеми процессорами и секцией ввода/вывода. Каждое слово состоит из 80-ти разрядов: 64 для хранения данных и 16 для коррекции ошибок. Для увеличения скорости выборки данных память разделена на множество банков, которые могут работать одновременно.
Каждый процессор имеет доступ к ОП через четыре порта с пропускной способностью два слова за один такт каждый, причем один из портов всегда связан с секций ввода/вывода и по крайней мере один из портов всегда выделен под операцию записи.
В максимальной конфигурации вся память разделена на 8 секций, каждая секция на 8 подсекций, каждая подсекция на 16 банков. Адреса идут с чередованием по каждому из данных параметров:
адрес 0 - в 0-й секции, 0-подсекции, 0-м банке,
адрес 1 - в 1-й секции, 0-подсекции, 0-м банке,
адрес 2 - в 2-й секции, 0-подсекции, 0-м банке,
адрес 8 - в 0-й секции, 1-подсекции, 0-м банке,
адрес 9 - в 1-й секции, 1-подсекции, 0-м банке,
адрес 63 - в 7-й секции, 7-подсекции, 0-м банке,
адрес 64 - в 0-й секции, 0-подсекции, 1-м банке,
адрес 65 - в 1-й секции, 0-подсекции, 1-м банке,
При одновременном обращении к одной и той же секции из разных портов возникает задержка в 1 такт, а при обращении к одной и той же подсекции одной секции задержка варьируется от 1 до 6 тактов. При выборке последовательно расположенных данных или при выборке с любым нечетным шагом конфликтов не возникает.
Секция ввода/вывода
Компьютер поддерживает три типа каналов, которые различаются скоростью передачи:
· Low-speed (LOSP) channels - 6 Mbytes/s
· High-speed (HISP) channels - 200 Mbytes/s
· Very high-speed (VHISP) channels - 1800 Mbytes/s
Секция межпроцессорного взаимодействия
Секция межпроцессорного взаимодействия содержит разделяемые регистры и семафоры, предназначенные для передачи данных и управляющей информации между процессорами. Регистры и семафоры разделены на одинаковые группы (кластеры), каждый кластер содержит 8 (32-разрядных) разделяемых адресных (SB) регистра, 8 (64-разрядных) разделяемых скалярных (ST) регистра и 32 однобитовых семафора.
Регистры
Каждый процессор имеет три набора основных регистров (A, S, V), которые имеют связь как с памятью, так и с ФУ. Для регистров A и S существуют промежуточные наборы регистров B и T, играющие роль буферов для основных регистров.
Адресные регистры: A-регистры, 8 штук по 32 разряда, для хранения и вычисления адресов, индексации, указания величины сдвигов, числа итераций циклов и т.д. B-регистры, 64 штуки по 32 разряда.
Скалярные регистры: S-регистры, 8 штук по 64 разряда, для хранения аргументов и результатов скалярной арифметики, иногда содержат операнд для векторных команд. T-регистры, 64 штуки по 64 разряда. Скалярные регистры используются для выполнения как скалярных, так и векторных команд.
Векторные регистры: V-регистры, 8 штук на 128 64-разрядных слова каждый. Векторные регистры используются только для выполнения векторных команд.
Регистр длины вектора: 8 разрядов.
Регистр маски вектора: 128 разрядов.
Функциональные устройства
ФУ исполняют свой набор команд и могут работать одновременно друг с другом. Все ФУ конвейерные и делятся на четыре группы: адресные, скалярные, векторные и для работы с плавающей точкой.
Адресные ФУ (2): целочисленное сложение/вычитание, целочисленное умножение.
Скалярные ФУ (4): целочисленное сложение/вычитание, логические поразрядные операции, сдвиг, число единиц/число нулей до первой единицы.
Векторные ФУ (5-7): целочисленное сложение/вычитание, сдвиг, логические поразрядные операции (1-2), число единиц/число нулей до первой единицы (1-2), умножение битовых матриц (0-1). Предназначены для выполнения только векторных команд.
ФУ с плавающей точкой (3): сложение/вычитание, умножение, нахождение обратной величины. Предназначены для выполнения как векторных, так и скалярных команд.
Векторные ФУ и ФУ с плавающей точкой продублированы: векторные команды разбивают 128 элементов векторных регистров на четные и нечетные, обрабатываемые одновременно двумя конвейерами (pipe 0, pipe 1). Когда завершается выполнение очередной пары операций результаты записываются на соответствующие четные и нечетные позиции выходного регистра. В полностью скалярных операциях, использующих ФУ с плавающей точкой, работает только один конвейер.
ФУ имеют различное число ступеней конвейера, но каждая ступень срабатывает за один такт, поэтому при полной загрузке все ФУ могут выдавать результат каждый такт.
ЗАКЛЮЧЕНИЕ
Бурное развитие индустрии суперЭВМ послужило откликом на необходимость человечества в машинах, моделирующих процессы в реальном времени и выполняющих ряд других сложных задач. СуперЭВМ всегда являлись воплощением новейших научно-технических достижений и задавали темп и тенденции развития других видов машин. Пока рост производительности суперЭВМ отвечает увеличению сложности предстающих перед человеком проблем. Однако, можно заметить, что современная концепция развития вычислительных средств направлена, в основном, на количественное улучшение характеристик. Процесс разработки в некоторой степени можно назвать “выжиманием” максимума из уже созданного. Это подразумевает, что современный этап развития вычислительной техники уже вошел в состояние относительной стабильности, и каких-либо качественных измененний в пределах современной концепции едва ли придется ожидать. Очевидно, что за этапом стабильности, который может продлиться неопределенное время (но явно небольшое в масштабе постоянно ускоряющегося темпа жизни), последует “смутный период”, когда уровень возможностей суперЭВМ уже не сможет идти в ногу с потребностями человечества. Эта проблема породит необходимость в переходе на качественно новый уровень вычислительной техники.
Еще одним большим вопросительным знаком в развитии суперЭВМ остается проблема практического отсутствия достаточно чётких и понятных стратегических направлений достижения очевидной цели - создание искусственной интеллектуальной системы, максимально соответствующей естественной, то есть Человеку. Внося существенную неопределённость в саму стратегию развития суперЭВМ, эта проблема порождает ситуацию, когда постоянно расширяющаяся в последнее время мозаика феноменальных научных достижений в области создания ЭВМ, лишённая чёткой связующей системы взглядов на описание и моделирование интеллектуальных систем, не только не уменьшает эту неопределённость, но и в ряде случаев создаёт предпосылки к её увеличению.
Поэтому очень важным шагом, который следует сделать сейчас, является конкретизация стратегии дальнейшего развития суперЭВМ.
СПИСОК ИСТОЧНИКОВ
1. Алагич С.,Арбиб М. Проектирование корректных структурированных программ:Пеp. с англ.-М.:Радио и связь,1984.-264 с.:ил.
2. Ахо А. и др. Построение и анализ вычислислительных алгоритмов:Пеp. с англ./Ахо А.,Хопкрофт Дж.,Ульман Дж.-М.:Миp,1979.-536 с.
3. Бадд Тимоти Объектно-ориентированное программирование в действии.-Спб.:Питер,1997.-464 с.
4. Бейбер Р.Л. Программное обеспечение без ошибок:Пpиемы и секpеты создания пpавильных пpогpамм. Пеp. с англ.-М.:Джон Уайли энд Санз,1996.-176 с.
5. Бондарев В.М. и др. Основы программирования/Бондарев В.М.,Рублинецкий В.И.,Качко Е.Г.-Ростов н/Д:Феникс,1997.-368 с.-
6. Вальковский В. Распараллеливание алгоритмов и программ. Стpуктуpный подход.-М.:Наука,1989.-176 с.
7. Ван Тассел Д. Стиль, разработка, эффективность, отладка и испытание программ:Пеp.с англ.-2-е изд.,испp.-М.:Миp,1985.-332 с.
Размещено на Allbest.ru
...Подобные документы
Понятие и отличительные особенности супер-ЭВМ, история и основные этапы его разработок, современное состояние и тенденции, предъявляемые требования. Cray Titan как самый мощный суперкомпьютер современности, оценка его возможностей и обзор функций.
презентация [326,5 K], добавлен 21.10.2013Cуперкомп'ютери виробництва Cray Research. Векторна обчислювальна система: регістри та арифметико-логічний пристрій. Підходи до архітектури засобів векторної обробки. Архітектура комп’ютерів Cray. Реконфігурований блэйд-сервер. Програмне забезпечення.
курсовая работа [696,0 K], добавлен 18.05.2012Изучение внутренней и внешней архитектуры персонального компьютера. Логическая организация и структура аппаратных и программных ресурсов вычислительной системы. Описание различных компонентов ПК. Принципы их взаимодействия, функции и характеристики.
контрольная работа [33,0 K], добавлен 15.06.2014История появления и развития первых вычислительных машин. Изучение характеристик электронно-вычислительной машины. Архитектура и классификация современных компьютеров. Особенности устройства персональных компьютеров, основные параметры микропроцессора.
курсовая работа [48,6 K], добавлен 29.11.2016Определение понятия "суперкомпьютер". Рассмотрение особенностей программного обеспечения, производительности, сферы применения суперкомпьютеров. Принципы работы и основные характеристики SuperMUC. Фотоэкскурсия по самому быстрой информационной машине.
курсовая работа [1,7 M], добавлен 15.04.2015Суперкомп'ютери в сучасному суспільстві. Області застосування суперкомп'ютерів. Програмне забезпечення суперкомп'ютерів. Технічні характеристики Hopper - Cray XE6. Масштабованість програмного забезпечення. Інтегровані апаратні системи телемеханіки.
реферат [351,5 K], добавлен 22.04.2014Понятие, сущность, назначение, структура и принципы архитектуры ЭВМ. Основополагающие принципы логического устройства ЭВМ и ее структура по фон Нейману. Основные методы классификации компьютеров. Характерные особенности архитектуры современных суперЭВМ.
реферат [103,3 K], добавлен 26.03.2010Понятие архитектуры персонального компьютера, компоновка частей компьютера и связи между ними. Составляющие системного блока ПК. Функции центрального процессора, системной платы, оперативного запоминающего устройства, видеокарты и жесткого диска.
реферат [30,7 K], добавлен 28.01.2014Принципы программного управления компьютером. Модульная и функциональная организация, аппаратная реализация электронно-вычислительной машины. Назначение устройств ввода и вывода информации. Функции процессора; устройства внутренней и внешней памяти.
презентация [2,2 M], добавлен 27.11.2013Архитектуры вычислительных систем сосредоточенной обработки информации. Архитектуры многопроцессорных вычислительных систем. Классификация и разновидности компьютеров по сферам применения. Особенности функциональной организации персонального компьютера.
контрольная работа [910,2 K], добавлен 11.11.2010Архитектура и принципы построения электронно-вычислительных машин. Стратегические задачи суперкомпьютеров. Примеры их применения в военной сфере, науке и образовании, медицине, метеорологии. Рейтинг российских мощнейших компьютеров на мировом рынке.
презентация [523,1 K], добавлен 17.06.2016Основные характеристики процессора: быстродействие, тактовая частота, разрядность, кэш. Параметры материнской платы. Исследование архитектуры домашнего компьютера. Соотношение частоты памяти и системной шины в смартфоне, количество слотов памяти.
лабораторная работа [1,1 M], добавлен 26.12.2016Создание ТОР500 - рейтинга самых мощных общественно известных компьютерных систем мира. Современные достижения в сфере вычислительной техники. Внешний вид, производительность и архитектура суперкомпьютеров: Tianhe-2, Titan, Sequoia, K Computer, IBM Mira.
реферат [3,7 M], добавлен 01.12.2013Архитектура предприятия как инструмент управления изменениями. Проектирование архитектуры данных по TOGAF. Описание потоков и источников данных. Синхронизация данных по времени. Описание этапов и рекомендации по использованию инструментов проектирования.
дипломная работа [2,8 M], добавлен 09.09.2017Структура процессора Pentium, суперскалярность, основные особенности архитектуры. Организация конвейера команд, правила объединения. Дополнительные режимы работы процессора. Источники аппаратных прерываний. Формат ММХ команды. Процессор Pentium 4, схемы.
лекция [4,0 M], добавлен 14.12.2013Функциональный состав микро-ЭВМ, разработка системы команд. Описание взаимодействия всех блоков электронно-вычислительной машины при выполнении команд программы. Арифметико-логическое устройство, кэш-память процессора, функциональное моделирование.
курсовая работа [981,4 K], добавлен 27.05.2013Аппаратная часть мультимедийного компьютера. Скорость работы центрального процессора. Мониторы на электронно-лучевой трубке. Стандарты безопасности и электропотребления. Жидкокристаллические мониторы. Дисковод CD-ROM и DVD, видеокарта, звуковая карта.
реферат [40,3 K], добавлен 10.03.2015Системный блок компьютера и средства манипулирования. Архитектура фон Неймана. Архитектура компьютера разных поколений: на электронных лампах, на транзисторах, на интегральных схемах, на сверхбольших интегральных схемах. Принцип открытой архитектуры.
реферат [31,2 K], добавлен 05.07.2014Исторические предшественники компьютеров. Появление первых персональных компьютеров. Концепция открытой архитектуры ПК. Развитие элементной базы компьютеров. Преимущества многопроцессорных и многомашинных вычислительных систем перед однопроцессорными.
курсовая работа [1,7 M], добавлен 27.04.2013Изучение особенности архитектуры современных персональных компьютеров, основанной на магистрально-модульном принципе. Характеристика режимов использования шины передачи данных. Подключение к магистрали: контроллер, драйвер. Быстродействие системы ПК.
презентация [4,1 M], добавлен 18.04.2012