Перейти к содержанию Перейти к статье

Видеокарты AMD Radeon серии HD 6900 (AMD Cayman)

Обзор архитектуры и нововведений видеокарт AMD Radeon серии HD 6900 (AMD Cayman)

Архитектура

Не смотря на то, что архитектура ядра Cypress фактически отправлена на покой, проводить сравнение придется именно с ней. Ядро AMD Barts хоть и унаследовало основные достоинства предыдущей архитектуры, но по уровню производительности никак не дотягивает AMD Cypress. В принципе этого и не требовалось — видеокарты с графическим процессором Barts позиционируются чуть ниже. Спрос с ядра Cayman уже другой — новые графические процессоры должны были превзойти производительность Cypress, окончательно вытеснив их из линейки продукции AMD.

При условии того, что ядро Cayman пришлось строить на основе все тех же технорм 40нм, перед инженерами AMD стала непростая задача — выдавить максимум производительности при ограничениях возможных размеров ядра, соответственно и количестве используемых транзисторов.

Изрядно потрудившись, инженеры AMD все же нашли пути в более рациональной организации вычислительных конвейеров графического процессора:

Особенности архитектуры Cayman

Новая архитектура была переработана от начала до конца:

  • На входе удвоен блок геометрии
  • В центральной части процессора потоковые процессоры (SP) сменили архитектуру с VLIW5 на VLIW4, блоки операций с шейдерами получили 24 модуля SIMD, 96 модулей текстурирования (TMU)
  • В выходе обновились процессоры операций растеризации (ROP)

Разрядность интерфейса памяти была унаследована от предшественников — в AMD отказались от увеличения ширины, все тех же четыре 64-битных контроллера памяти в сумме дают 256-бит. Что бы как то скомпенсировать возможные проблемы пропускной способности интерфейса памяти, видеокарты AMD Cayman приобретут более быструю память GDDR5. Сам контроллер памяти подвергся некоторым изменениям, которые мы рассмотрим ниже.

Архитектура AMD Cayman
Архитектура AMD Cypress

Одним из самых слабых мест архитектуры Cypress являлся довольно слабый модуль тесселяции. Производительность в тесселяции была существенно увеличена у AMD Barts, но достигнутого было однозначно мало, что бы конкурировать с более производительными видеокартами конкурентов. В процессоре Cayman были предприняты более радикальные меры: вместо наращивания размеров блока геометрии, инженерами было принято решение использовать два параллельных блока:

Расширение графического блока

Такое решение вполне оправдано — эффективность использования входного блока выросла вместе с пропускной способностью. Удвоилось и количество обновленных модулей тесселяции, на этот раз уже восьмого поколения.

В сердце графического процессора не менее глобальные изменения. Новая архитектура потоковых процессоров VLIW4 позволила сократить площадь каждого SIMD на 10%, при этом сохранить уровень производительности предыдущей архитектуры VLIW5:

Новый дизайн потокового процессора

При первом взгляде на потоковые процессоры новой архитектуры, возникает ощущение, что сам SP просто напросто урезали:

SP архитектуры VLIW4

На самом деле это не совсем так. Возросла функциональность каждого модуля, к тому же они стали равноправными. Для сравнения нашлась иллюстрация SP архитектуры VLIW5:

SP архитектуры VLIW5

Одними из главных причин смены архитектуры потоковых процессоров с одной стороны стали ограничения в размере ядра / кол-ве транзисторов, с другой стороны асинхронная архитектура VLIW5 очень часто в полной мере не использовалась приложениями из-за трудностей оптимизации кода. Кроме изменений размеров SP, архитектура VLIW4 приносит теоретический рост производительности в операциях с двойной точностью и снова таки — некоторые улучшения для разработчиков в упрощения менеджмента планировщика и регистров для компилятора и упрощения, связанные с симметричной архитектурой.

На выходе обновленный процессор операций растеризации (ROP) удвоил производительность в 16-битных целочисленных операциях, производительность в 32-битных операциях с плавающей запятой возросла в 2-4 раза, операции записи теперь группируются:

Обновленные модули растеризации

Как видим, расширили и донышко графического процессора. В теории, окно каждого блока было расширенно, позволяя более эффективно использовать графический процессор. Но где то за рамками доступной информации остались изменения в организации кросс-бара и буферов, без которых часть улучшений могут остаться только в теории. Были какие то изменения в этом направлении или нет — могут ответить только сами инженеры AMD, мы же рассмотрим доставшуюся информацию.

Как уже говорилось, видеокарты Cayman используют более скоростную память, что бы компенсировать ограниченную пропускную способность интерфейса. Необходимость изменений в контроллере памяти назревала давно, и Cayman все же их получил, вот только для каких целей…

В свете последних событий, AMD все же решила извлечь преимущества от покупки ATI для своего процессорного подразделения. Ставка сделана на общие вычисления (GPGPU). По мнению AMD в мире центральных процессоров назрел кризис. Дальнейшее наращивание производительности центральных процессоров ограниченно технологическими аспектами производства. И в то время, когда все гадают как быть дальше — в AMD увидели выход «под ногами». По замыслу AMD, ключевым моментом в увеличении производительности процессоров могут стать видеокарты. Архитектура видеокарт действительно дает некоторые преимущества в арифметических операциях. NVIDIA уже давно активно продвигает свои ускорители, основанные на собственной платформе общих вычислений CUDA, и достаточно успешно. В свое время упустив этот рынок, AMD сделала более широкую ставку на индустриальные платформы. С одной стороны компания всячески поддерживает и продвигает открытый стандарт OpenCL, с другой стороны старается максимально использовать возможности общих вычислений, заложенных в API DirectX 11 — DirectCompute. О войнах в мире общих вычислений нам предстоит отдельный разговор, а сейчас стоит вернуться к нашим видеокартам.

И так в процессорах Cyaman улучшения для не графических вычислений оказались достаточно серьезными:

Улучшения вычислений

  • Диспетчер теперь стал асинхронным. Дало это не много ни мало много-поточность вычислений, и не менее значимую возможность использования потоками вычислений индивидуального выделенного виртуального адресного пространства в защищенном режиме.
  • Контроллер памяти получил двунаправленный режим DMA.
  • Группировка операций чтения в шейдеры.
  • Прямая выборка в LDS.
  • Улучшения диспетчера потоков.
  • Более быстрые операции с двойной точностью. Но зачем? В мире обычной графики операции с двойной точностью встречаются чуть чаще чем никогда. А в мире профессиональных решений такие операции без ECC никому не нужны. Воспримем этот пункт на тонкий намек на поддержку коррекции ошибок в будущих поколениях графических процессоров AMD.

Комментариев нет

Добавить комментарий

Аватар