Семейства видеокарт Nvidia GeForce Справочная информация. NVIDIA: Новые GPU на базе архитектуры Pascal на подходе Поддержка асинхронных вычислений Async Compute

Компания NVIDIA готовит к выпуску новую серию игровых видеокарт, которую откроет GeForce GTX 1080. Эта модель станет первым продуктом игрового класса на базе архитектуры Pascal. GeForce GTX 1080 принесет ряд технологических инноваций, о которых мы поговорим в данной статье. Материал будет носить теоретический характер, в нем рассмотрены архитектурные особенности и новые возможности GeForce GTX 1080. Тестирование и сравнение с другими видеокартами появится позже.

Стремительный прогресс в миниатюризации кремниевых чипов в последние годы сбавил обороты. Компания Intel даже отказалась от стратегии «Тик-так», которая предусматривала регулярный переход на более тонкий техпроцесс. На рынке графических ускорителей в рамках одного 28-нм техпроцесса сменилось несколько поколений продуктов NVIDIA и AMD. Отчасти это пошло на пользу и заставило производителей больше внимания уделять развитию архитектуры. Этот качественный переход в свое время был хорошо заметен при переходе с Kepler на архитектуру Maxwell, когда новое поколение оказалось более производительным и энергоэффективным без увеличения количества транзисторов или даже при уменьшении размеров кристаллов. К примеру, GeForce GTX 980 базируется на более компактном чипе GM204, что не мешает видеокарте демонстрировать более высокую производительность относительно GeForce GTX 780 Ti с более сложным чипом GK110.

Новое поколение GeForce получит как новую архитектуру, так и более тонкий техпроцесс. И GeForce GTX 1080 во многих отношениях является первопроходцем. Это первый графический ускоритель на архитектуре Pascal с графическим процессором GP104, который выполнен по нормам техпроцесса 16-нм FinFET. Среди важных инноваций компания NVIDIA отмечает еще быструю память стандарта GDDR5X. Новые технологические особенности позволяют поднять частоты до рекордного уровня, определяя новый уровень «мастерства». А новые игровые технологии расширяют возможности GeForce, особенно в области работы с VR-контентом. Это пять основных особенностей, которые выделяет производитель в новом продукте.

Стоит отметить, что изначально первопроходцем архитектуры Pascal стал специализированный ускоритель вычислений Tesla P100. Он базируется на процессоре GP100. Но поскольку продукт ориентирован на совершенно другую сферу применения, то именно GeForce GTX 1080 является пионером среди настольных графических ускорителей.

GPU GP104 наследник GM204 , поэтому при изучении GeForce GTX 1080 можно отталкиваться от GeForce GTX 980, хотя новичок быстрее GeForce GTX 980 Ti и GeForce GTX Titan X. Процессоры Pascal используют кластерную структуру по типу предшественников, где кластер GPC (Graphics Processing Cluster) по сути является самостоятельным вычислительным блоком. В основе GP100 шесть кластеров, у GP104 четыре кластера, а следующий чип GP106 должен получить два кластера. Четыре GPC делают новый GPU GP104 максимально близким к GM204. Да и блок-схема этого чипа тоже напоминает старый процессор.

Различия в структуре проявляются при более внимательном изучении. В прошлом поколении кластер включал в себя четыре крупных мультипроцессорных блока SMM. У GP104 младшие исполнительные блоки сгруппированы в пять мультипроцессорных блоков SM. Каждый такой крупный блок обработки данных связан со своим блоком обработки геометрии Polymorph Engine, которых теперь 20 вместо 16 у GM204.

Один SM разбит на четыре массива обработки данных со своей управляющей логикой, и это тоже аналогично структуре старых GPU. И в обоих случаях мультипроцессор оперируют 128 потоковыми ядрами (CUDA cores). В SM есть 96 КБ общей кэш-памяти, отдельный текстурный кэш и восемь текстурных блоков. В итоге имеем конфигурацию из 2560 потоковых процессоров и 160 текстурных блоков. У нового процессора 64 блока ROP и кэш-память L2 объемом 2 МБ — тут отличий от GM204 нет.

Стало больше контроллеров памяти, в Pascal изменилась вся подсистема работы с памятью. Вместо четырех 64-битных контроллеров реализовано восемь 32-битных, что обеспечивает разрядность шины памяти в 256 бит. После успешного GeForce GTX 980 такая шина памяти в топовом продукте уже не удивляет. При этом эффективность шины у GeForce GTX 1080 выше за счет новых алгоритмов сжатия данных. Также рост пропускной способности обеспечивают микросхемы нового стандарта GDDR5X, у которых эффективное значение обмена данных эквивалентно частоте 10 ГГц. Привычная память GDDR5 ограничивалась частотами до 7 ГГц. Объем видеобуфера повышен до 8 ГБ.

Благодаря новому техпроцессу GP104 компактнее GM204 при большем количестве вычислительных блоков. При этом новый процессор имеет больше возможностей для повышения частот. Изначально для него установлено базовое значение в 1607 МГц при среднем Boost Clock 1733 МГц. Пиковые значения частоты еще выше. С такими рекордными частотами GeForce GTX 1080 укладывается в TDP 180 Вт, что немного выше показателей GeForce GTX 980. А ведь новичок быстрее топовой Ti-версии, у которой TDP заметно больше.

Для наглядного сравнения сведем в одной таблице характеристики GeForce GTX 1080 и топовых видеокарт предыдущих поколений.

Видеоадаптер GeForce GTX 1080 GeForce GTX Titan X GeForce GTX 980 Ti GeForce GTX 980 GeForce GTX 780 Ti
Ядро GP104 GM200 GM200 GM204 GK110
Количество транзисторов, млн. шт 7200 8000 8000 5200 7100
Техпроцесс, нм 16 28 28 28 28
Площадь ядра, кв. мм 314 601 601 398 561
Количество потоковых процессоров 2560 3072 2816 2048 2880
Количество текстурных блоков 160 192 176 128 240
Количество блоков рендеринга 64 96 96 64 48
Частота ядра, МГц 1607-1733 1000-1075 1000-1075 1126-1216 875-926
Шина памяти, бит 256 386 386 256 384
Тип памяти GDDR5X GDDR5 GDDR5 GDDR5 GDDR5
Частота памяти, МГц 10010 7010 7010 7010 7010
Объём памяти, МБ 8192 12288 6144 4096 3072
Поддерживаемая версия DirectX 12.1 12.1 12.1 12.1 12.0
Интерфейс PCI-E 3.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0
Мощность, Вт 180 250 250 165 250

Видеокарты NVIDIA среднего и старшего уровня давно используют технологию GPU Boost, которая повышает частоту графического процессора до тех пор, пока он не превысит ограничения по температуре или мощности. Минимальным значением для 3D-режима является базовая частота, но зачастую при обычной игровой нагрузке частоты всегда выше. Новые GeForce получили улучшенную технологию GPU Boost 3.0 с более гибким алгоритмом изменения частоты в зависимости от питающего напряжения в режиме частотного ускорения. У GPU Boost 2.0 фиксированная разница между базовым значением и частотой Turbo. GPU Boost 3.0 позволяет использовать разное смещение частот, что позволит лучше раскрыть потенциал GPU. Теоретически при автоматическом изменении параметров в Boost-режиме с повышением или понижением напряжения частота будет изменяться нелинейно, в каких-то точках дельта Boost может быть больше, чем это было бы с GPU Boost старой версии. Новые возможности гибкой регулировки Boost будут доступны пользователям. Свежая версия утилиты EVGA Precision уже поддерживает GeForce GTX 1080, среди ее возможностей автоматический сканер с тестом стабильности, который может формировать нелинейную кривую частот Boost для разных напряжений. Переход на новый техпроцесс и оптимизация структуры ядра позволили добиться столь значительного частотного ускорения, что максимальный Boost относительно заявленных значений может повышаться до уровня 2 ГГц.

С момента появления GDDR5 компания NVIDIA работала над следующим поколением скоростной памяти. Результатом взаимодействия с разработчиками памяти стало появление GDDR5X со скоростью передачи данных 10 Гбит/с. Работа со столь быстрой памятью выдвигает новые требования к разводке электрических цепей. Поэтому были переработаны линии передачи данных между GPU и микросхемами памяти, изменена структура самого чипа. Все это позволяет эффективно работать со сверхбыстрым видеобуфером. Среди преимуществ GDDR5X и более низкое рабочее напряжение на уровне 1,35 В.

При эффективной частоте памяти в 10000 МГц увеличение пропускной способности относительно привычных для нынешнего поколения 7012 МГц почти 43%. Но этим преимущества Pascal не ограничиваются. GeForce поддерживают специальные алгоритмы сжатия данных в памяти, что позволяет более эффективно использовать кэш и передавать больше данных при той же пропускной способности. Поддерживается несколько методик, в зависимости от типа данных выбирается свой алгоритм сжатия. Важную роль играет алгоритм сжатия цвета delta color compression. Благодаря ему кодируется не цвет каждого отдельного пикселя, а разница между пикселями при последовательной передаче данных. Вычисляется некий усредненный цвет тайла и данные о смещении цвета для каждого пикселя этого тайла.

Такое сжатие обеспечивает высокую продуктивность Maxwell, но эффективность Pascal еще выше. GPU GP104 дополнительно поддерживает новые алгоритмы с еще большим сжатием для случаев, когда разница между цветом минимальна.

В качестве примера NVIDIA приводит два слайда из игры Project CARS. Розовым цветом на них закрашены те тайлы, где применялось сжатие данных. Верхний слайд отражает работу сжатия на Maxwell, нижний на Pascal.

Как видим, сжатие у Pascal применяется и к тем зонам, где оно не выполнено на Maxwell. В итоге почти весь кадр подвергся сжатию. Конечно, эффективность работы таких алгоритмов зависит от каждой конкретной сцены. По данным NVIDIA разница в этой эффективности между GeForce GTX 1080 и GeForce GTX 980 варьируется от 11% до 28%. Если взять за среднее значение величину 20%, то с учетом повышения частот памяти результирующий рост пропускной способности составляет около 70%.

Новое поколения GeForce поддерживает асинхронные вычисления Async Compute с улучшенным использованием вычислительных ресурсов для разных типов задач. В современных играх GPU одновременно с рендерингом изображения могут выполнять и другие задачи. Это может быть расчет физики тел, постообработка изображения и специальная техника асинхронного искажения времени (Asynchronous Time Warp) для режима виртуальной реальности. При выполнении разных задач не всегда задействуются все вычислительные блоки, и выполнение каждой задачи может занимать разное время. К примеру, если неграфические вычисления выполняются дольше графических, то все равно идет ожидание завершения каждого процесса для переключения к новым задачам. При этом часть ресурсов GPU простаивает. В Pascal появилась динамическая балансировка загрузки. Если одна задача выполнилась раньше, то освободившиеся ресурсы подключаются на выполнение другой задачи.

Таким образом удается избежать простоев и поднять общую производительность при комбинированной нагрузке на GPU. При подобной нагрузке важную роль играет и скорость переключения между задачами. Pascal поддерживает прерывание задач на разных уровнях для максимально быстрого переключения. При получении новой команды процессор прерывает задачи на уровнях обработки пикселей и потоков, сохраняя их состояние для дальнейшего завершения, и вычислительные блоки принимаются за новую задачу. Pascal поддерживает прерывание на уровне отдельных инструкций, Maxwell и Kepler только на уровне потоков.

Прерывание на разных уровнях позволяет точнее определить момент переключения задачи. Это важно для техники Asynchronous Time Warp, которая деформирует уже сформированное изображения перед его выводом для коррекции в соответствии с положением головы. При Asynchronous Time Warp нужно быстрое упреждение для переключения строго перед выводом кадра, иначе возможны артефакты в виде «дрожания» картинки. Pascal справляется с этой задачей лучше всего.

В Pascal появилась аппаратная поддержка технологии мультипроецирования, которая позволяет работать одновременно с разными проекциями изображения. Специальный блок Simultaneous Multi-Projection внутри PolyMorph Engine отвечает за формирование разных проекций при обработке одного потока геометрии. Этот блок обрабатывает геометрию одновременно для 16 проекций с одним или двумя центрами перспективы. Это не требует повторной обработки геометрии и позволяет реплицировать данные до 32 раз (16 проекций на две точки).

Благодаря технологии можно получить корректное изображение на мультимониторных конфигурациях. При использовании трех мониторов изображение рендерится для одной проекции. Если крайние мониторы повернуты под небольшим углом, чтобы создать эффект окружения, то вы получите некорректную геометрию в боковых зонах. Мультипроецирование создает корректное изображение, формирую правильные проекцию в соответствии с углом положения монитора. Единственным условием для такого режима является поддержка широкого FOV самим приложением.

Такая методика формирования изображения позволяет наиболее эффективно использовать изогнутые панели, а также открывает возможности для корректного рендеринга на других устройствах вывода изображения, даже на сферическом экране.

Данная технология расширяет возможности Pascal при формировании стерео-изображения и в системах виртуальной реальности (VR). В режиме стерео формируется два изображения одной сцены для каждого глаза. Аппаратная поддержка Simultaneous Multi-Projection позволяет создать каждую проекцию для своего глаза при единоразовой обработке геометрии с использованием технологии Single Pass Stereo. И это значительно ускоряет работу в таком режиме.

В системах VR пользователь использует очки со специальными линзами, которые вносят определенные искажения. Для компенсации изображение немного деформируется по краям, а пользователь в итоге наблюдает откорректированную линзой картинку. Но изначально видеокарта обрисовывает изображение в обычной плоской проекции, а часть периферийного изображения потом отпадает.

Технология Lens Matched Shading может разбить изображение на четыре квадранта и сделать последующую выборку пикселей. То есть картинка изначально проецируется на несколько плоскостей, которые симулируют изогнутую форму линзы.

Итоговое изображения рендерится в меньшем разрешении, ненужные зоны отсекаются. Изначально в Oculus Rift на один глаз идет изображение 1,1 мегапиксель, но первоначальной плоской проекции оно рендерится в разрешении 2,1 мегапиксель. Благодаря Lens Matched Shading начальное изображение будет 1,4 мегапикселя. Это позволяет значительно увеличить производительность в VR-режиме.

Виртуальная реальность является перспективным направлением, которое расширит опыт взаимодействия с виртуальной средой и подарит игрокам новые ощущения. NVIDIA активно поддерживает развитие VR. Одним из сдерживающих факторов для популяризации VR-систем являются высокие требования к производительности графического ускорителя. Специальные технологии и аппаратная оптимизация способствует качественному росту быстродействия именно в этом направлении. Компания выпустила комплексный набор VRWorks из специальных API, библиотек и программных движков. В его состав входят в том числе средства работы с Single Pass Stereo и Lens Matched Shading. Сюда также входит технология MultiRes Shading, которая позволяет изменять разрешение в боковых зонах при VR-рендеринге с целью снижения нагрузки.

Эффект присутствия связан не только с визуальными ощущениями, но и с другими чувствами. Звук тоже играет важную роль. Поэтому NVIDIA разработала технологию VRWorks Audio для воссоздания реалистичного звука с учетом положения источника звуковых волн и отражения их от поверхностей. Технология использует движок OptiX, который изначально использовался для просчета освещения по методу трассировки лучей. Отслеживается путь звуковых «лучей» от источника до отражающих поверхностей и обратно. Этот прогрессивный метод позволит воссоздавать реалистичный звук с учетом акустических особенностей виртуального помещения и с наложением отраженных звуков. Подробнее об NVIDIA VRWorks Audio в видеоролике:

Усилить эффект погружения можно за счет взаимодействия с виртуальной средой. Сейчас интерактивность реализована за счет позиционного слежения и отслеживания ручных контроллеров. На базе PhysX создан механизм, который определяет, будет ли взаимодействие при виртуальном контакте с тем или иным объектом. Также с PhysX можно реализовать достоверные физически эффекты при воздействии на виртуальную среду.

В новом поколении видеокарт появилась поддержка VR SLI. Этот режим предусматривает, что обработкой изображения для каждого глаза в VR-режиме займется отдельный GPU. Такой способ исключает задержки при работе SLI и обеспечивает лучшую производительность. Поддержка VR SLI будет внедрена в движки Unreal Engine 4 и Unity, что позволяет надеяться на большую популяризацию этой технологии по мере роста доступности систем виртуальной реальности.

Простая технология SLI тоже обновилась. Старшие видеокарты GeForce всегда имели два разъема под мостики SLI. Этими мостики нужны для коммутации всех видеокарт друг с другом в режимах 3-Way и 4-Way SLI. Теперь в простом SLI две видеокарты могут использовать сразу два интерфейса обмена данными, повышая общую пропускную способность.

Новый способ коммутации требует новых сдвоенных мостиков SLI HB. Поддержка совместного режима при подключении по простому одинарному мостику сохраняется. Сдвоенный мостик рекомендуется для высоких разрешений — 4К, 5К и мультимониторных систем. Скоростной мостик рекомендуется также при 2K с монитором 120 Гц и быстрее. В более простых режимах можно обойтись мостиком старого образца.

У GeForce GTX 1080 повышена скорость самого интерфейса — с 400 МГц до 650 МГц. Она может быть реализована с новыми мостиками и с некоторыми версиями старого формата. Увеличение скорости обмена данными в SLI обеспечивает более плавную смену кадров и некоторый рост производительности в тяжелых режимах.

Возможности рендеринга на нескольких GPU в DirectX 12 были расширены. Поддерживается два основных типа работы с такими конфигурациями: Multi Display Adapter (MDA) и Linked Display Adapter (LDA). Первый позволяет работать совместно разным GPU, в том числе объединяя потенциал интегрированной и внешней графики. LDA рассчитан для совместного использования аналогичных решений. Implicit LDA по сути используется в SLI, благодаря чему обеспечивается широкая совместимость с приложениями на программном уровне. Explicit LDA и MDA дают больше возможностей разработчикам, но обеспечение такого режима в каждом приложении ложится на их плечи.

Также стоит отметить, что официально заявлено о поддержке SLI только в конфигурации из двух GeForce GTX 1080. Более сложные конфигурации теоретически возможны в режимах Explicit LDA и MDA. Интересно, что при этом NVIDIA предлагает разблокировать режим 3-Way и 4-Way при помощи специального кода для энтузиастов. Для этого нужно будет сделать специальный запрос на сайте компании по идентификатору своего GPU.

В GPU GP104 появилась поддержка Fast Sync. Эта технология является альтернативой включенной или выключенной вертикальной синхронизации. В динамичных играх (особенно многопользовательских) высокая частота кадров обеспечивает максимальную отзывчивость на действия пользователя. Но при превышении частоты обновления монитора возможны артефакты в виде разрывов изображения. Это нейтрализует вертикальная синхронизация, что обеспечивает попутно и некоторые задержки. Fast Sync позволяет выводить максимальное количество кадров без вероятных разрывов. Это обеспечивается аппаратными изменениями в конвейере вывода изображения. Вместо традиционного двойного буфера используется тройной, и выводится только полностью отрендеренный кадр.

С Fast Sync можно играть на обычном мониторе при 100-200 fps без визуальных артефактов и с минимальными задержками, как в обычном режиме с отключенным VSync. Ниже отражены результаты исследования задержек при выводе изображения в разных режимах в игре Counter-Strike: Global Offensive.

Как видим, небольшая разница между Fast Sync и выключенным VSync есть, но она не идет ни в какое сравнение относительно задержек вывода кадров с активным VSync.

Если же говорить не о максимальной отзывчивости, а о максимальной плавности изображения, то она обеспечивается технологией G-Sync, которая реализуется в связке со специальными мониторами. G-Sync обеспечивает полную аппаратную синхронизацию выводимых кадров с частотой обновления экрана.

GeForce GTX 1080 может выводить изображение через DVI, HDMI и DisplayPort. Поддерживается DisplayPort 1.2 и HDMI 2.0b с HDCP 2.2, но видеокарта готова и к DisplayPort 1.3/1.4. В случае использования последних возможен вывод изображения 4K при 120 Гц или 8K (7680x4320) при 60 Гц через два кабеля DisplayPort 1.3. Для сравнения нужно отметить, что GeForce GTX 980 может выводить только 5120x3200 при коммутации через два кабеля DisplayPort.

Стандартная версия GeForce GTX 1080 оснащается тремя портами DisplayPort, одним HDMI и одним Dual-Link DVI.

Процессор GP104 получил улучшенный блок декодирования/кодирования видео с поддержкой стандарта PlayReady 3.0 (SL3000) и аппаратного декодирования HEVC с поддержкой высококачественного видео 4K/8K. Полные возможности GeForce GTX 1080 в сравнении с GeForce GTX 980 отражены в нижней таблице.

В списке инноваций GeForce GTX 1080 поддержка контента и дисплеев HDR. Этот стандарт является крупный прорывом в технологиях, обеспечивая охват видимого цветового пространства в 75% вместо 33% у RGB при глубине цвета 10/12 бит. Такие дисплеи отображают больше оттенков, имеют выше яркость и глубже контраст, позволяя рассмотреть больше тонких цветовых нюансов. На данный момент уже выпускаются телевизоры с поддержкой HDR, мониторы ожидаются в следующем году.

Кроме декодирования HDR поддерживается и аппаратное кодирование, что позволит записывать видео такого стандарта. А в скором времени будет добавлена функция HDR-стриминга для игровой консоли Shield.

NVIDIA работает с разработчиками над тем, чтобы привнести HDR в сегмент компьютерных игр. В результате поддержку HDR получат Rise of the Tomb Raide , Tom Clancy"s The Division , The Talos Principle , Paragon, вторая часть Shadow Warrior и другие игры.

Современный гейминг меняется, у игроков проявляются новые интересы и желание взглянуть на любимую игру под новым углом. Иногда обычный скриншот превращается в нечто большее, чем простой кадр из игры. А с NVIDIA Ansel каждый скриншот может стать необычным. Это новая технология для захвата изображений с набором специальных возможностей. Ansel позволяет накладывать фильтры, улучшать изображение, использовать свободную камеру и создавать панорамы. Для полной функциональности нужна поддержка со стороны приложения. Для этого в Ansel предусмотрена простая интеграция. К примеру, для интеграции Ansel в The Witcher 3 разработчики добавили лишь 150 строчек кода, а для логической игры Witness понадобилось 40 строчек кода.

Ansel переводит игру в режим паузы и далее позволяет выполнять разные операции. Например, можно менять камеру и выбирать любой ракурс. Какие-то ограничения возможны только в случае, если разработчики намеренно ограничат движение свободной камеры.

Можно повышать разрешение конечного изображения и увеличивать уровень LOD, чтобы добиться максимальной четкости всех деталей. Повышение разрешение сочетается с дополнительным сглаживанием для лучшего эффекта.

Более того, Ansel позволяет создавать гигантские изображения вплоть до 4,5 гигапикселей. Такие изображения сшиваются из отдельных фрагментов, что выполняется на аппаратном уровне. Также на итоговое изображение можно наложить различные пост-эффекты. Изображение можно сохранить а формате RAW или в EXR с 16-битным кодированием цвета. Это даст широкие возможности для последующей работы с ним.

Можно создавать стереопанормы и 360-градусные снимки, которые потом можно рассматривать в очках виртуальной реальности.

Есть огромное множество эффектов, которые можно применять к захватываемому изображению — зернистость, Bloom, сепия, линзовые эффекты и много другого, вплоть до создания картинки с эффектом рыбьего глаза. Широкие возможности Ansel поражают. Игрок получает такие возможности, которых ранее просто не было.

После изучения архитектурных особенностей и новых технологий нужно взглянуть на саму видеокарту GeForce GTX 1080. Референсная версия внешне напоминает предыдущие модели со слегка обновленным дизайном и более резкими очертаниями.

Обратная стороны защищена двумя пластинами, что напоминает «бронирование» GeForce GTX 980.

Общая конструкция охлаждения осталась без изменений. Кулер работает по принципу турбины. Есть крупное основание, ребристый радиатор для охлаждения GPU и дополнительный радиатор в районе узла питания для лучшего охлаждения силовых элементов.

Все остальные нюансы мы рассмотрим в отдельной статье, где заодно проведем и сравнительное тестирование. Если говорить о предварительных оценках самого производителя, то NVIDIA сравнивает новинку с GeForce GTX 980 и говорит о преимуществе около 70% в простых играх и разрыве более чем в 2,5 раза в VR-режиме. Разница с GeForce GTX 980 Ti будет поменьше, но о каких-то конкретных значениям можно будет говорить после практических тестов.

Выводы

Настало время подвести итоги нашего теоретического знакомства с GeForce GTX 1080. Эта видеокарта на данный момент является самым продвинутым в технологическом плане продуктом среди графических ускорителей. В GeForce GTX 1080 впервые используется 16-нм процессор архитектуры Pascal и новая память GDDR5X. Сама архитектура является развитием Maxwell с оптимизациями и новыми функциями для DirectX 12. Архитектурные улучшения в значительной мере усиливаются за счет существенного роста частот GPU и памяти. Очень значительный прогресс в сфере VR-рендеринга благодаря новым технологиям, ускоряющим работу в этом режиме. Прогрессивным нововведением является поддержка HDR-дисплеев и соответствующего контента. Благодаря новому блоку обработки видео еще больше возможностей по воспроизведению и записи видео высокого разрешения, включая работу с форматом HDR. Любители сверхдинамичных мультиплеерных игр оценят технологию Fast Sync. Ценителей виртуальных красот порадуют возможности Ansel. Покупая GeForce GTX 1080, вы в итоге получите не просто самый быстрый на данный момент видеоускоритель, но и самый функциональный.

Официально данная модель станет доступна покупателям после 27 мая. Первыми в продажу поступят версии референсного дизайна Founders Edition. Они будут иметь более высокий ценник. Чуть позже выйдут нестандартные варианты, стоимость которых на $100 ниже. Ну а мы к моменту появления GeForce GTX 1080 на отечественном рынке постараемся в рамках большого тестирования в полной мере раскрыть их потенциал в сравнении с существующими топовыми видеокартами.

Видеокарта GeForce GTX 1080 Ti обладает 11Гб памяти GDDR5X, частотой графического процессора в 1583 МГц (с возможность разгона до 2000 МГц при штатной системе охлаждения), частотой памяти в 11 ГГц QDR, а также производительностью на 35% лучшей, чем у GeForce GTX 1080. И это при сниженной цене в 699$.

Новая видеокарта смещает GeForce GTX 1080 с позиции флагмана в линейке GeForce и становится самой быстрой графической картой, существующей на сегодняшний день, а также самой мощной картой на архитектуре Pascal.

Самая мощная игровая карта NVIDIA GeForce GTX 1080 Ti

NVIDIA GeForce GTX 1080 Ti является мечтой геймеров , которые смогут наконец наслаждаться последними играми класса ААА, играть в шлемах виртуальной реальности на высоком разрешении, наслаждаясь четкостью и точностью графики.

GTX 1080 Ti разрабатывалась как первая полноценная видеокарта для игр в 4K. Она оснащена самым новым и технологичным железом, которым не может похвастать ни одна другая видеокарта на сегодняшний день.

Вот официальная презентация NVIDIA GeForce GTX 1080 Ti

«Пришло время для чего-то нового. Того, что на 35% быстрее GTX 1080. Того, что быстрее Titan X. Давайте назовем это максимальной…

Год от года видеоигры становились все прекраснее, так что мы представляем топовый продукт нового поколения, чтобы вы могли наслаждаться играми нового поколения.»

Джен-Ксун

Характеристики NVIDIA GeForce GTX 1080 Ti

NVIDIA не поскупилась на начинку для своей новой и сверхмощной видеокарты.

Она оснащена тем же графическим процессором Pascal GP102 GPU, что и Titan X (P), но превосходит последнюю по всем показателям.

Процессор оснащен 12 млрд транзисторов и обладает шестью кластерами для обработки графики, два из которых блокированы. Это дает в общей сложности 28 мультипотоковых процессоров по 128 ядер каждый.

Таким образом, видеокарта GeForce GTX 1080 Ti обладает 3584 ядрами CUDA, 224 блоками отображения текстур и 88 ROP (блоки, отвечающие за z-буферизацию, сглаживание, запись финального изображения в кадровый буфер видеопамяти).

Диапазон разгона начинается от 1582 МГц до 2ГГц. Архитектура Паскаль создавалась преимущественно для разгона в референсе и более экстримального разгона в нестандартных моделях.

Видеокарта GeForce GTX 1080 Ti также обладает 11 Гб памяти GDDR5X , работающую через 352-битную шину . Флагман также оснащен самым быстрым решением G5X на сегодняшний день.

С новой системой сжатия и плиточного кэширования, пропускная способность видеокарты GTX 1080 Ti может быть увеличена до 1200 Гб/с, что превосходит достижения технологии AMD HBM2.

Спецификация NVIDIA GeForce GTX 1080 Ti:

Характеристики GTX TItan X Pascal GTX 1080 Ti GTX 1080
Техпроцесс 16 нм 16нм 16 нм
Транзисторов 12 млрд 12 млрд 7.2 млрд
Площадь кристалла 471мм² 471мм² 314мм²
Память 12 Гб GDDR5X 11 Гб GDDR5X 8 Гб GDDR5X
Скорость памяти 10 Гб/с 11 Гб/с 11 Гб/с
Интерфейс памяти 384-бит 352-бит 256-бит
Пропускная способность 480GB/s 484 GB/s 320GB/s
Ядер CUDA 3584 3584 2560
Базовая частота 1417 1607
Частота при разгоне 1530МГц 1583 МГц 1730 МГц
Вычислительная мощность 11 терафлопс 11.5 терафлопс 9 терафлопс
Тепловая мощность 250Вт 250Вт 180Вт
Цена 1200$ 699 US$ 499$

Охлаждение видеокарты NVIDIA GeForce GTX 1080 Ti

GeForce GTX 1080 Ti Founders оснащена новым решением распределения воздушного потока, который позволяет лучше охлаждать плату, а также длает это тише, чем предыдущие дизайнерские решения. Все это дает возможности сильнее разгонять видеокарту и достигать еще большей скорости. Кроме того, эффективность охлаждения улучшена за счет 7-фазной схемы питания на 14 dualFET-транзисторах высокой эффективности.

GeForce GTX 1080 Ti поставляется с последним NVTTM-дизайном, который представляет новую Vapor-камеру охлаждения, в которой в два раза большая площадь охлаждения, чем у Titan X (P). Этот новый тепловой дизайн помогает добиваться оптимального охлаждения и позволяет ускорить графический процессор видеокарты выше предусмотренных спецификацией показателей с технологией GPU Boost 3.0.

NVIDIA GeForce GTX 1080 Ti — мечта оверклокера

Итак, что нам делать с этой впечатляющей мощностью видеокарты? Ответ очевиден — разгонять до предела. Во время эвента, NVIDIA продемонстрировала выдающийся разгонный потенциал их видеокарты GTX 1080 Ti. Напомним, что им удалось достичь частоты процессора в 2,03ГГц на блокированных 60 FPS.

Обзор Nvidia GeForce GTX 1080 Pascal | Знакомимся с графическим процессором GP104

В преддверии выставки Computex Nvidia решила представить свою долгожданную новинку - адаптированную для геймеров архитектуру Pascal. В новых видеокартах GeForce GTX 1080 и 1070 производитель устанавливает графический процессор GP104. Сегодня, мы рассмотрим старшую модель, а младшая должна оказаться в наших руках в начале июня.

Архитектура Pascal обещает более быструю и более эффективную работу, больше вычислительных модулей, уменьшенную площадь кристалла и более быструю память с модернизированным контроллером. Она лучше подходит для виртуальной реальности, игр в 4K и других задач, требующих высокой производительности.

Как всегда, мы постараемся разобраться в обещаниях производителя и проверить их на практике. Начнем.

Изменит ли GeForce GTX 1080 расстановку сил в сегменте High-End?

Nvidia GeForce GTX 1080 – наиболее быстрая из двух игровых видеокарт, анонсированных в начале месяца. Обе используют графический процессор GP104, который, кстати, является уже вторым GPU с микроархитектурой Pascal (первым был GP100, появившийся на GTC в апреле). CEO Nvidia Жэнь-Сунь Хуань подразнивал энтузиастов, когда представлял новинку широкой общественности, утверждая, что GeForce GTX 1080 обгонит две 980 в SLI.

Также он отметил, что GTX 1080 при большей производительности имеет меньшее энергопотребление, чем 900-я серия. Она вдвое производительнее и втрое эффективнее бывшего флагмана GeForce Titan X, но если всмотреться в сопутствующие графики и диаграммы, то выясняется, что такая внушительная разница проявляется в определенных задачах, связанных с виртуальной реальностью. Но даже если эти обещания подтвердятся лишь частично, нас все равно ждут весьма интересные времена в плане развития high-end игр на ПК.

Виртуальная реальность начинает понемногу набирать обороты, но высокие аппаратные требования для графической подсистемы создают существенный барьер для доступа к этим технологиям. Кроме того, большинство доступных сегодня игр не умеют использовать преимущества многопроцессорного рендеринга. То есть, вы, как правило, ограничены возможностями одного быстрого видеоадаптера с одним GPU. GTX 1080 способна превзойти по скорости работы две 980-х и не должна испытывать затруднений в современных VR-играх, нивелируя потребность в многопроцессорных конфигурациях в будущем.

Не меньшими темпами прогрессирует экосистема 4K. Интерфейсы с повышенной пропускной способностью, такие как HDMI 2.0b и DisplayPort 1.3/1.4 должны открыть дверь для 4K мониторов со 120 Гц панелями и поддержкой динамической частоты обновления экрана уже к концу этого года. Хотя предыдущие поколения топовых графических процессоров AMD и Nvidia позиционировались как решения для игр в 4K, пользователям приходилось идти на компромиссы по качеству, чтобы поддерживать приемлемую частоту кадров. GeForce Nvidia GTX 1080 может стать первым графическим адаптером, скорости которого будет достаточно для поддержания высокой частоты кадров в разрешении 3840x2160 точек с максимальными настройками детализации графики.

Какова ситуация с конфигурациями из нескольких мониторов? Многие геймеры готовы устанавливать по три монитора с разрешением 1920x1080, но при условии, что графическая система справится с нагрузкой, ведь в этом случае карте приходится отрисовывать полмиллиона пикселей, поскольку разрешение составляет 7680x1440. Есть даже энтузиасты, готовые взять три 4K-дисплея с совокупным разрешением 11520x2160 точек.

Последний вариант слишком экзотичный даже для новой геймерской флагманской видеокарты. Тем не менее, процессор Nvidia GP104 оснащен технологией, которая обещает улучшить впечатления от типичных для новой модели задач, то есть 4K и Surround. Но прежде, чем мы перейдем к новым технологиям, давайте поближе познакомимся с процессором GP104 и лежащей в его основе архитектурой Pascal.

Из чего состоит GP104?

С начала 2012 года AMD и Nvidia используют 28-нанометровый техпроцесс. Перейдя на него, обе компании сделали существенный рывок вперед, представив нам видеокарты Radeon HD 7970 и GeForce GTX 680. Тем не менее, за последующие четыре года им пришлось сильно изворачиваться, чтобы вытянуть больше производительности из существующей технологии. Достижения видеокарты Radeon R9 Fury X и GeForce GTX 980 Ti - это настоящее чудо, учитывая их сложность. Первым чипом, созданным Nvidia по техпроцессу 28 нм, был GK104, состоявший из 3,5 миллиардов транзисторов. GM200, который устанавливается в GeForce GTX 980 Ti и Titan X, имеет уже восемь миллиардов транзисторов.

Переход на 16 нм технологию TSMC FinFET Plus позволил инженерам Nvidia реализовать новые идеи. Согласно техническим данным чипы 16FF+ на 65% быстрее, могут иметь вдвое большую плотность, чем 28HPM, либо потреблять на 70 меньше энергии. При создании своих GPU Nvidia использует оптимальную комбинацию этих достоинств. TSMC утверждает, что в основу были положены инженерные наработки существующего процесса 20 нм, но вместо плоских транзисторов использовала транзисторы FinFET. В компании говорят, что такой подход снижает количество брака, и повышает выход рабочих пластин. Также утверждается, что 20-нанометрвого техпроцесса с быстрыми транзисторами у компании не было. Повторимся, мир компьютерной графики более четырех лет "сидит" на техпроцессе 28 нм.


Блок-схема процессора GP104

Преемник GM204 состоит из 7,2 миллиардов транзисторов, размещенных на площади 314 мм2. Для сравнения площадь кристалла GM204 составляет 398 мм2 при 5,2 миллиардах транзисторов. В полной версии один GPU GP104 имеет четыре кластера обработки графики (Graphics Processing Clusters - GPC). Каждый GPC включает пять кластеров обработки потоков/текстур (Thread/Texture Processing Clusters - TPC) и блок растеризации. TPC сочетает в себе один потоковый мультипроцессор (Streaming Multiprocessor SM) и движок PolyMorph. SM объединяет 128 ядер CUDA одинарной точности, 256 Кбайт регистровой памяти, 96 Кбайт общей памяти, 48 Кбайт кэша L1/текстур и восемь текстурных блоков. Четвертое поколение движка PolyMorph включает новый блок логики, который находится в конце конвейера геометрии перед блоком растеризации, он управляет функцией мультипроекции Simultaneous Multi-Projection (об этом чуть ниже). В общем итоге мы получаем 20 SM, 2560 ядер CUDA и 160 блоков обработки текстур.


Один потоковый мультипроцессор (SM) в GP104

Бек-энд графического процессора включает восемь 32-битных контроллеров памяти (суммарная ширина канала 256-бит), восемь блоков растеризации и 256 Кбайт кэша L2 для каждого блока. В итоге мы имеем 64 ROP и 2 Мбайт разделенной кэш-памяти L2. Хотя на блок-схеме процессора Nvidia GM204 было показано четыре 64-битных контроллера и 16 ROP, они были сгруппированы и с функциональной точки зрения эквивалентны.

Некоторые структурные элементы GP104 похожи на GM204, ведь новый GPU был создан из "строительных блоков" своего предшественника. В этом нет ничего плохого. Если вы помните, в архитектуре Maxwell компания сделала ставку на энергоэффективность и не стала перетряхивать блоки, которые являлись сильной стороной Kepler. Аналогичную картину мы видим и здесь.

Добавление четырех SM не может заметно повлиять на производительность. Однако у GP104 есть несколько козырей в рукаве. Первый козырь – существенно более высокие тактовые частоты. Базовая тактовая частота GPU составляет 1607 МГц. В спецификациях GM204, для сравнения, указано 1126 МГц. Максимальная частота GPU Boost достигает 1733 МГц, но мы довели наш образец до 2100 МГц, используя бета-версию утилиты EVGA PrecisionX. Откуда такой запас для разгона? По словам Джона Албина, старшего вице-президента отдела разработки GPU, его команда знала, что техпроцесс TSMC 16FF+ повлияет на работу архитектуры чипа, поэтому они сосредоточили силы на оптимизации таймингов в микросхеме, чтобы убрать узкие места, препятствующие достижению более высоких тактовых частот. В результате скорость вычислений одинарной точности GP104 достигла 8228 GFLOPs (на базовой частоте) по сравнению с потолком в 4612 GFLOPs у GeForce GTX 980. Скорость закраски текселей подскочила с 155,6 Гтекс/с у 980-й (с GPU Boost) до 277,3 Гтекс /с.

GPU GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM 20 16
Количество ядер CUDA 2560 2048
Базовая частота GPU, МГц 1607 1126
Частота GPU в режиме Boost, МГц 1733 1216
Скорость вычислений, GFLOPs (при базовой частоте) 8228 4612
Количество блоков текстурирования 160 128
Скороть заполнения текселей, Гтекс/с 277,3 155,6
Скорость передачи данных памяти, Гбит/с 10 7
Пропускная способность памяти, Гбайт/с 320 224
Количество блоков растеризации 64 64
Объем кэша L2, Мбайт 2 2
Тепловой пакет, Вт 180 165
Количество транзисторов 7,2 млрд. 5,2 млрд.
Площадь кристалла, мм2 314 398 мм
Техпроцесс, нм 16 28

Бэк-энд по-прежнему включает 64 блоков ROP и 256-разрядную шину памяти, но чтобы увеличить доступную пропускную способность Nvidia внедрила память GDDR5X. Компания приложила много усилий для раскрутки нового типа памяти, особенно на фоне памяти HBM, которая используется в разных видеокартах AMD и HBM2, которую Nvidia устанавливает в Tesla P100. Складывается ощущение, что на рынке сейчас имеется нехватка памяти HBM2, при этом компания не готова принять ограничения HBM (четыре стека по 1 Гбайт, либо трудности, связанные с реализацией восьми стеков по 1 Гбайт). Таким образом, мы получили видеопамять GDDR5X, поставки которой, судя по всему, тоже ограничены, поскольку GeForce GTX 1070 уже использует обычную GDDR5. Но это не перекрывает достоинств нового решения. Память GDDR5 в GeForce GTX 980 имела скорость передачи данных 7 Гбит/с. Это обеспечивало 224 Гбайт/с пропускной способности через 256-разрядную шину. GDDR5X стартует с 10 Гбит/с, повышая пропускную способность до 320 Гбайт/с (увеличение на ~43%). По словам Nvidia прирост достигается благодаря модернизированной схеме ввода-вывода, причем без повышения энергопотребления.

Архитектура Maxwell стала более эффективно использовать пропускную способность путем оптимизации кэша и алгоритмов сжатия, тем же путем идет и Pascal с новыми методами сжатия без потерь, чтобы более экономно использовать доступную ширину канала подсистемы памяти. Алгоритм дельта-компрессии цветов пытается достигнуть выигрыша 2:1, причем этот режим был улучшен с целью более частого применения. Также есть новый режим 4:1, который применяется в тех случаях, когда различия на пиксель очень небольшие. Наконец, в Pascal представлен еще один новый алгоритм 8:1, который применяет сжатие 4:1 к блокам 2х2, разница между которыми обрабатывается по алгоритму 2:1.



Разницу не трудно проиллюстрировать. На первом изображении показан несжатый снимок экрана из игры Project CARS. На следующем снимке показаны элементы, которые может сжать карта на архитектуре Maxwell, они закрашены фиолетовым. На третьем снимке видно, что Pascal сжимает сцену еще больше. Согласно данным Nvidia, эта разница преобразуется примерно в 20%-ое сокращение информации в байтах, которую необходимо выбрать из памяти для каждого кадра.

Обзор Nvidia GeForce GTX 1080 Pascal | Конструкция референсной карты

Nvidia изменила свой подход к дизайну карт. Вместо "референсной" она называет собственную версию карты Founders Edition (версия создателей). Нельзя не заметить, что внешний вид GeForce GTX 1080 стал более угловатый, однако в системе охлаждения используется все тот же старый проверенный механизм выброса горячего воздуха наружу через боковую планку.

Карта весит 1020 г и имеет длину 27 см. Наощупь она достаточно приятная, поскольку кожух кулера не только выглядит как металлический, он действительной сделан из металла, точнее говоря, алюминия. Матовые серебристые части лакированы, и если обращаться с картой не очень аккуратно, они быстро поцарапаются.

Задняя пластина поделена на две части. Она служит лишь украшением и не несет охлаждающей функции. Позже мы узнаем, насколько это верное решение. Nvidia рекомендует снимать элементы этой пластины при использовании SLI, чтобы добиться лучшего прохода воздуха между картами, установленными вплотную друг к другу.

В нижней части нет ничего интересного, хотя мы заметили, что части черной крышки могут контактировать с элементами системной платы, расположенными под ней, например с кулером чипсета и портами SATA.

Вверху карты мы видим один вспомогательный восьмиконтактный разъем питания. Учитывая официальные спецификации видеокарты, а также 60 Вт мощности, получаемые от слота материнской платы, одного такого разъема должно быть достаточно для номинального теплового пакета 180 Вт. Естественно, мы проверим, сколько на самом деле мощности потребляет эта карта, и не перегружает ли она линии питания.

Также тут имеется два разъема SLI. Наряду с новыми видеокартами Pascal Nvidia представила новые мосты с высокой пропускной способностью. Позже мы рассмотрим их более подробно. Если коротко, пока официально поддерживаются конфигурации SLI только из двух видеокарт, и для работы двухканального интерфейса между GPU используются оба разъема.

На панели ввода/вывода доступно три полноценных разъема DisplayPort. В характеристиках указан стандарт DisplayPort 1.2, но, предполагается, что они будут совместимы с DisplayPort 1.3/1.4 (по крайней мере, контроллер дисплея может работать с новыми стандартами). Также есть выход HDMI 2.0 и двухканальный DVI-D. Аналоговые разъемы можете не искать.

На другом торце карты есть большая прорезь для захвата воздуха и три винтовых отверстия для дополнительной фиксации карты в корпусе.

Конструкция кулера и питание

После тщательного изучения внешнего вида пора посмотреть на начинку, спрятанную под алюминиевым кожухом. Сделать это оказалось сложнее, чем может показаться на первый взгляд. После разборки мы насчитали на столе 51 деталь, включая винты. Если снять вентиляторы, добавиться еще 12.

Nvidia, наконец, вернулась к использованию настоящей испарительной камеры. Она крепится к плате четырьмя винтами поверх графического процессора.

Центробежный вентилятор должен быть вам знаком. Прямой вывод тепла подразумевает забор воздуха в одном месте, его проход через ребра радиатора и вывод из корпуса. Кожух кулера, который также служит в качестве рамы, не только стабилизирует карту, но и помогает охладить преобразователи напряжения и модули памяти.

Сняв все внешние компоненты, мы добрались до печатной платы. В отличие от предыдущих решений Nvidia использует шестифазную схему питания. Пять фаз обслуживают графический процессор, а оставшаяся фаза обеспечивает работу памяти GDDR5X.

На плате можно заметить место для еще одной фазы, которое пустует.

Графический процессор GP104 занимает площадь 314 мм2, что намного меньше чем у его предшественника. Вокруг процессора просматриваются линии других слоев платы. Для достижения высоких тактовых частот проводники должны быть максимально короткими. В связи с жесткими требованиями партнерам Nvidia, вероятно, потребуется больше времени для налаживания производства.

Память GDDR5X представлена чипами 6HA77 производства Micron. Они совсем недавно пошли в массовое производство, поскольку на просочившихся ранее в прессу снимках новой видеокарты Nvidia мы видели чипы 6GA77.

В общей сложности восемь модулей памяти соединены с 256-разрядной шиной памяти через 32-разрядные контроллеры. При частоте 1251 МГц пропускная способность достигает 320 Гбайт/с.

Модули GDDR5X Micron используют 170-контактную упаковку вместо 190-контактной GDDR5. Кроме того они немного меньше: 14x10 мм вместо 14x12 мм. То есть у них плотность выше и им требуется улучшенное охлаждение.

Перевернув карту, мы обнаружили свободное место под второй разъем питания. Таким образом, партнеры Nvidia смогут установить второй вспомогательный разъем, чтобы добавить мощности, либо переместить имеющийся в другую позицию.

Также в плате есть прорезь, позволяющая развернуть разъем питания на 180 градусов.

Конденсаторы расположены непосредственно под GPU, чтобы сгладить возможные скачки. Также на этой стороне платы находится ШИМ (раньше он располагался с лицевой стороны). Такое решение дает партнерам Nvidia возможность устанавливать другие ШИМ-контроллеры.

Но вернемся к ШИМ-контроллеру стабилизатора напряжения. Технология Nvidia GPU Boost 3.0 получила новый набор требований к стабилизации напряжения, что привело к существенным изменениям. Мы ожидали увидеть контроллер типа IR3536A от International Rectifier в сочетании со схемой 5+1 фаза, но Nvidia использовала µP9511P. Это не лучшие новости для любителей разгона, поскольку карта не поддерживает интерфейс и протокол таких инструментов как MSI Afterburner и Gigabyte OC Guru. Переход на новый контроллер, который пока не очень хорошо описан, скорее всего, связан с техническими особенностями.

Поскольку контроллер ШИМ не может непосредственно управлять отдельными фазами преобразователя напряжения, Nvidia использует мощные MOSFET-драйверы с чипами 53603A для управления затвором МОП-транзисторов. Но по сравнению с некоторыми другими вариантами компоновка схемы выглядит аккуратно и опрятно.

Здесь есть различные типы МОП-транзисторов. 4C85N - это довольно эластичный двухканальный МОП-транзистор для преобразования напряжения. Он обслуживает все шесть фаз электропитания и имеет достаточно большие электрические и тепловые резервы, чтобы выдержать нагрузки эталонного дизайна.


Интересно, как технология Nvidia GPU Boost 3.0 и модифицированная схема стабилизатора напряжения повлияют на энергопотребление. Мы обязательно это проверим.

Обзор Nvidia GeForce GTX 1080 Pascal | Технология Simultaneous Multi-Projection и Async Compute

Движок Simultaneous Multi-Projection

Увеличенное число ядер, их тактовая частота и работа с памятью GDDR5X 10 Гбит/с ускоряют работу каждой протестированной игры. Однако архитектура Pascal включает несколько особенностей, которые мы сможем оценить лишь в грядущих играх.

Одну из новых функцией Nvidia называет Simultaneous Multi-Projection Engine или движок мультипроекции, представленный аппаратным блоком, добавленным в состав движков PolyMorph. Новый движок может создавать до 16 проекций геометрических данных из одной точки обзора. Либо он может сместить точку обзора для создания стереоскопического изображения, дублируя геометрию 32 раза силами аппаратных средств, то есть без ущерба производительности, с которым вы бы столкнулись, пытаясь добиться такого эффекта без SMP.


Одноплановая проекция

Попробуем разобраться в преимуществах данной технологии. К примеру, у нас есть три монитора в конфигурации Surround. Они немного повернуты внутрь, чтобы "обернуть" пользователя, так удобнее играть и работать. Но игры об этом не знают и визуализируют изображение в одной плоскости, поэтому оно кажется изогнутым на месте стыковки рамок мониторов, и в целом картинка выглядит искаженной. Для такой конфигурации было бы правильнее визуализировать одну проекцию прямо, вторую проекцию левее, как будто из панорамной кабины пилота самолета, и третью проекцию правее. Таким образом, ранее изогнутая панорама будет выглядеть разглаженной, и пользователь получит намного более широкий угол обзора. Всю сцену по-прежнему нужно растеризовать и закрасить, но зато GPU не придется визуализировать сцену три раза, благодаря чему устраняется лишняя нагрузка.


Некорректная перспектива на повернутых под углом дисплеях



Исправленная с помощью SMP перспектива

Однако приложение должно поддерживать настройки широких углов обзора и использовать вызовы API SMP. Это означает, что прежде чем вы сможете воспользоваться этой функцией, разработчики игр должны ее освоить. Мы не уверенны на счет того, как много усилий они готовы приложить ради горстки пользователей многомониторных конфигураций Surround. Но есть другие приложения, для которых имеет смысл реализовать эту функцию как можно скорее.


использование однопроходного стереорендеринга, SMP создает одну проекцию для каждого глаза

Возьмем в качестве примера виртуальную реальность. Для нее уже нужна индивидуальная проекция для каждого глаза. Сегодня игры просто визуализируют изображения на два экрана отдельно со всеми сопутствующими недостатками и потерями эффективности. Но поскольку SMP поддерживает два центра проекции, сцена может быть визуализирована в один проход с использованием функции Nvidia Single Pass Stereo (однопроходный стереорендеринг). Геометрия обрабатывается один раз, а SMP создает ее проекцию для левого и правого глаза. Далее SMP может применить дополнительные проекции для работы функции под названием Lens Matched Shading.


Изображения после первого прохода с функций Lens Matched Shading



Окончательная сцена, которая посылается в гарнитуру

Если коротко, Lens Matched Shading пытается сделать VR-рендеринг более эффективным, избегая большого объема работы, который обычно выполняется при рендеринге традиционной планарной проекции, для искажения геометрии в соответствии с искажением линз гарнитуры (таким образом, в местах самого большого изгиба пиксели отрисовываются впустую). К этому эффекту можно приблизиться, используя SMP для разделения области на квадранты. Так вместо рендеринга квадратной проекции и работы с ней, GPU создает изображения, соответствующие фильтру искажения линзы. Такой способ препятствует генерации лишних пикселей. Вы не заметите разницы в качестве, при условии, если разработчики будут соблюдать частоту выборки для глаза на HMD или превысят ее.

По заявлению Nvidia сочетание техник Single Pass Stereo и Lens Matched Shading способно обеспечить двукратный прирост производительности в VR по сравнению с GPU без поддержки SMP. Частично он связан с отрисовкой пикселей. Используя технологию Lens Matched Shading для избегания обработки пикселей, которые не должны быть визуализированы, интенсивность рендеринга в сцене со сбалансированными предустановками Nvidia упала с 4,2 Мп/с (Oculus Rift) до 2,8 Мп/с, таким образом, шейдерная нагрузка на GPU снизилась в полтора раза. Технология Single Pass Stereo, обрабатывающая геометрию лишь один раз (вместо повторного рендеринга для второго глаза) эффективно устраняет половину геометрической обработки, которая должна выполняться сегодня. Теперь понятно, что имел ввиду Жэнь-Сунь, когда заявлял о "двукратном приросте производительности и трехкратном приросте эффективности по сравнению с Titan X".

Асинхронные вычисления

Архитектура Pascal также включает некоторые изменения, касающиеся асинхронных вычислений, которые по ряду причин связаны с DirectX 12, VR и архитектурным преимуществом AMD.

Nvidia поддерживает статическое разделение ресурсов GPU для графических и вычислительных задач, начиная с архитектуры Maxwell. В теории такой подход хорош, когда оба блока активны одновременно. Но предположим, что 75% ресурсов процессора отдано графике, и он завершил свою часть задачи быстрее. Тогда этот блок будет простаивать, ожидая пока вычислительный блок завершит свою часть работы. Таким образом теряются все возможные преимущества одновременного выполнения этих задач. Pascal устраняет этот недостаток путем динамического балансирования нагрузки. Если драйвер решит, что один из разделов используется недостаточно активно, он может переключить его ресурсы в помощь другому, предотвращая простаивание, отрицательно влияющее на производительность.

Также Nvidia улучшила в Pascal возможности прерывания, то есть, возможность остановить текущую задачу, чтобы решить более "срочную" с очень коротким временем выполнения. Как известно графические процессоры - это сильно распараллеленные машины с большими буферами, предназначенными для того, чтобы похожие ресурсы, находящиеся рядом друг с другом, были заняты. Простаивающий шейдер бесполезен, так что его нужно всеми способами вовлечь в рабочий процесс.


Для VR лучше чтобы запросы на прерывание отправлялись как можно позже, чтобы захватить самые свежие данные отслеживания

Отличным примером является функция асинхронного прерывания времени (Asynchronous Time Warp - ATW), которую Oculus представила вместе с Rift. В случае, когда видеокарта не может выдать новый кадр каждые 11 мс на 90 Гц дисплей, ATW генерирует промежуточный кадр, используя последний кадр с корректировкой положения головы. Но для создания такого кадра должно быть достаточно времени, и, к сожалению, графическое прерывание не обладает высокой точностью. Фактически архитектуры Fermi, Kepler и Maxwell поддерживают прерывание на уровне отрисовки, то есть кадры могут переключаться в рамках вызова отрисовки, потенциально сдерживая технику ATW.

Pascal реализует для графики прерывание на уровне пикселей, поэтому GP104 может остановить текущую операцию на пиксельном уровне, сохранить ее состояние и переключиться на другой контекст. Вместо прерывания за миллисекунды, о котором писали в Oculus, Nvidia заявляет менее 100 микросекунд.

В архитектуре Maxwell эквивалент прерывания на пиксельном уровне в вычислительном блоке был реализовать посредством прерывания на уровне потока. В Pascal эта методика также сохранилась, но добавилась поддержка прерывания на уровне инструкций в вычислительных задачах CUDA. На данный момент драйверы Nvidia эту функцию не включают, но скоро она станет доступна вместе с прерыванием на уровне пикселей.

Обзор Nvidia GeForce GTX 1080 Pascal | Конвейер вывода, SLI и GPU Boost 3.0

Канал дисплея Pascal: HDR-Ready

В прошлом году мы встречались с представителями AMD в городе Сонома, что в Калифорнии, тогда они поделились некоторыми деталями своей новой архитектуры Polaris, в частности, рассказали о конвейере вывода изображения с поддержкой контента с расширенным динамическим диапазоном и соответствующих дисплеев.

Не удивительно, что архитектура Nvidia Pascal оснащается подобными функциями, некоторые из которых даже были доступны в Maxwell. Например, контроллер дисплея в процессоре GP104 получил поддержку 12-битного цвета, широкой цветовой палитры BT.2020, функцию электрооптической передачи SMPTE 2084 и стандарт HDMI 2.0b с HDCP 2.2.

К этому списку Pascal добавляет ускоренное декодирование HEVC в режиме 4K60p с цветом 10/12-бит через специализированный аппаратный блок, для которого заявлена поддержка стандарта HEVC Version 2. Раньше Nvidia использовал гибридный подход с использованием программных ресурсов. Кроме того кодирование ограничивалось восемью битами цветовой информации на каждый пиксель. Но мы полагаем, что для поддержки спорной спецификации Microsoft PlayReady 3.0 потребовала более быстрого и более эффективного решения.

Архитектура также поддерживает кодирование HEVC в 10-битном цвете в режиме 4K60p для записи или потоковой передачи в HDR, у Nvidia даже есть для этого специальное приложение. Используя кодирующие средства процессора GP104 и программу GameStream HDR, которая должна появиться в ближайшее время, вы сможете транслировать игры с высоким динамическим диапазоном на устройства Shield, подключенные к HDR-совместимому телевизору. Shield оснащается собственным декодером HEVC с поддержкой 10-битного цвета на пиксель, которой еще больше разгружает конвейер вывода изображения.

GeForce GTX 1080 GeForce GTX 980
Кодирование H.264 Да (2x 4K60p) Да
Кодирование HEVC Да (2x 4K60p) Да
Кодирование HEVC 10-бит Да Нет
Декодирование H.264 Да (4K120p до 240 Мбит/с) Да
Декодирование HEVC Да (4K120p/8K30p до 320 Мбит/с) Нет
Декодирование VP9 Да (4K120p до 320 Мбит/с) Нет
Декодирование HEVC 10/12-бит Да Нет

В дополнение к поддержке стандарта HDMI 2.0b видеокарта GeForce GTX 1080 имеет сертифицированную поддержку стандарта DisplayPort 1.2 и совместима с DP 1.3/1.4. В этом плане она уже превосходит еще не вышедшую Polaris, у которой контроллер дисплея пока поддерживает только DP 1.3. К счастью для AMD, спецификации версии 1.4 не предполагают наличие более быстрого режима передачи, и потолком по-прежнему является значение 32,4 Гбит/с, установленное режимом HBR3.

Как уже упоминалось ранее, карта GeForce GTX 1080 Founders Edition оснащается тремя выходами Display Port, одним разъемом HDMI 2.0b и одним цифровым двухканальным выходом DVI. Как и GTX 980 новинка способна выводить изображение на четыре независимых монитора одновременно. Но в сравнении с разрешением 5120x3200 через два кабеля DP 1.2, максимальное разрешение GTX 1080 составляет 7680x4320 точек при частоте обновления 60 Гц.

SLI теперь официально поддерживает только два GPU

Традиционно видеокарты Nvidia высшего уровня оснащаются двумя коннекторами для подключения двух, трех или даже четырех ускорителей в связке SLI. Как правило, лучшее масштабирование достигается в конфигурациях из двух GPU. Далее затраты себя часто не оправдывают, поскольку появляется много подводных камней. Тем не менее, некоторые энтузиасты все же используют по три и четыре графических адаптера в погоне за каждым дополнительным кадром и возможностью похвастаться перед друзьями.

Но ситуация изменилась. По словам Nvidia, из-за проблем, связанных с масштабированием производительности в новых играх, без сомнения связанных с DirectX 12, GeForce GTX 1080 официально поддерживает только конфигурации SLI из двух видеокарт. Так зачем же карте два разъема? Благодаря новым мостикам SLI оба разъема могут использоваться одновременно для передачи данных в двухканальном режиме. Кроме двухканального режима интерфейс также имеет повышенную с 400 МГц до 650 МГц частоту ввода-вывода. В результате пропускная способность между процессорами возрастает более чем в два раза.


Время рендеринга кадров в Middle earth: Shadow of Mordor с новым (голубая линия на графике) и старым (черный) мостом SLI

Впрочем, многие геймеры не ощутят преимуществ более быстрого канала. Он будет актуален, прежде всего, при высоких разрешениях и частоте обновления. Nvidia показала снимок, сделанный в FCAT с показателями двух GeForce 1080 GTX в игре Middle earth: Shadow of Mordor на трех дисплеях с разрешением 4K. Соединение двух карт старым мостиком привело к постоянным скачкам частоты времени кадра, которые приводят к предсказуемым проблемам с синхронизацией, проявляющимся в виде притормаживаний. С новым мостиком количество скачков сократилось, и они стали не так сильно выраженными.

По словам Nvidia двухканальный режим поддерживают не только мостики SLI HB. Уже знакомые нам мостики со светодиодной подсветкой тоже могут передавать данные на частоте 650 МГц при подключении к картам Pascal. От гибких или обычных мостиков лучше отказаться, если вы хотите работать в 4K или выше. Подробную информацию касательно совместимости можно найти в таблице, приведенной Nvidia:

1920x1080 @ 60 Гц 2560x1440 @ 120 Гц+ 2560x1440 4K 5K Surround
стандартный мост x x
LED мост x x x x
Мост с высокой скоростью передачи данных (HB) x x x x x x

Чем вызван отказ от трех- и четырехчиповых конфигураций? Ведь компания всегда стремится продать больше и добиться более высокой производительности. Можно цинично сказать, что Nvidia не хочет брать ответственность за потерю преимуществ при связке двух или четырех карт в SLI, когда рынок современных видеоигр использует все более тонкие и сложные подходы к рендерингу. Но компания настаивает, что действует в интересах покупателей, поскольку Microsoft отдает все больше возможностей управления многопроцессорными конфигурациями разработчикам игр, которые, в свою очередь, исследуют новые технологии, такие как совместный рендеринг одного кадра вместо нынешнего покадрового рендеринга (AFR).

Энтузиасты, которых заботят лишь рекорды скорости и не интересуют описанные выше факторы, по-прежнему могут связывать три или четыре GTX 1080 в SLI, используя старый софт. Им нужно сгенерировать уникальную "аппаратную" подпись, используя программу от Nvidia, с помощью которой можно запросить ключ "разблокировки". Естественно новые мостики HB SLI не будут работать более чем с двумя GPU, поэтому придется ограничиться старыми LED-мостиками, чтобы объединить работу трех/четырех GP104 на частоте 650 МГц.

Коротко о GPU Boost 3.0

С целью извлечь еще больше производительности из своих GPU, Nvidia снова усовершенствовала технологию GPU Boost.

В предыдущем поколении (GPU Boost 2.0) установка тактовой частоты осуществлялась путем перемещения на определенное значение наклонной линии зависимости напряжения/частоты. Потенциальный запас мощности выше этой линий обычно оставался незадействованным.


GPU Boost 3.0 – установка прироста частоты на один шаг увеличения напряжения

Теперь GPU Boost 3.0 позволяет устанавливать прирост частоты для отдельных значений напряжения, которые ограничиваются лишь температурой. Вдобавок вам не придется экспериментировать и проверять стабильность работы карты по всему диапазону значений на кривой. Nvidia имеет встроенный алгоритм для автоматизации этого процесса, создавая уникальную для вашего GPU кривую напряжения/частоты.

Обзор Nvidia GeForce GTX 1080 Pascal | Знакомимся с графическим процессором GP104

В преддверии выставки Computex Nvidia решила представить свою долгожданную новинку - адаптированную для геймеров архитектуру Pascal. В новых видеокартах GeForce GTX 1080 и 1070 производитель устанавливает графический процессор GP104. Сегодня, мы рассмотрим старшую модель, а младшая должна оказаться в наших руках в начале июня.

Архитектура Pascal обещает более быструю и более эффективную работу, больше вычислительных модулей, уменьшенную площадь кристалла и более быструю память с модернизированным контроллером. Она лучше подходит для виртуальной реальности, игр в 4K и других задач, требующих высокой производительности.

Как всегда, мы постараемся разобраться в обещаниях производителя и проверить их на практике. Начнем.

Изменит ли GeForce GTX 1080 расстановку сил в сегменте High-End?

Nvidia GeForce GTX 1080 – наиболее быстрая из двух игровых видеокарт, анонсированных в начале месяца. Обе используют графический процессор GP104, который, кстати, является уже вторым GPU с микроархитектурой Pascal (первым был GP100, появившийся на GTC в апреле). CEO Nvidia Жэнь-Сунь Хуань подразнивал энтузиастов, когда представлял новинку широкой общественности, утверждая, что GeForce GTX 1080 обгонит две 980 в SLI.

Также он отметил, что GTX 1080 при большей производительности имеет меньшее энергопотребление, чем 900-я серия. Она вдвое производительнее и втрое эффективнее бывшего флагмана GeForce Titan X, но если всмотреться в сопутствующие графики и диаграммы, то выясняется, что такая внушительная разница проявляется в определенных задачах, связанных с виртуальной реальностью. Но даже если эти обещания подтвердятся лишь частично, нас все равно ждут весьма интересные времена в плане развития high-end игр на ПК.

Виртуальная реальность начинает понемногу набирать обороты, но высокие аппаратные требования для графической подсистемы создают существенный барьер для доступа к этим технологиям. Кроме того, большинство доступных сегодня игр не умеют использовать преимущества многопроцессорного рендеринга. То есть, вы, как правило, ограничены возможностями одного быстрого видеоадаптера с одним GPU. GTX 1080 способна превзойти по скорости работы две 980-х и не должна испытывать затруднений в современных VR-играх, нивелируя потребность в многопроцессорных конфигурациях в будущем.

Не меньшими темпами прогрессирует экосистема 4K. Интерфейсы с повышенной пропускной способностью, такие как HDMI 2.0b и DisplayPort 1.3/1.4 должны открыть дверь для 4K мониторов со 120 Гц панелями и поддержкой динамической частоты обновления экрана уже к концу этого года. Хотя предыдущие поколения топовых графических процессоров AMD и Nvidia позиционировались как решения для игр в 4K, пользователям приходилось идти на компромиссы по качеству, чтобы поддерживать приемлемую частоту кадров. GeForce Nvidia GTX 1080 может стать первым графическим адаптером, скорости которого будет достаточно для поддержания высокой частоты кадров в разрешении 3840x2160 точек с максимальными настройками детализации графики.

Какова ситуация с конфигурациями из нескольких мониторов? Многие геймеры готовы устанавливать по три монитора с разрешением 1920x1080, но при условии, что графическая система справится с нагрузкой, ведь в этом случае карте приходится отрисовывать полмиллиона пикселей, поскольку разрешение составляет 7680x1440. Есть даже энтузиасты, готовые взять три 4K-дисплея с совокупным разрешением 11520x2160 точек.

Последний вариант слишком экзотичный даже для новой геймерской флагманской видеокарты. Тем не менее, процессор Nvidia GP104 оснащен технологией, которая обещает улучшить впечатления от типичных для новой модели задач, то есть 4K и Surround. Но прежде, чем мы перейдем к новым технологиям, давайте поближе познакомимся с процессором GP104 и лежащей в его основе архитектурой Pascal.

Из чего состоит GP104?

С начала 2012 года AMD и Nvidia используют 28-нанометровый техпроцесс. Перейдя на него, обе компании сделали существенный рывок вперед, представив нам видеокарты Radeon HD 7970 и GeForce GTX 680. Тем не менее, за последующие четыре года им пришлось сильно изворачиваться, чтобы вытянуть больше производительности из существующей технологии. Достижения видеокарты Radeon R9 Fury X и GeForce GTX 980 Ti - это настоящее чудо, учитывая их сложность. Первым чипом, созданным Nvidia по техпроцессу 28 нм, был GK104, состоявший из 3,5 миллиардов транзисторов. GM200, который устанавливается в GeForce GTX 980 Ti и Titan X, имеет уже восемь миллиардов транзисторов.

Переход на 16 нм технологию TSMC FinFET Plus позволил инженерам Nvidia реализовать новые идеи. Согласно техническим данным чипы 16FF+ на 65% быстрее, могут иметь вдвое большую плотность, чем 28HPM, либо потреблять на 70 меньше энергии. При создании своих GPU Nvidia использует оптимальную комбинацию этих достоинств. TSMC утверждает, что в основу были положены инженерные наработки существующего процесса 20 нм, но вместо плоских транзисторов использовала транзисторы FinFET. В компании говорят, что такой подход снижает количество брака, и повышает выход рабочих пластин. Также утверждается, что 20-нанометрвого техпроцесса с быстрыми транзисторами у компании не было. Повторимся, мир компьютерной графики более четырех лет "сидит" на техпроцессе 28 нм.

Блок-схема процессора GP104

Преемник GM204 состоит из 7,2 миллиардов транзисторов, размещенных на площади 314 мм2. Для сравнения площадь кристалла GM204 составляет 398 мм2 при 5,2 миллиардах транзисторов. В полной версии один GPU GP104 имеет четыре кластера обработки графики (Graphics Processing Clusters - GPC). Каждый GPC включает пять кластеров обработки потоков/текстур (Thread/Texture Processing Clusters - TPC) и блок растеризации. TPC сочетает в себе один потоковый мультипроцессор (Streaming Multiprocessor SM) и движок PolyMorph. SM объединяет 128 ядер CUDA одинарной точности, 256 Кбайт регистровой памяти, 96 Кбайт общей памяти, 48 Кбайт кэша L1/текстур и восемь текстурных блоков. Четвертое поколение движка PolyMorph включает новый блок логики, который находится в конце конвейера геометрии перед блоком растеризации, он управляет функцией мультипроекции Simultaneous Multi-Projection (об этом чуть ниже). В общем итоге мы получаем 20 SM, 2560 ядер CUDA и 160 блоков обработки текстур.

Один потоковый мультипроцессор (SM) в GP104

Бек-энд графического процессора включает восемь 32-битных контроллеров памяти (суммарная ширина канала 256-бит), восемь блоков растеризации и 256 Кбайт кэша L2 для каждого блока. В итоге мы имеем 64 ROP и 2 Мбайт разделенной кэш-памяти L2. Хотя на блок-схеме процессора Nvidia GM204 было показано четыре 64-битных контроллера и 16 ROP, они были сгруппированы и с функциональной точки зрения эквивалентны.

Некоторые структурные элементы GP104 похожи на GM204, ведь новый GPU был создан из "строительных блоков" своего предшественника. В этом нет ничего плохого. Если вы помните, в архитектуре Maxwell компания сделала ставку на энергоэффективность и не стала перетряхивать блоки, которые являлись сильной стороной Kepler. Аналогичную картину мы видим и здесь.

Добавление четырех SM не может заметно повлиять на производительность. Однако у GP104 есть несколько козырей в рукаве. Первый козырь – существенно более высокие тактовые частоты. Базовая тактовая частота GPU составляет 1607 МГц. В спецификациях GM204, для сравнения, указано 1126 МГц. Максимальная частота GPU Boost достигает 1733 МГц, но мы довели наш образец до 2100 МГц, используя бета-версию утилиты EVGA PrecisionX. Откуда такой запас для разгона? По словам Джона Албина, старшего вице-президента отдела разработки GPU, его команда знала, что техпроцесс TSMC 16FF+ повлияет на работу архитектуры чипа, поэтому они сосредоточили силы на оптимизации таймингов в микросхеме, чтобы убрать узкие места, препятствующие достижению более высоких тактовых частот. В результате скорость вычислений одинарной точности GP104 достигла 8228 GFLOPs (на базовой частоте) по сравнению с потолком в 4612 GFLOPs у GeForce GTX 980. Скорость закраски текселей подскочила с 155,6 Гтекс/с у 980-й (с GPU Boost) до 277,3 Гтекс /с.

GPU GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM 20 16
Количество ядер CUDA 2560 2048
Базовая частота GPU, МГц 1607 1126
Частота GPU в режиме Boost, МГц 1733 1216
Скорость вычислений, GFLOPs (при базовой частоте) 8228 4612
Количество блоков текстурирования 160 128
Скороть заполнения текселей, Гтекс/с 277,3 155,6
Скорость передачи данных памяти, Гбит/с 10 7
Пропускная способность памяти, Гбайт/с 320 224
Количество блоков растеризации 64 64
Объем кэша L2, Мбайт 2 2
Тепловой пакет, Вт 180 165
Количество транзисторов 7,2 млрд. 5,2 млрд.
Площадь кристалла, мм2 314 398 мм
Техпроцесс, нм 16 28

Бэк-энд по-прежнему включает 64 блоков ROP и 256-разрядную шину памяти, но чтобы увеличить доступную пропускную способность Nvidia внедрила память GDDR5X. Компания приложила много усилий для раскрутки нового типа памяти, особенно на фоне памяти HBM, которая используется в разных видеокартах AMD и HBM2, которую Nvidia устанавливает в Tesla P100. Складывается ощущение, что на рынке сейчас имеется нехватка памяти HBM2, при этом компания не готова принять ограничения HBM (четыре стека по 1 Гбайт, либо трудности, связанные с реализацией восьми стеков по 1 Гбайт). Таким образом, мы получили видеопамять GDDR5X, поставки которой, судя по всему, тоже ограничены, поскольку GeForce GTX 1070 уже использует обычную GDDR5. Но это не перекрывает достоинств нового решения. Память GDDR5 в GeForce GTX 980 имела скорость передачи данных 7 Гбит/с. Это обеспечивало 224 Гбайт/с пропускной способности через 256-разрядную шину. GDDR5X стартует с 10 Гбит/с, повышая пропускную способность до 320 Гбайт/с (увеличение на ~43%). По словам Nvidia прирост достигается благодаря модернизированной схеме ввода-вывода, причем без повышения энергопотребления.

Архитектура Maxwell стала более эффективно использовать пропускную способность путем оптимизации кэша и алгоритмов сжатия, тем же путем идет и Pascal с новыми методами сжатия без потерь, чтобы более экономно использовать доступную ширину канала подсистемы памяти. Алгоритм дельта-компрессии цветов пытается достигнуть выигрыша 2:1, причем этот режим был улучшен с целью более частого применения. Также есть новый режим 4:1, который применяется в тех случаях, когда различия на пиксель очень небольшие. Наконец, в Pascal представлен еще один новый алгоритм 8:1, который применяет сжатие 4:1 к блокам 2х2, разница между которыми обрабатывается по алгоритму 2:1.



Разницу не трудно проиллюстрировать. На первом изображении показан несжатый снимок экрана из игры Project CARS. На следующем снимке показаны элементы, которые может сжать карта на архитектуре Maxwell, они закрашены фиолетовым. На третьем снимке видно, что Pascal сжимает сцену еще больше. Согласно данным Nvidia, эта разница преобразуется примерно в 20%-ое сокращение информации в байтах, которую необходимо выбрать из памяти для каждого кадра.

В ходе конференции с инвесторами компания NVIDIA представила интересную статистику продаж видеокарт новой архитектуры Turing.

Несмотря на популярное мнение, будто Turing не продаётся, правда оказалась противоположной. Компания сравнила продажи настольных видеокарт Pascal и Turing ценой более 299 долларов за первые 8 недель и пришла к выводу, что новые решения продаются на 45% лучше.

В настоящее время Turing обладает базой установок в 2%, в то время как Pascal занимает 50%, а 48% - видеокарты прошлых архитектуры. Также компания сообщила, что 90% владельцев ускорителей GeForce обладает видеокартами медленнее GeForce GTX 1660 Ti.


Таким образом, в NVIDIA подытожили, что её будущее выглядит радужно, поскольку основная часть геймеров продолжает переоснащаться с повышением класса ускорителя. А разве может быть иначе на встрече с инвесторами?

NVIDIA: Turing более энергоэффективен, чем Vega 20

25 апреля

Многие ожидали, что в ходе GTC компания NVIDIA представит графический процессор Ampere, который будет изготавливаться по 7 нм нормам. Но этого не произошло, потому что NVIDIA абсолютно довольна Turing.

Дзень-Хсунь Хуан, основатель и исполнительный директор NVIDIA, заявил, что его компания не стремится к началу массового производства 7 нм продукции, потому что у неё есть Turing. Несмотря на то, что он производится по 12 нм нормам, он намного эффективнее AMD с 14 нм (Vega 10 = Radeon RX Vega 64) и даже 7 нм (Vega 20 = Radeon VII).

Хуан заявил: «Что делает нас особенными - так это способность создавать наиболее энергетически эффективные GPU в мире за всё время, используя наиболее доступные технологии. Посмотрите на Turing. Энергоэффективность очень хороша, по сравнению даже с 7 нм у некоторых» .

Исполнительный директор NVIDIA Дзень-Хсунь "Дженсен" Хуан

Компания AMD стала первой, кто смог достичь 7 нм норм в производстве графических процессоров. Но даже с такой совершенной технологией Radeon VII не смогла догнать NVIDIA Turing ни по эффективности, ни по производительности. Даже 14 нм Pascal более энергоэффективны, чем Vega 20.

Очевидно, что инженеры NVIDIA проделали огромную работу в последних поколениях процессоров, после фиаско поколения Fermi.

NVIDIA внедряет трассировку лучей на старых видеокартах и игровых движках

22 марта

Компания NVIDIA решила предоставить функционал трассировки лучей в реальном времени для видеокарт без аппаратной поддержки RTX .

В настоящий момент трассировка доступна только для карт серии RTX . После изменений трассировка будет осуществляться на всех видеокартах, начиная от GTX 1060.

Однако компания предупреждает, что будет ряд ограничений. К примеру, в Battlefield V можно получить улучшенное качество с минимальными потерями, в то время как в Metro Exodus в разрешении 1440p производительность может снизиться до неприемлемых 18 кадров в секунду.


Дело в том, что в Battlefield V трассировка применяется для отражений, и можно снизить силу эффектов для сохранения производительности. В Metro Exodus трассировка используется для создания высокореалистичных эффектов глобального освещения, симулируя свет реального мира. Это первая игра, которая полностью раскрывает потенциал RTX . Из-за высокой интенсивности вычислений карты GTX не способны выполнять подобные расчёты, только ядра RTX могут справиться с подобной нагрузкой.

Из-за этого карты RTX работают в подобных условиях в 3 раза быстрее, чем GTX 10-й серии. Однако в Shadow of the Tomb Raider замедление достигнет 2 раз, а в Battlefield V - 1,6 раза. Ситуация с картами серии 16xx немного лучше, поскольку они имеют целочисленные ядра.

По словам NVIDIA обновлённую технологию RTX уже поддерживают движки Unity и Unreal Engine. Недавно Crytek сообщила о реализации трассировки лучей в реальном времени в движке CryEngine 5 на любой видеокарте . Кроме того, NVIDIA решила поддержать разработку Кристофа Шида, который начал переделывать старый добрый Quake II для обеспечения поддержки RTX , и внесла полноценную обработку трассировки лучей в движок IdTech2 двадцатилетней давности. Получилось впечатляюще, судите сами:

Вышла финальная сборка MSI Afterburner 4.6.0

10 марта

Как и обещал Алексей Николайчук, он выпустил финальную сборку утилиты MSI Afterburner версии 4.6.0 , которая получила поддержку последних видеокарт AMD и NVIDIA, а также значительные изменения интерфейса и даже новый скин.

В утилите для разгона сделано огромное количество изменений. Сам автор насчитал более сотни. Кроме утилиты MSI Afterburner обновилось также средство-компаньон для мониторинга RivaTuner Statistic Server. Приложение RTSS получило номер версии RTSS 7.2.1.


Самые важны изменения в MSI Afterburner мы приводим ниже. Полный же перечень доступен на форуме сайта Guru of 3D .

  • Добавлена поддержка архитектуры Turing, добавлено управление напряжением на референсных видеокартах; улучшен контроль GPU Boost с возможностью управления мощностью и тепловыделением через график мощности/частоты.
  • Добавлена независимая поддержка множества вентиляторов.
  • Добавлена поддержка технологии NVIDIA Scanner.
  • Добавлен ряд аппаратных датчиков мониторинга напряжением.
  • Добавлена поддержка архитектуры Vega 20. Для Radeon VII добавлена поддержка Overdrive 8, добавлен мониторинг температуры GPU по двум каналам, VRM . Добавлен мониторинг загрузки GPU на Radeon VII.
  • Добавлено управление вентиляторами на драйвере AMD Adrenalin 2019.
  • Улучшен модуль аппаратного мониторинга: добавлено смещение температуры при мониторинге AMD Ryzen 7 2700X.
  • График «Использование файла подкачки» переименован в «Загрузка файла подкачки». Добавлено уведомление в мониторинге о том, можно ли применить изменения ко всем или выделенным графикам мониторинга. Графики можно выделять по типу и по группе через контекстное меню мониторинга.
  • Элементы экранного отображения (OSD - текст, графика или комбинация) теперь отображается в колонке свойств активного графика мониторинга.
  • Добавлена программируемая горячая клавиша для очистки истории мониторинга.
  • В окно свойств приложения добавлена кнопка «Применить».
  • В контекстном меню мониторинга добавлены команды «Отметить максимум» и «Отметить минимум».
  • Для захвата удобного для печати скриншота нужно нажать F11.
  • Для удаления нежелательных графиков можно держать Del и клацать по ним мышью.
  • Улучшен редактор OSD . Теперь для отображения доступны 250 слотов с переменными. Добавлена поддержка встраиваемых в текст графиков. Также графики можно располагать поверх текста. Добавлена возможность внесения разделителей.
  • Добавлена поддержка макросов для добавления любых данных в текст OSD (например % CPU temperature%).
  • Добавлена поддержка форматирования гипертекста в OSD .
  • Улучшена поддержка плагина HwInfo: добавлена загрузка ИБП, мощности, входного напряжения и уровня заряда аккумулятора в конфигурацию по умолчанию.
  • Улучшен редактор частоты/напряжения, который теперь доступен для AMD GPU .
  • Для переключения между точками на кривой частоты/напряжения теперь можно использовать клавиши Tab и Shift+Tab. Плавная настройка величин осуществляется клавишами вверх/вниз, а при дополнительном зажатии Ctrl переключение осуществляется по 10 МГц.
  • Для редактирования точки смещения частоты на графике нужно нажать Enter, при нажатии Shift+Enter можно задать абсолютную целевую частоту.
  • Немного изменено клавиатурное управление графиком частоты/напряжения на картах AMD. Ранее для настройки частоты использовались комбинации курсорных клавиш вверх/вниз, а напряжения - влево/вправо. Теперь частота и напряжение регулируются стрелками, а фокус меняется по PageUp/PageDown.
  • На картах AMD, чтобы переместить всю кривую частоты/напряжения, нужно зажимать клавишу Alt, как и на видеокартах NVIDIA.
  • Добавлена поддержка отмены/повтора по комбинациям клавиш Ctrl+Z и Ctrl+Y. После применения кривой история изменений очищается.
  • Расширен диапазон управления напряжением в кривой напряжения/частоты. Теперь можно занизить напряжение GPU для снижения энергопотребления.
  • Чтобы перечитать кривую напряжения/частоты из видеокарты нужно нажать F5.
  • Оси напряжения в графике теперь масштабируются автоматически.
  • Улучшен аппаратный контроль разделённым интерфейсом памяти, позволяя проводить управление графиком частоты/напряжения, внешние стресс-тесты и автоматический разгон приложениям, связанным с MSI Afterburner.
  • В дистрибутив включено новое приложение автоматического разгона MSI Overclocking Scanner. Приложение доступно на видеокартах NVIDIA GTX 10x0 и NVIDIA RTX 20x0 с 64-битной операционной системой. Сканер использует встроенный тест загрузки NVIDIA для стресс-теста GPU .
  • Добавлена группа настроек ограничителя частоты кадров в OSD . Она позволяет назначить горячие клавиши для глобального включения, отключения, и приближения ограничения частоты кадров для техник в RivaTuner Statistics Server.
  • В системном окне добавлено отображение данных о топологии процессора.
  • Исправлен доступ к аппаратным функциям мониторинга на GPU AMD Vega. Теперь значения температуры, энергопотребления и напряжения не искажаются.
  • Исправлен низкоуровневый мониторинг загрузки GPU для семейства AMD Polaris.
  • Жёсткое задание множителя частоты в графике напряжения/частоты было заменено эвристическим, что обеспечивает унифицированное управление кривой для GPU Pascal и более новых.
  • Улучшено масштабирование интерфейса редактора кривой напряжения/частоты.
  • Улучшена работа окон мониторинга и кривых при установке значений более 100%.
  • Многоязычный интерфейс привязан к разрешению и не масштабируется ОС, что обеспечивает высокую резкость при высокой плотности пикселей.
  • Масштаб скина теперь асинхронен. Это значит, что увеличение масштаба скина не замедляет время обновления интерфейса.

MSI Afterburner обновилась до версии 4.6.0 beta 10

28 декабря 2018 года

Алексей Николайчук опубликовал новую бета версию своей утилиты MSI Afterburner, в которой реализовал ожидаемую функцию автоматического разгона для видеокарт не только серии RTX , но и ускорителей с чипом Pascal. Кроме того, была добавлена поддержка нового оборудование и расширен спектр поддерживаемых датчиков, а также улучшилась поддержка видеокарт AMD.

Вот что сообщил сам автор: «Помимо обновления OC-сканера изменения коснулись и самого редактора кривой частот/напряжений, надеюсь, они порадуют фанатов снижения энергопотребления системы (как со стороны NV, так и со стороны AMD). Пределы частот/напряжений окна редактора теперь можно настраивать, поэтому тем владельцам видеокарт семейства NVIDIA GTX/ RTX , которые использовали функцию фиксации минимального напряжения в окне редактора, будет легче загнать рабочее напряжение ещё ниже. Владельцам GPU AMD также теперь можно пользоваться редактором кривой частот/напряжений для независимой настройки P-стейтов. Помимо этого, традиционно десятки пунктов мелких улучшений в настройках мониторинга и так далее, улучшающих юзабилити ПО» .


Перечень наиболее интересных изменений мы приводим ниже:

  • Добавлена поддержка контроллеров напряжения Monolithic Power Systems MP2884A and MP2888A.
  • Добавлен мониторинг температур VRM и VRM2 для заказных видеокарт RTX 2080Ti. Также расширены возможности управления напряжением, частотой GPU и памяти на этих видеокартах.
  • Улучшен модуль аппаратного мониторинга:
    • Добавлен температурный сдвиг для CPU AMD Ryzen 7 2700X/.
    • Одинаковые температуры теперь клонируются на все ядра на CPU AMD.
    • График «Использование файла подкачки» переименован на «Commit charge».
    • Улучшен редактор OSD .
  • Улучшен плагин HwInfo - добавлена нагрузка на ИБП, питание, входное напряжение и уровень заряда в конфигурацию по умолчанию.
  • Улучшен редактор напряжения/частоты:
    • Теперь редактор напряжения/частоты доступен на GPU AMD. Он позволяет редактировать частоты ядра и напряжений независимо для каждого состояния энергопотребления.
    • Как и для GPU NVIDIA появилась возможность настроить кажду точку напряжения и частоты независимо с помощью мыши и клавиатуры.
  • Состояния энергопотребления, доступные только для чтения, больше не отслеживаются.
  • Несколько увеличен диапазон напряжений и частоту по умолчанию. Теперь можно блокировать напряжение для даунклокинга видеокарты.
  • Обновить кривую из аппаратной части можно нажатием в редакторе.
  • Оси напряжения и частоты динамически масштабируются.
  • Технология MSI Overclocking Scanner теперь поддерживается на картах серий NVIDIA GTX 10x0 и NVIDIA RTX 20x0 в 64-битных операционных системах.
  • Улучшен аппаратный контроль интерфейса распределённой памяти. Ранее MSI Remote Server позволял управлять GPU из сторонних приложений. Теперь же появилась возможность проведения стресс-тестирования из внешних приложений.

Также была обновлена утилита-компаньон RivaTuner Statistic Server до версии 7.2.1 beta 4. Теперь возможности кастомизации OSD значительно расширились, улучшились возможности масштабирования и позиционирования шрифтов, подстройки размеров встраиваемых объектов и их заполнения, появился режим масштабирования скинов, добавлена возможность ограничения частоты кадров, добавлен тэг времени бенчмарка.