Внедрение искусственного интеллекта в различные области индустрии связано с необходимостью извлечения знаний, требующихся для реализации самых сложных проектов, из постоянно растущего количества данных. Для того, чтобы ускорить это внедрение, в дата-центрах должно использоваться самое современное и высокопроизводительное оборудование, и к такому оборудованию относится GPU NVIDIA® Tesla®V100.

Nvidia Tesla V100. Искусственный интеллект и высокопроизводительные вычисления

NVIDIA® Tesla®V100 - модель графического процессора с тензорными ядрами, созданная на архитектуре NVIDIA Volta и предназначенная для работы в сферах искусственного интеллекта и высокопроизводительных вычислений (HPC). На сегодняшний день это один из самых технически продвинутых в мире GPU для дата-центров, поскольку он обеспечивает производительность на уровне 100 CPU и выпускается в конфигурациях с 16 или 32 Гб памяти.

Уровень производительности Tesla V100 повышен до 100 тера-операций в секунду (TOPS), а объединение нескольких графических ускорителей V100 по технологии NVIDIA NVLink™ обеспечивает его пропускную способность в 300 Гб/с и позволяет создавать на его основе высокомощные вычислительные серверы и суперкомпьютеры. Например, один сервер, оснащенный Tesla V100 GPU и потребляющий 13 кВт энергии, обеспечивает в задачах инференса такую же производительность, как 30 CPU-серверов. Подобный скачок производительности и энергоэффективности способствует расширению масштабов применения сервисов с искусственным интеллектом.

NVIDIA® Tesla®V100 задействуется при решении задач, связанных с ИИ, например, с распознаванием речи, созданием виртуальных помощников, обучением сложных нейронных сетей в короткие сроки, а также для применения искусственного интеллекта в высокопроизводительных вычислениях при анализе большого объема данных или при проведении симуляций.

Ускоритель Tesla V100 (вид спереди).

Ускоритель Tesla V100 (вид сзади).

Ключевые особенности Tesla V100

К ключевым особенностям NVIDIA® Tesla®V100 относятся:

  • обновленный дизайн потокового мультипроцессора (Streaming Multiprocessor, SM), который был оптимизирован под решение задач глубокого обучения, а также получил большую (до 50%) энергоэффективность благодаря внедрению архитектурных изменений. Эти новшества позволили повысить производительность FP32- и FP64-вычислений при том же уровне энергопотребления. Кроме того, новые тензорные ядра (Tensor Cores), разработанные специально для тренировки и инференса нейросетей в задачах глубокого обучения (deep learning), дали Tesla®V100 12-кратное преимущество в скорости при тренировке нейросети и вычислениях смешанной точности. Целочисленные вычисления и вычисления с плавающей запятой теперь проходят по независимым параллельным потокам, что позволяет повысить эффективность Volta при смешанной загрузке. Новая объединенная подсистема кэширования данных первого уровня (L1-кэш) и разделяемой памяти (Shared Memory) значительно повышает производительность в некоторых задачах, заодно упрощая и их программирование;
  • поддержка второго поколения технологии высокоскоростных соединений NVLink, которая позволяет увеличить пропускную способность, обеспечить большее число линий данных и улучшить масштабируемость для систем с несколькими GPU и CPU. Новый процессор GV100 поддерживает до шести 25 Гб/с каналов NVLink, что дает общую пропускную способность в 300 ГБ/с. Вторая версия NVLink поддерживает также новые возможности серверов, основанных на процессорах IBM Power 9, включая когерентность кэша. Новая версия суперкомпьютера Nvidia DGX-1, основанная на Tesla V100, использует NVLink для обеспечения лучшей масштабируемости и сверхбыстрой тренировки нейросетей в задачах глубокого обучения;
  • высокопроизводительная и эффективная HBM2-память объемом в 16 Гб, которая обеспечивает пиковую пропускную способность памяти до 900 Гб/с. Совмещение быстрой памяти второго поколения производства компании Samsung и улучшенного контроллера памяти в GV100 обеспечило полуторакратный прирост в пропускной способности памяти по сравнению с предыдущим чипом GP100 архитектуры Pascal, при этом эффективное использование ПСП новым GPU достигает более чем 95% в реальных рабочих нагрузках;
  • функция Multi-Process Service (MPS), позволяющая нескольким процессам использовать совместно один и тот же GPU. В архитектуре Volta осуществляется аппаратное ускорение критических компонентов CUDA MPS-сервера, что позволяет повысить производительность, изоляцию и обеспечить лучшее качество обслуживания (QoS) для множества вычислительных приложений, использующих один GPU. Также в Volta было в три раза увеличено максимальное количество клиентов MPS - с 16 для Pascal до 48 для Volta;
  • улучшенная общая память и трансляция адресов. В GV100 общая память использует новые указатели, позволяющие переносить страницы памяти на процессор, который чаще обращается к этим страницам. Это повышает эффективность доступа к диапазонам памяти, разделяемым между разными процессорами. При условии использования платформ IBM Power, новые сервисы преобразования адресов (Address Translation Services, ATS) позволяют графическому процессору напрямую обращаться к страницам CPU.
  • совместные группы и новые API для совместного запуска. Совместные группы (Cooperative Groups) - это новая программная модель, введенная в CUDA 9 и предназначенная для организации групп связанных потоков. Совместные группы позволяют разработчикам задать гранулярность, с которой потоки обмениваются данными, помогая организовать более эффективные параллельные вычисления. Основная функциональность совместных групп поддерживается на всех графических процессорах компании, а в Volta была добавлена поддержка новых шаблонов синхронизации (synchronization patterns);
  • режимы максимальной производительности и максимальной энергоэффективности, позволяющие эффективнее использовать GPU в различных случаях. В режиме максимальной производительности ускоритель Tesla V100 будет работать без ограничения частоты при потреблении питания до уровня TDP в 300 Вт. Этот режим нужен для приложений, требующих наивысшей скорости вычислений и максимальной пропускной способности. Режим максимальной эффективности позволяет настроить энергопотребление ускорителей Tesla V100 так, чтобы получить оптимальную отдачу в пересчете на каждый ватт потребления энергии. При этом можно установить верхнюю планку потребляемой мощности для всех графических процессоров в серверной стойке, снизив энергопотребление при сохранении достаточной производительности;
  • оптимизированное программное обеспечение. Благодаря ему новые версии фреймворков глубокого обучения, такие как Caffe2, MXNet, CNTK, TensorFlow и другие могут использовать все возможности Volta для того, чтобы значительно повысить производительность тренировки и снизить время обучения нейросетей. Оптимизированные для Volta библиотеки cuDNN, cuBLAS и TensorRT, способны использовать новые возможности архитектуры Volta для повышения производительности задач глубокого обучения и стандартных применений HPC. Новая версия CUDA Toolkit 9.0 уже включает в себя новые и оптимизированные API с поддержкой функций Volta.

Такие особенности ускорителя Volta позволяют улучшить работу нейросетей в несколько раз, снизив время подготовки алгоритмов искусственного интеллекта к работе.

Архитектура Tesla V100

В аппаратную архитектуру Tesla®V100 инженерами Nvidia был внесен ряд изменений, которые коснулись чипа GV 100 и потоковых мультипроцессоров.

Новый GV 100 состоит из нескольких контроллеров памяти и вычислительных кластеров Graphics Processing Cluster (GPC), включающих в себя кластеры Texture Processing Cluster (TPC). В свою очередь, кластеры TPC состоят из нескольких потоковых мультипроцессоров Streaming Multiprocessor (SM).

Полная версия вычислительного процессора архитектуры Volta содержит шесть кластеров GPC и 42 кластера TPC, каждый из которых включает по два мультипроцессора SM. Это означает, что всего в чипе есть 84 мультипроцессора SM, каждый из которых содержит 64 вычислительных ядра FP32, 64 ядра INT32, 32 ядра FP64 и 8 новых тензорных ядер, специализирующихся на ускорении нейросетей. Также каждый мультипроцессор содержит по четыре текстурных модуля TMU.

Имея 84 SM, GV 100 располагает в общей сложности 5,376 ядрами FP32 и INT32, 2,688 ядрами FP64, 672 ядрами Tensor и 336 текстурными блоками.

SM-блок Volta GV100.

Для доступа к локальной видеопамяти в GPU имеется восемь 512-битных контроллеров HBM2-памяти, совместно дающих 4096-битную шину памяти. Каждый стек быстрой HBM2-памяти управляется собственной парой контроллеров памяти, а каждый из контроллеров памяти соединен с разделом кэш-памяти второго уровня объемом в 768 Кб, то есть, всего GV 100 обеспечивает 6 Мб L2-кэша.

Стоит отметить, что технически новый чип GV 100 совместим со старым. Это сделано для ускорения производства и внедрения новинки, которую можно использовать с теми же системными платами, системами питания и другими комплектующими.

Вычислительные возможности

Свои обновленные вычислительные возможности Tesla®V100 получил благодаря появлению новой версии программной платформы для вычислений на GPU - CUDA 9.

Эта версия пакета полностью поддерживает архитектуру Volta и ускоритель вычислений Tesla V100, а также имеет начальную поддержку специализированных тензорных ядер, которые обеспечивают большой прирост скорости при матричных операциях со смешанной точностью вычислений, широко распространенных в задачах глубокого обучения.

Также вычислительный процессор GV100 поддерживает новый уровень вычислительных возможностей - Compute Capability 7.0. Кроме того, в CUDA 9 имеются ускоренные библиотеки линейной алгебры, обработки изображений, FFT и других, улучшения в программной модели, поддержке унифицированной памяти, компиляторе и утилитах для разработчиков.

Volta GV100.

Спецификации Tesla®V100

Сравнительные характеристики спецификаций Tesla®V100 представлены в виде таблицы:

Максимальное энергопотребление для Tesla V100 для серверов c NVLink составляет 300 Вт, для Tesla V100 и Tesla V100s для PCIe серверов - 250 Вт.

Подводя итог

Ускоритель NVIDIA Tesla V100, обеспечивающий слияние HPC и искусственного интеллекта, хорошо проявляет себя как вычислениях при проведении симуляций, так и обработке данных для извлечения из них полезной информации. Это новая движущая сила искусственного интеллекта.