Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Pure Storage стала партнером компании Meta в создании исследовательского суперкластера ИИ (RSC ? Research SuperCluster)

25, январь 2022  —  Pure Storage ® ( NYSE : PSTG ), ИТ-пионер в отрасли, предоставляющий СХД как услугу (storage as-a-service), сегодня объявила о своей роли в новом исследовательском суперкластере ИИ (RSC) компании Meta, который, по мнению Meta, станет самым быстрым суперкомпьютером ИИ в мире.

Объявленный сегодня RSC помогает исследователям ИИ компании Meta создавать новые и лучшие модели ИИ, которые могут работать на сотнях различных языков, безупречно анализировать текст, изображения и видео, разрабатывать новые инструменты дополненной реальности и многое другое. RSC проложит путь к созданию технологий для следующей крупной вычислительной платформы Meta - metaverse, где приложения и продукты на основе ИИ будут играть важную роль.

Meta выбрала Pure, так как компании нужен партнер по хранению данных, способный предоставить надежные и масштабируемые возможности хранения данных, необходимые для работы RSC. Благодаря FlashArray TM и FlashBlade ® RSC будет иметь беспрецедентную производительность для быстрого анализа структурированных и неструктурированных данных, подкрепленную основами Pure - простотой, надежностью и устойчивостью.

Pure является давним поставщиком технологий для Meta, который помог в разработке первого поколения исследовательской инфраструктуры ИИ Meta в 2017 году. С тех пор Meta продолжает сотрудничать с Pure, и RSC является новым примером того, как Pure помогает Meta достичь своих целей в области исследований ИИ.

« Технологии, обеспечивающие работу метавселенной, потребуют мощных вычислительных решений, способных мгновенно анализировать постоянно растущие объемы данных. RSC компании Meta — это прорыв в области суперкомпьютеров, который приведет к появлению новых технологий и клиентского опыта, основанных на ИИ. Мы рады быть частью этого проекта и с нетерпением ждем прогресса, которого добьются исследователи ИИ компании Meta », - сказал Роб Ли, технический директор Pure Storage.

Портфолио Pure позволяет работать с крупномасштабными рабочими нагрузками ИИ с помощью высокопроизводительных, архитектурно оптимизированных решений с минимальным воздействием на окружающую среду, позволяя клиентам оперативно обрабатывать огромные объемы данных из структурированных и неструктурированных источников надежно и эффективно. Решения, используемые в RSC Meta, включают:

•  FlashArray // C - это корпоративная платформа большой емкости, обеспечивающая гиперконсолидацию, проверенную 99,9999% доступность и постоянную одномиллисекундную задержку для самых требовательных сред. Уникальная архитектура на базе QLC позволяет массиву соответствовать строгим требованиям к производительности, энергопотреблению, плотности и занимаемому пространству в среде RSC.

•  FlashBlade - это самое передовое в отрасли решение для хранения данных на базе технологии all-flash, предназначенное для консолидации быстрых файловых и объектных данных. Оно представляет собой массивно-параллельную платформу, способную обеспечить сверхбыструю производительность для миллиардов объектов и файлов.

Для разработки передового ИИ следующего поколения потребуются новые мощные компьютеры , способные выполнять квинтиллионы операций в секунду . Сегодня Meta объявляет , что мы спроектировали и построили AI Research SuperCluster (RSC), который , по нашему мнению , является одним из самых быстрых суперкомпьютеров с искусственным интеллектом , работающих сегодня , и станет самым быстрым суперкомпьютером с искусственным интеллектом в мире , когда он будет полностью построен в середине 2022 года . . Наши исследователи уже начали использовать RSC для обучения больших моделей обработке естественного языка (NLP, natural language processing ) и компьютерного зрения для исследований с целью однодневных обучающих моделей с триллионами параметров .

RSC поможет исследователям искусственного интеллекта Meta создать новые и более совершенные модели искусственного интеллекта , способные учиться на триллионах примеров ; работать на сотнях разных языков ; легко анализировать текст , изображения и видео вместе ; разрабатывать новые инструменты дополненной реальности ; и многое другое . Наши исследователи смогут обучать самые большие модели , необходимые для разработки продвинутого ИИ для компьютерного зрения , НЛП , распознавания речи и др. Мы надеемся , что RSC поможет нам создать совершенно новые системы искусственного интеллекта , которые смогут , например , обеспечивать голосовой перевод в реальном времени для больших групп людей , каждый из которых говорит на своем языке , чтобы они могли беспрепятственно сотрудничать в исследовательском проекте или вместе играть в игру с дополненной реальностью . . В конечном итоге работа , проделанная с RSC, проложит путь к созданию технологий для следующей крупной вычислительной платформы — метавселенная , где важную роль будут играть приложения и продукты на основе ИИ .

Зачем нам суперкомпьютер с искусственным интеллектом такого масштаба ?

Мета была привержены долгосрочным инвестициям в ИИ с 2013 года , когда мы создали исследовательскую лабораторию искусственного интеллекта Facebook. В последние годы мы добились значительных успехов в области искусственного интеллекта благодаря нашему лидерству в ряде областей , включая самоконтролируемое обучение , где алгоритмы могут учиться на огромном количестве неразмеченных примеров , и трансформеры , которые позволяют моделям ИИ более эффективно рассуждать , сосредотачиваясь на определенных областях их ввода .

Чтобы в полной мере реализовать преимущества самоконтролируемого обучения и моделей на основе преобразователя , различных областей , будь то зрение , речь , язык или для критических случаев использования , таких как выявление вредоносного контента , потребует обучения все больше большой , сложный , и адаптируемый модели . Компьютерному зрению , например , необходимо обрабатывать большие и длинные видео с более высокой частотой дискретизации данных . Распознавание речи должно хорошо работать даже в сложных условиях с большим количеством фонового шума , например на вечеринках или концертах . НЛП нужно понимать больше языков , диалектов и акцентов . А также достижения в других областях , в том числе робототехника , воплощенный ИИ , и мультимодальный ИИ поможет людям выполнять полезные задачи в реальном мире .

Высокопроизводительная вычислительная инфраструктура является важнейшим компонентом обучения таких больших моделей , и исследовательская группа Meta в области искусственного интеллекта уже много лет создает эти мощные системы . Первое поколение этой инфраструктуры , разработанное в 2017 году , включает 22 000 графических процессоров NVIDIA V100 с тензорными ядрами в одном кластере , выполняющем 35 000 учебных заданий в день . До сих пор эта инфраструктура устанавливала планку для исследователей Met a с точки зрения производительности , надежности и продуктивности .

В начале 2020 года мы решили , что лучший способ ускорить прогресс — спроектировать новую вычислительную инфраструктуру с чистого листа , чтобы воспользоваться преимуществами новых технологий графических процессоров и сетевых структур . Мы хотели , чтобы эта инфраструктура могла обучать модели с более чем триллионом параметров на наборах данных размером до эксабайта , что для обеспечения ощущения масштаба эквивалентно 36 000 лет высококачественного видео .

В то время как сообщество высокопроизводительных вычислений десятилетиями боролось с масштабированием , мы также должны были убедиться , что у нас есть все необходимые средства контроля безопасности и конфиденциальности для защиты любых данных обучения , которые мы используем . В отличие от нашей предыдущей исследовательской инфраструктуры ИИ , которая использовала только открытый исходный код и другие общедоступные наборы данных , RSC также помогает нам обеспечить эффективное воплощение наших исследований в практику , позволяя нам включать реальные примеры из производственных систем Meta в обучение моделей . Делая это , мы можем помочь продвижению исследований для выполнения последующих задач , таких как выявление вредоносного контента на наших платформах , а также исследование воплощенный ИИ и мультимодальный ИИ чтобы помочь улучшить взаимодействие с пользователем в нашем семействе приложений . Мы считаем , что это первый раз , когда производительность , надежность , безопасность и конфиденциальность решаются в таком масштабе .

RSC : под капотом

Суперкомпьютеры с искусственным интеллектом создаются путем объединения нескольких графических процессоров в вычислительные узлы , которые затем соединяются высокопроизводительной сетевой структурой для обеспечения быстрой связи между этими графическими процессорами . Сегодня RSC включает в себя в общей сложности 760 систем NVIDIA DGX A100 в качестве вычислительных узлов , что в общей сложности составляет 6080 графических процессоров , причем каждый графический процессор A100 более мощный , чем V100, использовавшийся в нашей предыдущей системе . Каждый DGX обменивается данными через двухуровневую матрицу Clos NVIDIA Quantum 1600 Гбит / с InfiniBand, которая не имеет переподписки . Уровень хранения RSC включает 175 петабайт Pure Storage FlashArray, 46 петабайт кэш - памяти в системах Penguin Computing Altus и 10 петабайт Pure Storage FlashBlade.

Ранние тесты RSC по сравнению с устаревшей производственной и исследовательской инфраструктурой Meta показали , что он запускает рабочие процессы компьютерного зрения до 20 раз быстрее , запускает библиотеку коллективных коммуникаций NVIDIA (NCCL) более чем в девять раз быстрее и обучает крупномасштабные модели NLP. в три раза быстрее . Это означает , что модель с десятками миллиардов параметров может завершить обучение за три недели по сравнению с девятью неделями ранее .

Создание суперкомпьютера с искусственным интеллектом

Проектирование и создание чего - то вроде RSC зависит не только от производительности , но и от производительности в максимально возможном масштабе с использованием самых передовых технологий , доступных сегодня . Когда RSC будет завершен , сетевая структура InfiniBand соединит 16 000 графических процессоров в качестве конечных точек , что сделает ее одной из крупнейших таких сетей , развернутых на сегодняшний день . Кроме того , мы разработали систему кэширования и хранения , которая может обслуживать 16 ТБ / с обучающих данных , и мы планируем масштабировать ее до 1 эксабайта .

Вся эта инфраструктура должна быть чрезвычайно надежной , поскольку , по нашим оценкам , некоторые эксперименты могут длиться неделями и требовать тысяч графических процессоров . Наконец , весь опыт использования RSC должен быть удобным для исследователей , чтобы наши команды могли легко исследовать широкий спектр моделей ИИ .

Большая часть достижения этого была достигнута благодаря работе с рядом давних партнеров , каждый из которых также помог разработать первое поколение нашей инфраструктуры искусственного интеллекта в 2017 году . Penguin Computing, компания SGH, наш партнер по архитектуре и управляемым услугам , работала с наша операционная группа по интеграции оборудования для развертывания кластера и помогла настроить основные части плоскости управления . Pure Storage предоставил нам надежное и масштабируемое решение для хранения данных . И NVIDIA предоставила нам свои вычислительные технологии искусственного интеллекта с передовыми системами , графическими процессорами и коммутационной сетью InfiniBand, а также компоненты программного стека , такие как NCCL для кластера .

и делать это удаленно , во время пандемии

Но были и другие неожиданные вызовы , которые возникли в развитии RSC, а именно пандемия коронавируса . RSC начинался как полностью удаленный проект , который команда превратила из простого общего документа в функционирующий кластер примерно за полтора года . COVID-19 и общеотраслевые ограничения на поставку пластин также привели к проблемам с цепочками поставок , из - за которых было трудно получить все , от чипов до таких компонентов , как оптика и графические процессоры , и даже строительные материалы — все это необходимо было транспортировать в соответствии с новыми протоколами безопасности . Чтобы построить этот кластер эффективно , нам пришлось спроектировать его с нуля , создав множество совершенно новых соглашений , специфичных для Meta, и попутно переосмыслив предыдущие . Нам пришлось написать новые правила для наших центров обработки данных , включая их охлаждение , питание , расположение стоек , кабели , и сеть ( включая совершенно новую плоскость управления ), среди других важных соображений . Мы должны были убедиться , что все команды , от строителей до оборудования , программного обеспечения и искусственного интеллекта , работали синхронно и в координации с нашими партнерами .

Помимо самой базовой системы , также требовалось мощное решение для хранения данных , которое могло бы обслуживать терабайты пропускной способности системы хранения эксабайтного масштаба . Чтобы удовлетворить растущие потребности в пропускной способности и емкости для обучения ИИ , мы с нуля разработали службу хранения AI Research Store (AIRStore). Для оптимизации моделей ИИ в AIRStore используется новый этап подготовки данных , который предварительно обрабатывает набор данных , который будет использоваться для обучения . После того как подготовка выполнена один раз , подготовленный набор данных можно использовать для нескольких тренировочных прогонов , пока не истечет срок его действия . AIRStore также оптимизирует передачу данных , чтобы свести к минимуму межрегиональный трафик в магистрали Meta между центрами обработки данных .

Как мы защищаем данные в RSC

Чтобы создавать новые модели ИИ , которые приносят пользу людям , пользующимся нашими услугами — будь то обнаружение вредоносного контента или создание новых возможностей дополненной реальности — нам необходимо обучать модели , используя реальные данные из наших производственных систем . RSC был разработан с нуля с учетом конфиденциальности и безопасности , поэтому исследователи Meta могут безопасно обучать модели , используя зашифрованные пользовательские данные , которые не расшифровываются до непосредственно перед обучением . Например , RSC изолирован от более крупного Интернета , без прямых входящих и исходящих подключений , а трафик может проходить только из производственных центров обработки данных Meta.

Чтобы соответствовать нашим требованиям к конфиденциальности и безопасности , весь путь данных от наших систем хранения до графических процессоров полностью зашифрован и имеет необходимые инструменты и процессы для проверки соблюдения этих требований в любое время . Прежде чем данные будут импортированы в RSC, они должны пройти процесс проверки конфиденциальности , чтобы подтвердить , что они были правильно анонимизированы . Затем данные шифруются , прежде чем их можно будет использовать для обучения моделей ИИ , а ключи дешифрования регулярно удаляются , чтобы гарантировать , что старые данные недоступны . А поскольку данные расшифровываются только в одной конечной точке , в памяти , они защищены даже в маловероятном случае физического взлома объекта .

Второй этап и далее

RSC запущен и работает сегодня , но его разработка продолжается . Как только мы завершим второй этап создания RSC, мы считаем , что это будет самый быстрый суперкомпьютер с искусственным интеллектом в мире , выполняющий почти 5 экзафлопс вычислений со смешанной точностью . К 2022 году мы будем работать над увеличением количества графических процессоров с 6080 до 16 000, что повысит эффективность обучения ИИ более чем в 2,5 раза . Коммутационная сеть InfiniBand будет расширяться для поддержки 16 000 портов в двухуровневой топологии без превышения лимита подписки . Система хранения будет иметь целевую пропускную способность 16 ТБ / с и эксабайтную емкость для удовлетворения растущего спроса .

Мы ожидаем , что такое ступенчатое изменение вычислительных возможностей позволит нам не только создавать более точные модели ИИ для наших существующих сервисов , но и обеспечит совершенно новый пользовательский опыт , особенно в метавселенной . Наши долгосрочные инвестиции в самоконтролируемое обучение и создание инфраструктуры искусственного интеллекта нового поколения с помощью RSC помогают нам создавать основополагающие технологии , которые будут питать метавселенную и продвигать более широкое сообщество искусственного интеллекта .

Чтобы узнать больше, посетите:

О Pure Storage

Pure Storage ( NYSE : PSTG ) возвращает техническим специалистам время. Компания обеспечивает современный опыт хранения данных, благодаря которому у организаций есть возможность осуществлять свою деятельность автономно и бесшовно в нескольких облаках, используя модель хранения данных как услугу. Pure помогает клиентам использовать данные, одновременно снижая сложность и затраты на управление инфраструктурой, лежащей в их основе. Наивысший в отрасли сертифицированный индекс потребительской лояльности NPS свидетельствует о том, что клиенты Pure, ряды которых нескончаемо пополняются, являются одними из самых счастливых в мире. Получить дополнительную информацию можно на сайте www.purestorage.com .

Высокие оценки со стороны аналитиков

•  В отчетах Gartner Magic Quadrant за 2021 г. компания Pure Storage была упомянута среди лидеров в сфере первичных систем хранения данных.

•  В 2021 г. наша компания снова получила высокие оценки от аналитиков Gartner Magic Quadrant в сфере распределенных файловых систем и систем хранения данных.

Pure Storage , графический символ « P », Portworx и знаки, указанные в списке товарных знаков Pure на сайте www.purestorage.com/legal/productenduserinfo.html , являются товарными знаками или зарегистрированными товарными знаками Pure Storage, Inc. Остальные товарные знаки и наименования, упомянутые в данном документе, являются собственностью соответствующих владельцев.

Публикации по теме
Высокопроизводительные вычисления (HPC), параллельные файловые системы, HPC-СХД
 
Новости Pure Storage

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.