Pure Storage стала партнером компании Meta в создании исследовательского суперкластера ИИ (RSC ? Research SuperCluster)
25, январь 2022 Pure Storage ® ( NYSE : PSTG ), ИТ-пионер в отрасли, предоставляющий СХД как услугу (storage as-a-service), сегодня объявила о своей роли в новом исследовательском суперкластере ИИ (RSC) компании Meta, который, по мнению Meta, станет самым быстрым суперкомпьютером ИИ в мире. Объявленный сегодня RSC помогает исследователям ИИ компании Meta создавать новые и лучшие модели ИИ, которые могут работать на сотнях различных языков, безупречно анализировать текст, изображения и видео, разрабатывать новые инструменты дополненной реальности и многое другое. RSC проложит путь к созданию технологий для следующей крупной вычислительной платформы Meta - metaverse, где приложения и продукты на основе ИИ будут играть важную роль. Meta выбрала Pure, так как компании нужен партнер по хранению данных, способный предоставить надежные и масштабируемые возможности хранения данных, необходимые для работы RSC. Благодаря FlashArray TM и FlashBlade ® RSC будет иметь беспрецедентную производительность для быстрого анализа структурированных и неструктурированных данных, подкрепленную основами Pure - простотой, надежностью и устойчивостью. Pure является давним поставщиком технологий для Meta, который помог в разработке первого поколения исследовательской инфраструктуры ИИ Meta в 2017 году. С тех пор Meta продолжает сотрудничать с Pure, и RSC является новым примером того, как Pure помогает Meta достичь своих целей в области исследований ИИ. « Технологии, обеспечивающие работу метавселенной, потребуют мощных вычислительных решений, способных мгновенно анализировать постоянно растущие объемы данных. RSC компании Meta — это прорыв в области суперкомпьютеров, который приведет к появлению новых технологий и клиентского опыта, основанных на ИИ. Мы рады быть частью этого проекта и с нетерпением ждем прогресса, которого добьются исследователи ИИ компании Meta », - сказал Роб Ли, технический директор Pure Storage. Портфолио Pure позволяет работать с крупномасштабными рабочими нагрузками ИИ с помощью высокопроизводительных, архитектурно оптимизированных решений с минимальным воздействием на окружающую среду, позволяя клиентам оперативно обрабатывать огромные объемы данных из структурированных и неструктурированных источников надежно и эффективно. Решения, используемые в RSC Meta, включают:
Для разработки передового ИИ следующего поколения потребуются новые мощные компьютеры , способные выполнять квинтиллионы операций в секунду . Сегодня Meta объявляет , что мы спроектировали и построили AI Research SuperCluster (RSC), который , по нашему мнению , является одним из самых быстрых суперкомпьютеров с искусственным интеллектом , работающих сегодня , и станет самым быстрым суперкомпьютером с искусственным интеллектом в мире , когда он будет полностью построен в середине 2022 года . . Наши исследователи уже начали использовать RSC для обучения больших моделей обработке естественного языка (NLP, natural language processing ) и компьютерного зрения для исследований с целью однодневных обучающих моделей с триллионами параметров . RSC поможет исследователям искусственного интеллекта Meta создать новые и более совершенные модели искусственного интеллекта , способные учиться на триллионах примеров ; работать на сотнях разных языков ; легко анализировать текст , изображения и видео вместе ; разрабатывать новые инструменты дополненной реальности ; и многое другое . Наши исследователи смогут обучать самые большие модели , необходимые для разработки продвинутого ИИ для компьютерного зрения , НЛП , распознавания речи и др. Мы надеемся , что RSC поможет нам создать совершенно новые системы искусственного интеллекта , которые смогут , например , обеспечивать голосовой перевод в реальном времени для больших групп людей , каждый из которых говорит на своем языке , чтобы они могли беспрепятственно сотрудничать в исследовательском проекте или вместе играть в игру с дополненной реальностью . . В конечном итоге работа , проделанная с RSC, проложит путь к созданию технологий для следующей крупной вычислительной платформы — метавселенная , где важную роль будут играть приложения и продукты на основе ИИ .
Зачем нам суперкомпьютер с искусственным интеллектом такого масштаба ? Мета была привержены долгосрочным инвестициям в ИИ с 2013 года , когда мы создали исследовательскую лабораторию искусственного интеллекта Facebook. В последние годы мы добились значительных успехов в области искусственного интеллекта благодаря нашему лидерству в ряде областей , включая самоконтролируемое обучение , где алгоритмы могут учиться на огромном количестве неразмеченных примеров , и трансформеры , которые позволяют моделям ИИ более эффективно рассуждать , сосредотачиваясь на определенных областях их ввода . Чтобы в полной мере реализовать преимущества самоконтролируемого обучения и моделей на основе преобразователя , различных областей , будь то зрение , речь , язык или для критических случаев использования , таких как выявление вредоносного контента , потребует обучения все больше большой , сложный , и адаптируемый модели . Компьютерному зрению , например , необходимо обрабатывать большие и длинные видео с более высокой частотой дискретизации данных . Распознавание речи должно хорошо работать даже в сложных условиях с большим количеством фонового шума , например на вечеринках или концертах . НЛП нужно понимать больше языков , диалектов и акцентов . А также достижения в других областях , в том числе робототехника , воплощенный ИИ , и мультимодальный ИИ поможет людям выполнять полезные задачи в реальном мире . Высокопроизводительная вычислительная инфраструктура является важнейшим компонентом обучения таких больших моделей , и исследовательская группа Meta в области искусственного интеллекта уже много лет создает эти мощные системы . Первое поколение этой инфраструктуры , разработанное в 2017 году , включает 22 000 графических процессоров NVIDIA V100 с тензорными ядрами в одном кластере , выполняющем 35 000 учебных заданий в день . До сих пор эта инфраструктура устанавливала планку для исследователей Met a с точки зрения производительности , надежности и продуктивности . В начале 2020 года мы решили , что лучший способ ускорить прогресс — спроектировать новую вычислительную инфраструктуру с чистого листа , чтобы воспользоваться преимуществами новых технологий графических процессоров и сетевых структур . Мы хотели , чтобы эта инфраструктура могла обучать модели с более чем триллионом параметров на наборах данных размером до эксабайта , что для обеспечения ощущения масштаба эквивалентно 36 000 лет высококачественного видео . В то время как сообщество высокопроизводительных вычислений десятилетиями боролось с масштабированием , мы также должны были убедиться , что у нас есть все необходимые средства контроля безопасности и конфиденциальности для защиты любых данных обучения , которые мы используем . В отличие от нашей предыдущей исследовательской инфраструктуры ИИ , которая использовала только открытый исходный код и другие общедоступные наборы данных , RSC также помогает нам обеспечить эффективное воплощение наших исследований в практику , позволяя нам включать реальные примеры из производственных систем Meta в обучение моделей . Делая это , мы можем помочь продвижению исследований для выполнения последующих задач , таких как выявление вредоносного контента на наших платформах , а также исследование воплощенный ИИ и мультимодальный ИИ чтобы помочь улучшить взаимодействие с пользователем в нашем семействе приложений . Мы считаем , что это первый раз , когда производительность , надежность , безопасность и конфиденциальность решаются в таком масштабе . RSC : под капотом
Суперкомпьютеры с искусственным интеллектом создаются путем объединения нескольких графических процессоров в вычислительные узлы , которые затем соединяются высокопроизводительной сетевой структурой для обеспечения быстрой связи между этими графическими процессорами . Сегодня RSC включает в себя в общей сложности 760 систем NVIDIA DGX A100 в качестве вычислительных узлов , что в общей сложности составляет 6080 графических процессоров , причем каждый графический процессор A100 более мощный , чем V100, использовавшийся в нашей предыдущей системе . Каждый DGX обменивается данными через двухуровневую матрицу Clos NVIDIA Quantum 1600 Гбит / с InfiniBand, которая не имеет переподписки . Уровень хранения RSC включает 175 петабайт Pure Storage FlashArray, 46 петабайт кэш - памяти в системах Penguin Computing Altus и 10 петабайт Pure Storage FlashBlade. Ранние тесты RSC по сравнению с устаревшей производственной и исследовательской инфраструктурой Meta показали , что он запускает рабочие процессы компьютерного зрения до 20 раз быстрее , запускает библиотеку коллективных коммуникаций NVIDIA (NCCL) более чем в девять раз быстрее и обучает крупномасштабные модели NLP. в три раза быстрее . Это означает , что модель с десятками миллиардов параметров может завершить обучение за три недели по сравнению с девятью неделями ранее .
Создание суперкомпьютера с искусственным интеллектом … Проектирование и создание чего - то вроде RSC зависит не только от производительности , но и от производительности в максимально возможном масштабе с использованием самых передовых технологий , доступных сегодня . Когда RSC будет завершен , сетевая структура InfiniBand соединит 16 000 графических процессоров в качестве конечных точек , что сделает ее одной из крупнейших таких сетей , развернутых на сегодняшний день . Кроме того , мы разработали систему кэширования и хранения , которая может обслуживать 16 ТБ / с обучающих данных , и мы планируем масштабировать ее до 1 эксабайта . Вся эта инфраструктура должна быть чрезвычайно надежной , поскольку , по нашим оценкам , некоторые эксперименты могут длиться неделями и требовать тысяч графических процессоров . Наконец , весь опыт использования RSC должен быть удобным для исследователей , чтобы наши команды могли легко исследовать широкий спектр моделей ИИ . Большая часть достижения этого была достигнута благодаря работе с рядом давних партнеров , каждый из которых также помог разработать первое поколение нашей инфраструктуры искусственного интеллекта в 2017 году . Penguin Computing, компания SGH, наш партнер по архитектуре и управляемым услугам , работала с наша операционная группа по интеграции оборудования для развертывания кластера и помогла настроить основные части плоскости управления . Pure Storage предоставил нам надежное и масштабируемое решение для хранения данных . И NVIDIA предоставила нам свои вычислительные технологии искусственного интеллекта с передовыми системами , графическими процессорами и коммутационной сетью InfiniBand, а также компоненты программного стека , такие как NCCL для кластера . … и делать это удаленно , во время пандемии Но были и другие неожиданные вызовы , которые возникли в развитии RSC, а именно пандемия коронавируса . RSC начинался как полностью удаленный проект , который команда превратила из простого общего документа в функционирующий кластер примерно за полтора года . COVID-19 и общеотраслевые ограничения на поставку пластин также привели к проблемам с цепочками поставок , из - за которых было трудно получить все , от чипов до таких компонентов , как оптика и графические процессоры , и даже строительные материалы — все это необходимо было транспортировать в соответствии с новыми протоколами безопасности . Чтобы построить этот кластер эффективно , нам пришлось спроектировать его с нуля , создав множество совершенно новых соглашений , специфичных для Meta, и попутно переосмыслив предыдущие . Нам пришлось написать новые правила для наших центров обработки данных , включая их охлаждение , питание , расположение стоек , кабели , и сеть ( включая совершенно новую плоскость управления ), среди других важных соображений . Мы должны были убедиться , что все команды , от строителей до оборудования , программного обеспечения и искусственного интеллекта , работали синхронно и в координации с нашими партнерами . Помимо самой базовой системы , также требовалось мощное решение для хранения данных , которое могло бы обслуживать терабайты пропускной способности системы хранения эксабайтного масштаба . Чтобы удовлетворить растущие потребности в пропускной способности и емкости для обучения ИИ , мы с нуля разработали службу хранения AI Research Store (AIRStore). Для оптимизации моделей ИИ в AIRStore используется новый этап подготовки данных , который предварительно обрабатывает набор данных , который будет использоваться для обучения . После того как подготовка выполнена один раз , подготовленный набор данных можно использовать для нескольких тренировочных прогонов , пока не истечет срок его действия . AIRStore также оптимизирует передачу данных , чтобы свести к минимуму межрегиональный трафик в магистрали Meta между центрами обработки данных . Как мы защищаем данные в RSC Чтобы создавать новые модели ИИ , которые приносят пользу людям , пользующимся нашими услугами — будь то обнаружение вредоносного контента или создание новых возможностей дополненной реальности — нам необходимо обучать модели , используя реальные данные из наших производственных систем . RSC был разработан с нуля с учетом конфиденциальности и безопасности , поэтому исследователи Meta могут безопасно обучать модели , используя зашифрованные пользовательские данные , которые не расшифровываются до непосредственно перед обучением . Например , RSC изолирован от более крупного Интернета , без прямых входящих и исходящих подключений , а трафик может проходить только из производственных центров обработки данных Meta. Чтобы соответствовать нашим требованиям к конфиденциальности и безопасности , весь путь данных от наших систем хранения до графических процессоров полностью зашифрован и имеет необходимые инструменты и процессы для проверки соблюдения этих требований в любое время . Прежде чем данные будут импортированы в RSC, они должны пройти процесс проверки конфиденциальности , чтобы подтвердить , что они были правильно анонимизированы . Затем данные шифруются , прежде чем их можно будет использовать для обучения моделей ИИ , а ключи дешифрования регулярно удаляются , чтобы гарантировать , что старые данные недоступны . А поскольку данные расшифровываются только в одной конечной точке , в памяти , они защищены даже в маловероятном случае физического взлома объекта . Второй этап и далее RSC запущен и работает сегодня , но его разработка продолжается . Как только мы завершим второй этап создания RSC, мы считаем , что это будет самый быстрый суперкомпьютер с искусственным интеллектом в мире , выполняющий почти 5 экзафлопс вычислений со смешанной точностью . К 2022 году мы будем работать над увеличением количества графических процессоров с 6080 до 16 000, что повысит эффективность обучения ИИ более чем в 2,5 раза . Коммутационная сеть InfiniBand будет расширяться для поддержки 16 000 портов в двухуровневой топологии без превышения лимита подписки . Система хранения будет иметь целевую пропускную способность 16 ТБ / с и эксабайтную емкость для удовлетворения растущего спроса . Мы ожидаем , что такое ступенчатое изменение вычислительных возможностей позволит нам не только создавать более точные модели ИИ для наших существующих сервисов , но и обеспечит совершенно новый пользовательский опыт , особенно в метавселенной . Наши долгосрочные инвестиции в самоконтролируемое обучение и создание инфраструктуры искусственного интеллекта нового поколения с помощью RSC помогают нам создавать основополагающие технологии , которые будут питать метавселенную и продвигать более широкое сообщество искусственного интеллекта . Чтобы узнать больше, посетите: О Pure Storage Pure Storage ( NYSE : PSTG ) возвращает техническим специалистам время. Компания обеспечивает современный опыт хранения данных, благодаря которому у организаций есть возможность осуществлять свою деятельность автономно и бесшовно в нескольких облаках, используя модель хранения данных как услугу. Pure помогает клиентам использовать данные, одновременно снижая сложность и затраты на управление инфраструктурой, лежащей в их основе. Наивысший в отрасли сертифицированный индекс потребительской лояльности NPS свидетельствует о том, что клиенты Pure, ряды которых нескончаемо пополняются, являются одними из самых счастливых в мире. Получить дополнительную информацию можно на сайте www.purestorage.com . Высокие оценки со стороны аналитиков Pure Storage , графический символ « P », Portworx и знаки, указанные в списке товарных знаков Pure на сайте www.purestorage.com/legal/productenduserinfo.html , являются товарными знаками или зарегистрированными товарными знаками Pure Storage, Inc. Остальные товарные знаки и наименования, упомянутые в данном документе, являются собственностью соответствующих владельцев. |
|