News

Публикации
	2023 г. – новый этап практического применения CXL, статья
	VMware сдвигает акцент в проекте Capitola на CXL, статья
	Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
	OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
	Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
	UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
	Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
	GigaIO: CDI_решение на базе AMD для высшего образования, статья
	Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
	От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
	EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
	LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
	End-to-end 64G FC NAFA, статья
	Computational Storage, статья
	Технология KIOXIA Software-Enabled Flash™, статья
	Pavilion: 200 млн IOPS на стойку, статья
	CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
	Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
	Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
	SmartNIC – новый уровень инфраструктурной обработки, статья
	Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
	Compute, Memory и Storage, статья
	Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
	Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
	Intel® Agilex™ FPGA, статья
	Weka для AI-трансформации, статья
	Cloudera Data Platform – “лучшее из двух миров”, статья
	Fujitsu ETERNUS DSP - разработано для будущего, статья
	Технологии охлаждения для следующего поколения HPC-решений, статья
	Что такое современный HBA?, статья
	Fugaku– самый быстрый суперкомпьютер в мире, статья
	НРС – эпоха революционных изменений, статья
	Новое поколение СХД Fujitsu ETERNUS, статья
	Зональное хранение данных, статья
	За пределами суперкомпьютеров, статья
	Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
	Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
	DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
	IPsec в пост-квантовую эру, статья
	LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья

Обзоры
	Все обзоры в Storage News

Тематические публикации
	Flash-память
	Облачные вычисления/сервисы
	Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
	Современные СХД
	Информационная безопасность (ИБ), борьба с мошенничеством
	Рынки

LSI: файловые системы и большие данные

1, февраль 2013 —

Александр Зейников, представитель компании LSI в России и СНГ

SN. Какие типы файловых систем Вы связываете с направлением больших данных?

Сйчас к теме Big Data можно отнести все ключевые технологии, связанные с развитием файловых систем в последние годы. Это, прежде всего:

распределенные файловые системы (например, HDFS - проект Hadoop) и СХД;
горизонтально-масштабируемые NAS-системы и файловые системы;
контенто-адресуемые файловые системы и СХД;
объектно-ориентированные файловые системы и СХД .

SN. Горизонтально масштабируемые, или кластерные NAS -системы ( scale - out NAS ) - один из самых активно развивающихся трендов в последние 4 года. Если сравнить их с решениями по кластеризации файловых хранилищ с использованием устройств файловой виртуализации, то каковы преимущества scale - out NAS ? Какие возможности доступны в scale - out NAS , но недоступны при файловой виртуализации?

NAS – это система хранения данных, как правило, предоставляющая доступ к хранимой информации на уровне файловой системы. NAS обычно работает по протоколам CIFS (общие папки Microsoft Windows ), NFS (Linux, Unix ), FTP или WebDAV ( Internet ). Проблемы таких систем обычно заключается в их невысокой производительности. NAS -сервера прочно заняли свою нишу в компаниях для обмена информацией между сотрудниками, для ведения общей документации, общих баз, общих проектов и.т.д. Количество устройств хранения (дисков, HDD ) обычно без проблем можно наращивать, но в случае, если к NAS подключается большое число пользователей либо вместо пользовательской нагрузки, NAS нагружают серверными клиентами, значительно более чувствительными к ресурсам, узким местом может стать сама платформа NAS -сервера ( RAID -контроллер, сеть, память, процессор, шина PCI ). В этом случае некоторые производители пошли по принципу масштабирования NAS -серверов.Эти системы и называются Scale - out NAS . В таких системах обычно общая дисковая подсистема ( JBOD ы), сеть хранения данных ( FC , SAS , Infiniband , Ethernet ) и несколько серверов, раздающих информацию в сеть общего пользования. Такие системы вполне способны повысить производительность подсистемы хранения по сравнению с традиционными NAS , но обладают значительными ограничениями по пределу масштабирования (предел количество «голов» NAS ), стоимости (значительно выше, чем у традиционных NAS ), сложности администрирования. Кстати, LSI планирует выпустить свое решение для Scale - out NAS в 2013 году. Это будет Active - Active отказоустойчивый кластер с общим хранилищем на SAS - JBOD ах.

SN. В чем заключаются отличия объектных систем хранения ( Object Storage ) от систем хранения с адресацией по содержанию (Content Addressable Storage, CAS )? Что нового привносят современные технологии объектного хранения по сравнению с известными прежде технологиями контентной адресации?

Object Storage как и CAS имеют в значительной степени похожую архитектуру, но были разработаны для разных целей. ObjectStorage ( Lustre , Panasas ) ставят своей главной задачей обеспечение максимальной производительности, в то время как CAS-системы стараются максимизировать надежность хранения. Отсюда и применение таких систем. Object – в основном в HPC , а CAS – для online -архивов.

SN. Каковы перспективы развития файловых систем для хранения и обработки больших объемов данных? На каких характеристиках и функциях файловых систем делают акцент вендоры, предлагающие альтернативы (или улучшения) HDFS ?

HDFS обычно применяется совместно с Hadoop ( Map - Reduce ). Знакомые с проблематикой обработки больших данных знают, что основными этапами такой обработки являются собственно Map и Reduce . Но часто упускают из виду операцию Merge , которая идет в промежутке между Map и Reduce . В случае Merge , архитектура HDFS , основанная на применении медленных и больших по объему NL - SAS - или SATA - дисков не всегда оптимальна. Здесь нужно использовать гибридные массивы с применением как HDD (для объема), так и SSD (для кэширования), такие как NytroMegaRAID или CacheCade . В таком случае, можно значительно повысить скорость обработки больших объемов данных.При обработке больших данных кроме HDFS можно также применять и ObjectStorage .

SN. Существуют ли, по-вашему мнению, пределы наращивания IOPS с помощью флэш-технологий, так сказать предел производительности? Что ее ограничивает и за счет чего можно поднять скорость чтения/записи на SSD ?

Сегодня основными ограничивающими факторами производительности в подсистемах с SSD являются сами SSD (в частности, входящие в их состав, Flash -контроллеры, обеспечивающие заданную надежность устройств), а также контроллеры RAID (или HBA ), способные пропустить через себя ограниченное число операций в секунду. На сегодняшний день производительность серверных устройств SSD составляет порядка 30-50 тысяч операций ввода-вывода в секунду ( IOPS ). Лучшие контроллеры (такие как PCI - e 3.0 LSI MegaRAID 9271) способны обслужить до 500 тысяч операций IOPS . Это позволяет строить массивы размером до 16 устройств SSD на контроллер без потери производительности.

Кроме традиционной связки контроллер-SSD сегодня на рынке представлены также PCI- SSD устройства, такие как NytroWarpDrive . Это карты SSD, размещаемые непосредственно в PCI-слот сервера, позволяющие добиться высоких показателей IOP S без конфигурирования и тюнинга.

SN. Что позволяет, по Вашему мнению, добиться экономической эффективности применения SSD, ведь их стоимость пока значительно выше HDD ?

Оптимальным с точки зрения цена-производительность на сегодняшний день является решение организации гибридных массивов HDD / SSD . В таких массивах информация хранится на HDD, в то время как SSD используются в качестве быстрого и объемного кэша. Гибридный массив можно построить на основе Raid -контроллеров CacheCade для MegaRAIDот L SI или MaxIQ от Adaptec. К контроллерам затем подключаются HDD и SSD, которые работают как единый массив. Кроме этого, можно воспользоваться встроенным ПО внешних систем хранения данных. Некоторые производители уже включили средства организации кэширования на SSD в состав ПО своих СХД. Если же внешняя СХД не поддерживает такой режим, то можно использовать дополнительные кэширующие карточки внутри сервера, подключенного к внешней СХД, например LSI Nytro XD

Публикации по теме
	Современные СХД

	Новости LSI