Публикации
FlashArray//X – первый блочный all_NVMe AFA, статья
BullSequana S – мост в будущее, статья
Единая платформа мониторинга гетерогенных СХД, статья
AERODISK: адаптивная дедупликация в высоконагруженных СХД, статья
Микросхемы Huawei для массивов All_Flash, статья
Защита высокоскоростного Ethernet WAN, статья
Toshiba представляет однокорпусные SSD-диски на основе 64-слойной 3D флеш-памяти, новость
Рынок серверов: первое положительное полугодие после четырех с половиной лет снижения поставок, новость
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
LSI: файловые системы и большие данные

1, февраль 2013  — 
Александр Зейников, представитель компании LSI в России и СНГ

SN.  Какие типы файловых систем Вы связываете с направлением больших данных?

Сйчас к теме Big Data можно отнести все ключевые технологии, связанные с развитием файловых систем в последние годы. Это, прежде всего:

  • распределенные файловые системы (например, HDFS - проект Hadoop) и СХД;
  • горизонтально-масштабируемые NAS-системы и файловые системы;
  • контенто-адресуемые файловые системы и СХД;
  • объектно-ориентированные файловые системы и СХД .

SN.  Горизонтально масштабируемые, или кластерные NAS -системы ( scale - out NAS ) - один из самых активно развивающихся трендов в последние 4 года. Если сравнить их с решениями по кластеризации файловых хранилищ с использованием устройств файловой виртуализации, то каковы преимущества scale - out NAS ? Какие возможности доступны в scale - out NAS , но недоступны при файловой виртуализации?

NAS – это система хранения данных, как правило, предоставляющая доступ к хранимой информации на уровне файловой системы. NAS обычно работает по протоколам CIFS (общие папки Microsoft Windows ), NFS (Linux, Unix ), FTP или WebDAV ( Internet ). Проблемы таких систем обычно заключается в их невысокой производительности. NAS -сервера прочно заняли свою нишу в компаниях для обмена информацией между сотрудниками, для ведения общей документации, общих баз, общих проектов и.т.д. Количество устройств хранения (дисков, HDD ) обычно без проблем можно наращивать, но в случае, если к NAS подключается большое число пользователей либо вместо пользовательской нагрузки, NAS нагружают серверными клиентами, значительно более чувствительными к ресурсам, узким местом может стать сама платформа NAS -сервера ( RAID -контроллер, сеть, память, процессор, шина PCI ). В этом случае некоторые производители пошли по принципу масштабирования NAS -серверов.Эти системы и называются Scale - out NAS . В таких системах обычно общая дисковая подсистема ( JBOD ы), сеть хранения данных ( FC , SAS , Infiniband , Ethernet ) и несколько серверов, раздающих информацию в сеть общего пользования. Такие системы вполне способны повысить производительность подсистемы хранения по сравнению с традиционными NAS , но обладают значительными ограничениями по пределу масштабирования (предел количество «голов» NAS ), стоимости (значительно выше, чем у традиционных NAS ), сложности администрирования. Кстати, LSI планирует выпустить свое решение для Scale - out NAS в 2013 году. Это будет Active - Active отказоустойчивый кластер с общим хранилищем на SAS - JBOD ах.

SN. В чем заключаются отличия объектных систем хранения ( Object Storage ) от систем хранения с адресацией по содержанию (Content Addressable Storage, CAS )? Что нового привносят современные технологии объектного хранения по сравнению с известными прежде технологиями контентной адресации?

Object Storage как и CAS имеют в значительной степени похожую архитектуру, но были разработаны для разных целей. ObjectStorage ( Lustre , Panasas ) ставят своей главной задачей обеспечение максимальной производительности, в то время как CAS-системы стараются максимизировать надежность хранения. Отсюда и применение таких систем. Object – в основном в HPC , а CAS – для online -архивов.

SN.  Каковы перспективы развития файловых систем для хранения и обработки больших объемов данных? На каких характеристиках и функциях файловых систем делают акцент вендоры, предлагающие альтернативы (или улучшения) HDFS ?

HDFS обычно применяется совместно с Hadoop ( Map - Reduce ). Знакомые с проблематикой обработки больших данных знают, что основными этапами такой обработки являются собственно Map и Reduce . Но часто упускают из виду операцию Merge , которая идет в промежутке между Map и Reduce . В случае Merge , архитектура HDFS , основанная на применении медленных и больших по объему NL - SAS - или SATA - дисков не всегда оптимальна. Здесь нужно использовать гибридные массивы с применением как HDD (для объема), так и SSD (для кэширования), такие как NytroMegaRAID или CacheCade . В таком случае, можно значительно повысить скорость обработки больших объемов данных.При обработке больших данных кроме HDFS можно также применять и ObjectStorage .

SN. Существуют ли, по-вашему мнению, пределы наращивания IOPS с помощью флэш-технологий, так сказать предел производительности? Что ее ограничивает и за счет чего можно поднять скорость чтения/записи на SSD ?

Сегодня основными ограничивающими факторами производительности в подсистемах с SSD являются сами SSD (в частности, входящие в их состав, Flash -контроллеры, обеспечивающие заданную надежность устройств), а также контроллеры RAID (или HBA ), способные пропустить через себя ограниченное число операций в секунду. На сегодняшний день производительность серверных устройств SSD составляет порядка 30-50 тысяч операций ввода-вывода в секунду ( IOPS ). Лучшие контроллеры (такие как PCI - e 3.0 LSI MegaRAID 9271) способны обслужить до 500 тысяч операций IOPS . Это позволяет строить массивы размером до 16 устройств SSD на контроллер без потери производительности.

Кроме традиционной связки контроллер-SSD сегодня на рынке представлены также PCI- SSD устройства, такие как NytroWarpDrive . Это карты SSD, размещаемые непосредственно в PCI-слот сервера, позволяющие добиться высоких показателей IOP S без конфигурирования и тюнинга.

SN.  Что позволяет, по Вашему мнению, добиться экономической эффективности применения SSD, ведь их стоимость пока значительно выше HDD ?

Оптимальным с точки зрения цена-производительность на сегодняшний день является решение организации гибридных массивов HDD / SSD . В таких массивах информация хранится на HDD, в то время как SSD используются в качестве быстрого и объемного кэша. Гибридный массив можно построить на основе Raid -контроллеров CacheCade для MegaRAIDот L SI или MaxIQ от Adaptec. К контроллерам затем подключаются HDD и SSD, которые работают как единый массив. Кроме этого, можно воспользоваться встроенным ПО внешних систем хранения данных. Некоторые производители уже включили средства организации кэширования на SSD в состав ПО своих СХД. Если же внешняя СХД не поддерживает такой режим, то можно использовать дополнительные кэширующие карточки внутри сервера, подключенного к внешней СХД, например LSI Nytro XD
Публикации по теме
Современные СХД
 
Новости LSI

© "Storage News" journal, Russia&CIS
Редакция: 115516, Москва, а/я 57; тел./факс - (495) 233-4935;
www.storagenews.ru; info@storagenews.ru.