LSI: файловые системы и большие данные
1, февраль 2013
SN. Какие типы файловых систем Вы связываете с направлением больших данных? Сйчас к теме Big Data можно отнести все ключевые технологии, связанные с развитием файловых систем в последние годы. Это, прежде всего:
SN. Горизонтально масштабируемые, или кластерные NAS -системы ( scale - out NAS ) - один из самых активно развивающихся трендов в последние 4 года. Если сравнить их с решениями по кластеризации файловых хранилищ с использованием устройств файловой виртуализации, то каковы преимущества scale - out NAS ? Какие возможности доступны в scale - out NAS , но недоступны при файловой виртуализации? NAS – это система хранения данных, как правило, предоставляющая доступ к хранимой информации на уровне файловой системы. NAS обычно работает по протоколам CIFS (общие папки Microsoft Windows ), NFS (Linux, Unix ), FTP или WebDAV ( Internet ). Проблемы таких систем обычно заключается в их невысокой производительности. NAS -сервера прочно заняли свою нишу в компаниях для обмена информацией между сотрудниками, для ведения общей документации, общих баз, общих проектов и.т.д. Количество устройств хранения (дисков, HDD ) обычно без проблем можно наращивать, но в случае, если к NAS подключается большое число пользователей либо вместо пользовательской нагрузки, NAS нагружают серверными клиентами, значительно более чувствительными к ресурсам, узким местом может стать сама платформа NAS -сервера ( RAID -контроллер, сеть, память, процессор, шина PCI ). В этом случае некоторые производители пошли по принципу масштабирования NAS -серверов.Эти системы и называются Scale - out NAS . В таких системах обычно общая дисковая подсистема ( JBOD ы), сеть хранения данных ( FC , SAS , Infiniband , Ethernet ) и несколько серверов, раздающих информацию в сеть общего пользования. Такие системы вполне способны повысить производительность подсистемы хранения по сравнению с традиционными NAS , но обладают значительными ограничениями по пределу масштабирования (предел количество «голов» NAS ), стоимости (значительно выше, чем у традиционных NAS ), сложности администрирования. Кстати, LSI планирует выпустить свое решение для Scale - out NAS в 2013 году. Это будет Active - Active отказоустойчивый кластер с общим хранилищем на SAS - JBOD ах. SN. В чем заключаются отличия объектных систем хранения ( Object Storage ) от систем хранения с адресацией по содержанию (Content Addressable Storage, CAS )? Что нового привносят современные технологии объектного хранения по сравнению с известными прежде технологиями контентной адресации? Object Storage как и CAS имеют в значительной степени похожую архитектуру, но были разработаны для разных целей. ObjectStorage ( Lustre , Panasas ) ставят своей главной задачей обеспечение максимальной производительности, в то время как CAS-системы стараются максимизировать надежность хранения. Отсюда и применение таких систем. Object – в основном в HPC , а CAS – для online -архивов. SN. Каковы перспективы развития файловых систем для хранения и обработки больших объемов данных? На каких характеристиках и функциях файловых систем делают акцент вендоры, предлагающие альтернативы (или улучшения) HDFS ? HDFS обычно применяется совместно с Hadoop ( Map - Reduce ). Знакомые с проблематикой обработки больших данных знают, что основными этапами такой обработки являются собственно Map и Reduce . Но часто упускают из виду операцию Merge , которая идет в промежутке между Map и Reduce . В случае Merge , архитектура HDFS , основанная на применении медленных и больших по объему NL - SAS - или SATA - дисков не всегда оптимальна. Здесь нужно использовать гибридные массивы с применением как HDD (для объема), так и SSD (для кэширования), такие как NytroMegaRAID или CacheCade . В таком случае, можно значительно повысить скорость обработки больших объемов данных.При обработке больших данных кроме HDFS можно также применять и ObjectStorage . SN. Существуют ли, по-вашему мнению, пределы наращивания IOPS с помощью флэш-технологий, так сказать предел производительности? Что ее ограничивает и за счет чего можно поднять скорость чтения/записи на SSD ? Сегодня основными ограничивающими факторами производительности в подсистемах с SSD являются сами SSD (в частности, входящие в их состав, Flash -контроллеры, обеспечивающие заданную надежность устройств), а также контроллеры RAID (или HBA ), способные пропустить через себя ограниченное число операций в секунду. На сегодняшний день производительность серверных устройств SSD составляет порядка 30-50 тысяч операций ввода-вывода в секунду ( IOPS ). Лучшие контроллеры (такие как PCI - e 3.0 LSI MegaRAID 9271) способны обслужить до 500 тысяч операций IOPS . Это позволяет строить массивы размером до 16 устройств SSD на контроллер без потери производительности. Кроме традиционной связки контроллер-SSD сегодня на рынке представлены также PCI- SSD устройства, такие как NytroWarpDrive . Это карты SSD, размещаемые непосредственно в PCI-слот сервера, позволяющие добиться высоких показателей IOP S без конфигурирования и тюнинга. SN. Что позволяет, по Вашему мнению, добиться экономической эффективности применения SSD, ведь их стоимость пока значительно выше HDD ? Оптимальным с точки зрения цена-производительность на сегодняшний день является решение организации гибридных массивов HDD / SSD . В таких массивах информация хранится на HDD, в то время как SSD используются в качестве быстрого и объемного кэша. Гибридный массив можно построить на основе Raid -контроллеров CacheCade для MegaRAIDот L SI или MaxIQ от Adaptec. К контроллерам затем подключаются HDD и SSD, которые работают как единый массив. Кроме этого, можно воспользоваться встроенным ПО внешних систем хранения данных. Некоторые производители уже включили средства организации кэширования на SSD в состав ПО своих СХД. Если же внешняя СХД не поддерживает такой режим, то можно использовать дополнительные кэширующие карточки внутри сервера, подключенного к внешней СХД, например LSI Nytro XD |
|