Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Сравнительный анализ твердотельных накопителей с прозрачным сжатием

24, октябрь 2022  — 

Кейт Маккей ( Keith McKay ) ,
https :// scaleflux . com / benchmarking - ssds - with - transparent - compression /

Что такое прозрачное сжатие?

Прозрачное или встроенное сжатие действует как «ускоритель» для определенных рабочих нагрузок, что может показаться нелогичным. Но это имеет смысл, если вы понимаете, что происходит под капотом внутри флеш-памяти. Прозрачное сжатие сжимает данные во время записи во флэш-память и распаковывает их при чтении без каких-либо действий хоста. Хост может даже не знать, что это происходит внутри SSD. Прозрачное сжатие — это функция ускорения, которая может обеспечить более высокую производительность устойчивой случайной записи, меньшую задержку чтения в смешанных рабочих нагрузках и меньшее усиление записи для повышения надежности. Это устраняет многие компромиссы, возникающие при сжатии на основе ЦП, особенно в средах с большим количеством операций ввода-вывода в секунду.

Основная предпосылка заключается в том, что, уменьшая активность записи во флэш-память, мы получаем следующие преимущества:

•  Увеличение устойчивых операций ввода-вывода в секунду при произвольной записи

•  Улучшение задержки чтения в смешанных рабочих нагрузках чтения/записи за счет снижения помех при записи-чтении.

•  Повышенная надежность за счет уменьшения объема записываемых данных

Как работает прозрачное сжатие?

Для достижения значительного прироста производительности и долговечности не требуется слишком большой степени сжатия данных. Мы видим, что за пределами сжимаемости 2:1 наблюдается убывающая отдача, поскольку данные хоста физически занимают менее половины доступного носителя, поэтому сборка мусора может работать практически без перемещения данных. Еще одним результатом сжатия является эффективное увеличение дополнительной избыточной подготовки (OP) для SSD. Рынок вращается вокруг емкостей 7% OP с «интенсивным чтением» и 28% OP с «интенсивной записью» (например, 3,2 ТБ против 3,84 ТБ) , которые отличаются всего на 20% свободного места, поэтому коэффициент сжатия 1,2: 1 может превратиться диск с «интенсивным чтением» в «интенсивный по записи». По совпадению, мы обычно можем дополнительно сжать сжатые данные LZ4 (или Snappy) примерно на 20% (через нашу стадию кодирования Хаффмана).

А как насчет емкости твердотельных накопителей ScaleFlux?

Если данные сжимаемы, мы можем вернуть хосту дополнительную емкость. Мы делаем это с помощью набора функций NVMe Thin Provisioning, где мы можем установить размер пространства имен больше, чем поддерживающая его физическая емкость. Физическое использование указывается в поле использования пространства имен и контролируется хостом. Это не компромисс или/или с повышением производительности. Допустим, данные в среднем сжимаются 2:1; затем мы можем увеличить емкость с 3,84 ТБ до 6,2 ТБ и поддерживать уровень производительности OP на уровне 28%.

Чтобы получить наилучшие результаты, сосредоточьтесь на смешанных рабочих нагрузках чтения/записи и задержке.

При тестировании диска с прозрачным сжатием мы ищем рабочие нагрузки со смешанными операциями чтения и записи. Мы оцениваем производительность на основе результатов задержки и IOPS для данных, хранящихся с различными уровнями сжатия, от несжимаемых до сжатых примерно до 2,5:1. Любая дальнейшая сжимаемость должна применяться к расширению емкости.

Например, у нас есть тест, в котором мы постоянно увеличиваем количество случайных операций записи при максимальной производительности чтения:

scaleflux1.png

Глядя на диаграмму выше, шкала ScaleFlux выделена красным цветом, а другой SSD Gen4 — синим. Сплошные линии — «Чтение IOPS», а пунктирные линии — «Достигнутое количество операций ввода-вывода в секунду при записи». По мере увеличения числа операций ввода-вывода при попытке записи наша производительность чтения снижается гораздо меньше, и мы также можем продолжать масштабировать количество операций ввода-вывода в секунду при записи линейно.

Как диск сравнивается, если ваша рабочая нагрузка не использует преимущества сжатия? Данные будут обходить сжатие, если они не поддаются сжатию, что делает производительность SSD конкурентоспособной с ведущими твердотельными накопителями Gen4 NVMe на рынке. Другими словами, сжимаемость данных — это все с ног на голову.

Лучшие практики тестирования

Одна вещь, которую вы, возможно, захотите сделать во время тестирования емкости нашего диска, — загрузить исходную версию nvme-cli. Он имеет последнюю версию нашего плагина, который может легко сообщать об увеличении записи и общем коэффициенте сжатия на SSD (nvme sfx /dev/nvme… smart-log-add). https://github.com/linux-nvme/nvme-кли

Наконец, наша среда FIO находится на GitHub. В нем есть несколько тестов, предназначенных для выявления преимуществ в производительности (включая данные для приведенного выше графика). В README есть таблица, отображающая настройки FIO в зависимости от степени сжатия (достигаемой приводом). https://github.com/kpmckay/fio-скрипты

Я полагаю, что теперь у вас есть вся информация, необходимая для того, чтобы приступить к тестированию возможностей нашего накопителя. Не стесняйтесь обращаться ко мне в LinkedIn или по электронной почте в нашу команду по адресу info@scaleflux.com и запросить PoC .

Публикации по теме
Центры обработки данных
 
Новости ScaleFlux

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.