Вместо того чтобы в качестве основного идентификатора файла использовать его имя с информацией о его местоположении в иерархии каталогов, системы CAS для каждого записанного файла генерируют глобально уникальный идентификатор (Globally Unique Identifier — GUID) с помощью хеш-функции типа MD-5 или SHA-1. Этот идентификатор используется для нахождения файла на устройствах хранения. Если система CAS предоставляет пользователям интерфейс CIFS или NFS (а большинство таких систем делают это), то при обращении к файлу она сначала находит в БД соответствующий GUID, определяет полный путь к файлу, а затем выдает его. Одним из преимуществ использования такого рода адресации является то, что системы CAS автоматически обеспечивают одноэкземплярное хранение файлов. Если поступивший в систему файл имеет абсолютно то же содержимое, что и один из уже записанных файлов, для нового файла будет сгенерирован такой же GUID, а, поскольку этот идентификатор является основным элементом для извлечения файла из системы, последняя не будет хранить два файла с одинаковыми GUID.
Технология одноэкземплярного хранения обеспечивает экономию ресурсов памяти.
Как и в случае с применением средств дедупликации данных на базе их хеш-значений, некоторые директора по ИТ опасаются возникновения хеш-коллизий; если такая коллизия произойдет, то из двух разных файлов, отправленных в систему, будет записан только один. Вероятность этого ничтожна — 10–25 при использовании простейших хеш-функций. Тем не менее, чтобы успокоить потенциальных заказчиков, производители делают определенные шаги, начиная с применения более устойчивых к коллизии хеш-функций, таких, как SHA-512, и кончая проведением побайтового сравнения файлов с идентичными хеш-значениями, перед тем как признать их одинаковыми.
Реальные системы CAS наделяются дополнительными возможностями сохранения пользовательских метаданных вместе с каждым объектом данных и реализуют механизм обеспечения сохранности информации, препятствующий любому пользователю, включая и самого системного администратора, удалять файлы до истечения установленного срока их хранения.
Первой в продаже появилась CAS-система Centera компании EMC, которая и сегодня является лидером этого рынка. Эта система имеет архитектуру под названием «избыточный массив независимых узлов» (Redundant Array of Independent Nodes — RAIN); среди них есть узлы доступа, посредством которых приложения сохраняют и извлекают файлы, и узлы хранения данных, содержащие дисководы и процессоры. Для надежности хранения данных Centera либо записывает каждый объект на два узла хранения, либо использует объектную схему контроля четности. Обычные RAID-контроллеры в ней не применяются. Кластеры узлов Centera могут реплицировать данные по сети IP.