Data Lakehouse и Data Lake

Data Lakehouse и Data Lake — это разные вещи, хотя они связаны. Первое — это "сырое" хранилище, второе — его эволюция, добавляющая структуру и аналитические возможности. Lakehouse - это баланс между гибкостью и производительностью.

Data Lake

Централизованное хранилище для сырых данных (структурированных, полуструктурированных, неструктурированных) в исходном формате.

У него нет строгой схемы, данные обрабатываются по мере необходимости (ELT).

Подходит для Big Data, машинного обучения, исследований, но может быть сложным в управлении (риск «болота данных»).

Примеры технологий: AWS S3, Azure Data Lake, Hadoop.

Сводная статья про озера и хранилища данных

Data Lakehouse

Гибридный подход, объединяющий Data Lake и Data Warehouse.

Хранит сырые данные, как озеро, но добавляет структурированность и возможности аналитики, как в хранилище.

Поддерживает транзакции, схемы, управление данными (ACID), что упрощает работу с данными для аналитики и ML в одном месте.

Примеры технологий: Delta Lake, Databricks, Snowflake (с поддержкой Lakehouse), Apache Iceberg.

Отдельная статья про Data Lakehouse

Ключевые отличия

Параметр	Data Lake	Data Lakehouse
Данные	Сырые, без схемы	Сырые + структурированные
Управление	Минимальное, сложное	Поддержка транзакций, схем
Использование	ML, Big Data, исследования	ML + аналитика, отчеты
Производительность	Медленнее без оптимизации	Оптимизирована для запросов
Пример	S3 + Spark	Delta Lake + Databricks

Зачем нужен Lakehouse?

Data Lakehouse решает проблемы озер (хаос, сложность управления) и хранилищ (ограниченная гибкость). Вы получаете:

Хранение сырых данных для ML.
Быструю аналитику для бизнес-отчетов.
Единый слой управления, меньше дублирования.

Опубликовано: 13.04.2025 04:48:37

Репозитории

@mosregdata

ВКонтакте