Data Lakehouse и Data Lake

Data Lakehouse и Data Lake — это разные вещи, хотя они связаны. Первое — это "сырое" хранилище, второе — его эволюция, добавляющая структуру и аналитические возможности. Lakehouse - это баланс между гибкостью и производительностью.

Data Lake

Централизованное хранилище для сырых данных (структурированных, полуструктурированных, неструктурированных) в исходном формате.

У него нет строгой схемы, данные обрабатываются по мере необходимости (ELT).

Подходит для Big Data, машинного обучения, исследований, но может быть сложным в управлении (риск «болота данных»).

Примеры технологий: AWS S3, Azure Data Lake, Hadoop.

Сводная статья про озера и хранилища данных

Data Lakehouse

Гибридный подход, объединяющий Data Lake и Data Warehouse.

Хранит сырые данные, как озеро, но добавляет структурированность и возможности аналитики, как в хранилище.

Поддерживает транзакции, схемы, управление данными (ACID), что упрощает работу с данными для аналитики и ML в одном месте.

Примеры технологий: Delta Lake, Databricks, Snowflake (с поддержкой Lakehouse), Apache Iceberg.

Отдельная статья про Data Lakehouse

Ключевые отличия

ПараметрData LakeData Lakehouse
ДанныеСырые, без схемыСырые + структурированные
УправлениеМинимальное, сложноеПоддержка транзакций, схем
ИспользованиеML, Big Data, исследованияML + аналитика, отчеты
ПроизводительностьМедленнее без оптимизацииОптимизирована для запросов
ПримерS3 + SparkDelta Lake + Databricks

Зачем нужен Lakehouse?

Data Lakehouse решает проблемы озер (хаос, сложность управления) и хранилищ (ограниченная гибкость). Вы получаете:

  • Хранение сырых данных для ML.
  • Быструю аналитику для бизнес-отчетов.
  • Единый слой управления, меньше дублирования.

Экономика данных

Компании, люди, географические координаты, населённые пункты, инфографика, аналитика, карточки объектов, сайты, контакты, адреса, искусственный интеллект, большие данные, фиас, кладр, октмо, окато, оквэд, огрн, инн, кпп, окпф.

Данные Московской области

Репозитории

  1. GitVerse
  2. GitLab
  3. GitHub

Telegram

@mosregdata