Data Lakehouse и Data Lake
Data Lakehouse и Data Lake — это разные вещи, хотя они связаны. Первое — это "сырое" хранилище, второе — его эволюция, добавляющая структуру и аналитические возможности. Lakehouse - это баланс между гибкостью и производительностью.
Data Lake
Централизованное хранилище для сырых данных (структурированных, полуструктурированных, неструктурированных) в исходном формате.
У него нет строгой схемы, данные обрабатываются по мере необходимости (ELT).
Подходит для Big Data, машинного обучения, исследований, но может быть сложным в управлении (риск «болота данных»).
Примеры технологий: AWS S3, Azure Data Lake, Hadoop.
Сводная статья про озера и хранилища данных
Data Lakehouse
Гибридный подход, объединяющий Data Lake и Data Warehouse.
Хранит сырые данные, как озеро, но добавляет структурированность и возможности аналитики, как в хранилище.
Поддерживает транзакции, схемы, управление данными (ACID), что упрощает работу с данными для аналитики и ML в одном месте.
Примеры технологий: Delta Lake, Databricks, Snowflake (с поддержкой Lakehouse), Apache Iceberg.
Отдельная статья про Data Lakehouse
Ключевые отличия
Параметр | Data Lake | Data Lakehouse |
---|---|---|
Данные | Сырые, без схемы | Сырые + структурированные |
Управление | Минимальное, сложное | Поддержка транзакций, схем |
Использование | ML, Big Data, исследования | ML + аналитика, отчеты |
Производительность | Медленнее без оптимизации | Оптимизирована для запросов |
Пример | S3 + Spark | Delta Lake + Databricks |
Зачем нужен Lakehouse?
Data Lakehouse решает проблемы озер (хаос, сложность управления) и хранилищ (ограниченная гибкость). Вы получаете:
- Хранение сырых данных для ML.
- Быструю аналитику для бизнес-отчетов.
- Единый слой управления, меньше дублирования.
Экономика данных
Компании, люди, географические координаты, населённые пункты, инфографика, аналитика, карточки объектов, сайты, контакты, адреса, искусственный интеллект, большие данные, фиас, кладр, октмо, окато, оквэд, огрн, инн, кпп, окпф.