Data Lake или Data Warehouse: как работает сбор и хранение в Big Data и в чем отличие двух методов

О больших данных или Big Data стало известно не так давно, но популярность они уже обрели немалую. Говорить о больших данных просто, а понять, как их собирают и обрабатывают — не всегда. Разбираемся, какие подходы существуют в сборе и хранении информации, в чем отличие Data Lake от Data Warehouse, что такое ETL и ELT и как их не перепутать.

24.11.2020

Иллюстратор: Юлия Бобкова

Термин Big Data был введен в 2008 году Клиффордом Линчем. Большими эти данные названы из-за огромных объемов (свыше 100 Гб), которые растут с течением времени. Из-за размытия термина вскоре к Big Data также отнесли все инструменты, с помощью которых проводится анализ этих данных, а также все подходы и методы их обработки и сбора. О двух подходах хранения Big Data и их последующей обработки мы и поговорим.

Data Warehouse

Big Data собирается из разных источников. Объемы информации растут быстрыми темпами, и ее где-то нужно хранить для дальнейшей обработки. Одним из подходов для хранения выступает Data Warehouse. Изначально эта база данных была специально разработана для бизнес-целей, поэтому она хорошо структурирована и легка в понимании и использовании. Data Warehouse представляет собой хранилище разных данных, которые уже отсортированы и преобразованы. То есть у пользователя есть сбор всей необходимой информации, которая хранится в файлах или папках. Данный подход позволяет легче и быстрее использоваться данные для принятия решений. Операции с данными выполняют следующие:

Извлечение самих данных – вся информация от источников переходит в отдельную Базу данных и приводится к единому формату
Преобразование данных – информация подготавливается для хранения в оптимальной форме
Загрузка и обновление данных – данные помещаются в хранилище
Анализ данных
Результаты анализа данных

Data Lake

В отличие от подхода Data Warehouse, метод Data Lake представляет собой хранилище, где хранятся все необработанные данные в исходном формате без преобразования. Каждый элемент в Data Lake обозначен уникальным идентификатором и набором тегов метаданных. Данные могут быть неструктурированными, полуструктурированными или структурированными, они преобразуются только при запросе на использование. Из-за сложности подхода, Data Lake больше подходит для пользователей, занимающихся глубоким анализом данных и их исследованием.

По затратам средств метод Data Lake обходится намного дешевле, чем хранение данных в Data Warehouse. Также Data Lake быстрее выдает результат, так как у пользователей есть доступ к данным до их преобразования. Data Warehouse же потребует гораздо больше времени для внесения любых изменений в хранилище.

ETL и ELT — в чем разница?

Оба подхода используют разные процессы для управления данными. Data Warehouse использует метод ETL – Extract, Transform и Load, то есть дословно переводится как «извлечение», «преобразование» и «загрузка». В свою очередь, Data Lake использует ELT — Extract, Load и Transform, то есть сначала идет «загрузка», а только потом «преобразование».

ETL использует промежуточный сервер для преобразования данных и только потом загружает их в хранилище Data Warehouse. Такой подход применяется для небольшого количества данных и вычислительных преобразований.

ELT работает с большими объемами данных и сразу грузит их в Базу данных, их преобразование происходит уже в целевой системе. Скорость загрузки данных никогда не зависит от их размера. Из минусов, ELT сложнее внедрить в систему в отличие от ETL, так как для внедрения и поддержки ELT требуются нишевые знания.

ETL не поддерживает Data Lake, с ним работает только ELT. Для быстрого и эффективного анализа данных лучше подойдет ETL, так как данные в нем уже структурированы и преобразованы. Если же нужно быстро и сразу загрузить всю необработанную информацию, следует использовать ELT, так как данные будут преобразованы уже после загрузки. ELT — относительно новая технология. Она стала возможна благодаря новым облачным хранилищам, где данные могут храниться в огромных объемах. Платформы Amazon Redshift и Google BigQuery дали возможность использовать ELT из-за их возможностей массово-параллельной обработки данных.

Источники

Автор: Камилла Кубелекова

Редактор: Анна Павлова

Иллюстратор: Юля Данилова

Теги:big data

Next Социальный digital вместо нелегальных помидоров: интервью с соосновательницей IT-проекта для беженцев TaQadam »

Previous « «Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко (КБ «Стрелка»)

Tags: big data

24.11.2020

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

Новости

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…