119421, г. Москва, Ленинский проспект, дом 111, корпус 1, этаж 3, помещение 26, офис 88
Адрес для корреспонденции
125057, г. Москва, Ленинградский проспект, дом 69, строение 1, абонентская ячейка 54
ОКВЭД
62.02 (основной)
Дополнительные виды ОКВЭД
62.01, 62.09, 63.11
Виды деятельности в области ИТ (Приказ Минцифры № 449):
Код 1.01 — Проектирование, обследование, разработка, адаптация, модификация, модернизация, обновление и техническая поддержка программ для ЭВМ и баз данных.
Код 2.01 — Реализация разработанных организацией программ для ЭВМ и баз данных, а также предоставление прав на их использование (в том числе через сеть «Интернет»).
Управление данными в компании: DWH, ETL, OLAP и BI без магии и маркетинга
Автор статьи: Георгий Полищук
Статья
Анализ
ETL
20.01.2026
У большинства компаний сейчас данных уже больше, чем когда-либо: ERP, CRM, DMS, SFA, интернет-каналы, маркетинговая аналитика, отчёты партнёров и сетей в Excel.
При этом базовые вопросы часто остаются без ответа:
Какие продукты действительно зарабатывают деньги?
Где мы теряем продажи из-за нехватки товара, а где «замораживаем» деньги в запасах?
Какие промо работают, а какие просто «съедают» маржу?
Можно ли доверять отчётам хотя бы на 90%?
Проблема почти никогда не в «недостатке отчётов». Гораздо чаще её источник — отсутствие системного управления данными: нет единого хранилища (DWH), неуправляемые ETL-процессы, OLAP-кубы и BI-дашборды живут своей жизнью, а поверх этого появляются модные слова Big Data, Data Lake, data pipelines, которые не связаны с реальными задачами бизнеса.
В этой статье разберёмся:
что такое DWH, ETL, OLAP, BI, MDM, Big Data и Data Lake простыми словами;
как эти элементы складываются в архитектуру управления данными;
с чего начинать, если сейчас всё держится на «Excel + отчёты из разных систем»;
какие ошибки чаще всего ломают проекты по данным;
как может выглядеть реалистичная дорожная карта развития.
В конце — FAQ с пояснениями ключевых терминов.
1. Разбираемся в терминах: DWH, ETL, OLAP, BI, MDM, Big Data
1.1. DWH (Data Warehouse) — корпоративное хранилище данных
Простыми словами DWH — это центральное хранилище, куда стекаются данные из разных систем, очищаются, приводятся к единому виду и хранятся так, чтобы по ним можно было быстро и предсказуемо строить отчёты и аналитику.
Для тех, кто глубже в теме
DWH — это отдельно стоящий аналитический контур, отличающийся от операционных баз (OLTP) по структуре и типу нагрузки.
Типичные подходы к моделированию: звёздная / «снежинка»-схема, Data Vault, корпоративная модель..
Хранилище часто делят на слои:
staging (сырой слой);
интеграционный слой (единые сущности);
витрины данных (data marts) под конкретные задачи: продажи, запасы, промо, полевые команды и т.д.
1.2. ETL (Extract–Transform–Load) — конвейер обработки данных
Простыми словами ETL — это автоматический конвейер, который:
забирает данные из источников (Extract),
очищает, стандартизирует и преобразует их (Transform),
загружает в хранилище или витрины (Load).
Когда спрашивают «что такое ETL-системы простыми словами» или «что такое ETL-обработка данных», речь именно об этой схеме. Для практиков
ETL-процессы должны быть:
автоматизированы (расписание, триггеры событий);
наблюдаемы (логи, мониторинг, алерты);
идемпотентны (повторный запуск не плодит дубли).
В современных архитектурах всё чаще используют ELT (Extract–Load–Transform): данные сначала загружаются в мощное хранилище или Data Lake, а трансформации выполняются уже внутри него.
Простыми словами OLAP — это способ организации данных и запросов, который позволяет:
быстро строить многомерные отчёты;
«крутить» показатели в разных разрезах (по времени, продуктам, клиентам, регионам, каналам);
проваливаться от агрегированных уровней до отдельных транзакций.
OLAP-куб — это многомерная модель данных:
измерения: время, клиенты, товары, каналы, регионы;
меры: продажи, маржа, остатки, количество визитов, KPI.
Задача OLAP — обеспечить высокую скорость агрегирующих запросов и удобство для интерактивной аналитики.
1.4. BI (Business Intelligence) — аналитика для людей
Простыми словами BI-система — это то, что видит пользователь: дашборды, графики, отчёты, конструкторы запросов. Ключевые моменты
BI — это не только «красивые отчёты», а единая среда принятия решений.
Если под BI нет нормального DWH, ETL и MDM, система превращается в набор несогласованных картинок, где одни и те же показатели дают разные значения.
1.5. MDM (Master Data Management) — управление мастер-данными
Простыми словами MDM отвечает за «словарь бизнеса»:
какие у компании продукты и как они кодируются;
какие есть клиенты и торговые точки;
какие используются каналы, форматы, иерархии.
Зачем это нужно
устранить дубли;
согласовать справочники между системами;
обеспечить единый источник правды для всех аналитических витрин и отчётов.
Без MDM даже идеальные DWH и ETL будут работать с «красивым хаосом»: отчёты не сойдутся, а споры о цифрах станут нормой.
1.6. Big Data и Data Lake
Big Data — это данные, которые характеризуются:
большим объёмом (миллиарды строк, терабайты и больше),
высокой скоростью поступления (потоки событий, обновления «почти онлайн»),
большим разнообразием форматов (таблицы, JSON, логи, события, медиа).
Для таких сценариев используют Data Lake — хранилище сырых данных, куда информация складывается «как есть». Над озером строятся ETL/ELT-пайплайны, которые формируют:
структурированные витрины и DWH для управленческой отчётности;
наборы данных для Data Science и продвинутых моделей.
Примеры:
прогноз спроса на основе истории продаж + логов промо + данных о погоде и событиях;
выявление аномалий в продажах и остатках по потоковым событиям, а не только по «снимку раз в день».
На практике DWH и Data Lake дополняют друг друга: Data Lake хранит всё в исходном виде, DWH остаётся официальным источником управленческой аналитики.
2. Зачем вообще нужна архитектура данных: взгляд бизнеса и ИТ
2.1. Что важно бизнесу
Бизнесу не так интересно, какая СУБД используется и на чём написан ETL. Волнуют другие вопросы:
Можно ли ежедневно видеть продажи, остатки и ключевые KPI по всем каналам?
Можно ли доверять отчётам, или всё равно приходится «пересчитывать в Excel»?
Можно ли понимать не только «что случилось», но и почему и что будет, если изменить цену, промо или ассортимент?
Архитектура данных нужна не ради технологий, а ради того, чтобы решения перестали приниматься вслепую.
2.2. Что важно ИТ и аналитике
С точки зрения ИТ и аналитиков:
источников становится больше, они разнородные и часто меняются;
интеграции множатся, но слабо документированы;
«скрипты на коленке» перестают масштабироваться.
Системная архитектура (DWH + ETL/ELT + OLAP + BI + MDM и при необходимости Data Lake):
упорядочивает потоки данных;
снижает риски и стоимость сопровождения;
делает развитие аналитики управляемым.
3. С каких данных и систем начинать
Классический тупик: «Сначала соберём все данные, потом начнём проект». Обычно так проекты никогда не заканчиваются.
Гораздо эффективнее начать с минимального, но полезного контура.
Пример стартового набора для компаний с опорой на продажи
Продажи
отгрузки производителя (sell-in);
продажи партнёров / дистрибьюторов (sell-out);
POS-данные (off-take), если доступны.
Запасы
остатки на складах производителя;
остатки на складах дистрибьюторов;
по возможности — остатки по ключевым торговым точкам.
Мастер-данные
номенклатура (SKU, бренд, категория, упаковка);
клиенты и торговые точки (канал, формат, регион, город, геолокация);
организационная структура (регионы, команды, подразделения).
Данные полевого персонала (если есть)
визиты, маршруты, задачи, фото, промоактивности.
Главное — чтобы этот набор:
поступал регулярно;
проходил базовый контроль качества;
был закреплён за конкретными владельцами.
4. Типовая архитектура: от источников до отчётов
Схематично зрелая архитектура выглядит так:
Источники → ETL / ELT → (Data Lake) → DWH → витрины → OLAP / BI
4.1. Источники данных
ERP, бухгалтерия, WMS;
CRM, системы лояльности;
DMS, SFA, порталы партнёров;
Excel-выгрузки;
веб-аналитика, рекламные кабинеты, логи и события.
Задача этого уровня — надёжно фиксировать оперативные процессы. Он не обязан быть удобным для аналитики, для этого и строится следующий слой.
4.2. Слой интеграции и ETL/ELT
На этом уровне:
данные попадают в staging в максимально сыром виде (но уже с базовыми проверками формата);
логируются объёмы и статусы загрузок, отслеживаются ошибки.
Если есть потоковые источники, используются стриминговые конвейеры (streaming ETL/ELT) — но логика остаётся той же: регулярность, качество, наблюдаемость.
регулярный цикл «данные → аналитика → решения → действия → обратная связь».
При работе с Big Data добавляются:
каталог данных (data catalog) — описание наборов в Data Lake и DWH;
правила работы с чувствительными данными.
В итоге данные становятся отдельным управляемым активом, а не побочным продуктом ИТ.
9. Типичные ошибки проектов по данным
Нет общего языка Разные люди по-разному понимают, что такое «выручка», «клиент», «активная торговая точка».
Попытка сделать всё сразу Стратегия есть, рабочего контура нет. Через год есть презентации, но нет устойчивых инструментов.
Нет MDM и контроля качества Дубли клиентов и ТТ, разные коды SKU, некорректные цены. Аналитика строится на неустойчивой основе.
BI без DWH и ETL/ELTBI подключают напрямую к десяткам источников. Возникает избыточная сложность сопровождения и противоречивые цифры.
Данные не связаны с действиями Отчёты есть, но:
не определено, кто и как на них реагирует;
нет связи с операционными системами (CRM, DMS, SFA и др.).
Проект живёт только в ИТ Бизнес не вовлечён, владельцы данных не назначены, ответственность размазана.
Фокус только на Big Data и технологиях Разворачивается Data Lake, стриминговые конвейеры, но нет базового порядка в мастер-данных и DWH. В результате появляются просто большие, но малоуправляемые данные.
10. Мини-дорожная карта: как двигаться к зрелой архитектуре данных
ограниченное число, но максимально полезные отчёты;
закрепите их как официальный источник управленческой отчётности.
Параллельно выстраивайте MDM и Data Governance
назначьте владельцев данных;
ведите глоссарий;
договоритесь о правилах качества.
Расширяйте контур и усложняйте аналитику
добавляйте новые предметные области;
подключайте более сложные модели: прогнозирование, оптимизацию, Big Data-аналитику и машинное обучение.
11. Итог: что важно запомнить
Зрелая архитектура данных — это не только DWH и BI. Это:
общие понятия и единый язык;
устойчивый ETL/ELT-конвейер;
качественные мастер-данные;
понятные роли и процессы управления данными.
Начинать имеет смысл с небольшого, но рабочего контура и быстро показывать бизнесу пользу. Тогда архитектура данных перестаёт быть «большим проектом где-то в ИТ» и становится частью повседневного управления компанией.
FAQ: ключевые термины и вопросы
Что такое DWH простыми словами?
DWH (Data Warehouse) — это отдельное хранилище данных, куда стекается информация из всех основных систем компании. Там она очищается, приводится к единому формату и хранится так, чтобы по ней можно было быстро и надёжно строить отчёты и аналитику.
Чем DWH отличается от обычной базы данных?
Операционная база (OLTP) оптимизирована под быстрый ввод и изменение транзакций (заказы, платежи, документы).DWH оптимизирован под чтение и анализ:
хранит историю;
поддерживает сложные запросы и отчёты;
содержит согласованную модель данных для всей компании.
Что такое ETL-процесс?
ETL (Extract–Transform–Load) — это:
Extract — получить данные из источников (ERP, CRM, DMS, SFA, файлы и т.д.);
Transform — очистить, стандартизировать, обогатить, сопоставить со справочниками;
Load — загрузить в хранилище данных (DWH) или витрины.
Что такое ETL-пайплайн?
ETL-пайплайн — это реализованный конвейер ETL:
цепочка шагов (jobs) от чтения и проверки до загрузки в DWH;
управляемое расписание и порядок выполнения;
логирование и контроль ошибок.
Обычно в компании существует множество ETL-пайплайнов для разных предметных областей и источников.
Чем ETL отличается от ELT?
При ETL данные сначала трансформируются вне хранилища (например, на ETL-сервере), а затем загружаются в DWH.
При ELT данные сначала загружаются в DWH или Data Lake, а затем трансформации выполняются внутри самого хранилища.
ELT чаще применяют, когда хранилище достаточно мощное (облако, MPP-решения) и выгодно использовать его ресурсы для вычислений.
Что такое OLAP-куб?
OLAP-куб — это многомерная структура, в которой:
измерения — время, товары, клиенты, регионы, каналы;
меры — продажи, маржа, остатки, визиты, KPI.
Куб позволяет быстро строить отчёты в разных разрезах и проваливаться до нужного уровня деталей.
Чем BI отличается от обычной отчётности?
BI — это не один отчёт, а платформа, которая:
предоставляет интерактивные дашборды;
даёт конструкторы отчётов;
опирается на единую модель данных и согласованные KPI.
Главное отличие — BI работает на общей архитектуре данных, а не на разрозненных выгрузках.
Что такое MDM и почему он важен?
MDM (Master Data Management) — управление мастер-данными: товары, клиенты, торговые точки, каналы, иерархии.
MDM:
устраняет дубли и противоречия в справочниках;
обеспечивает единую базу для всех систем;
повышает доверие к любой аналитике и отчётности.
Что такое Big Data простыми словами?
Big Data — это большие, быстро меняющиеся и разнообразные данные:
большие объёмы (миллиарды записей);
высокая скорость поступления (стриминг, события);
множество форматов (таблицы, JSON, логи, медиаданные).
Для работы с ними используют Data Lake, масштабируемые хранилища и потоковые конвейеры обработки.
Что такое Data Lake?
Data Lake — это хранилище сырых данных, куда складываются данные из разных источников «как есть» (без жёсткой схемы):
удобно для Data Science, прототипирования, работы с полуструктурированными данными;
часто используется вместе с DWH: Data Lake хранит всё в исходном виде, DWH — структурированную часть для управленческой аналитики.
Нужен ли DWH небольшой компании?
Если есть одна учётная система и несколько простых отчётов, DWH может быть избыточен.
Но как только:
появляется несколько источников данных;
используются регулярные Excel-выгрузки;
важна единая управленческая отчётность,
DWH и системный подход к данным начинают экономить время, деньги и уменьшать риск ошибок.
Если вы хотите обсудить, на каком этапе развития архитектуры данных находится ваша компания и с чего лучше начать, команда ARK готова провести короткую консультацию и поделиться практическими примерами.
Получить консультацию
Другие новости
22.05.2026
Антифрод в полевых командах FMCG: как выявлять фиктивные визиты, подмену GPS и недостоверные фото
Разбираем антифрод в полевых командах FMCG: от фиктивных визитов и GPS-спуфинга до фото с экрана, чужих аккаунтов, подмены устройства, серверного времени, селфи-проверки, цифровой аутентификации у сотрудника магазина и риск-скоринга визитов.
SFA
Полевые команды
Антифрод
15.05.2026
Strike rate и productive call в FMCG: какие визиты торговых представителей дают результат и как их считать
Разбираем, почему не каждый визит торгового представителя дает бизнес-результат, как правильно считать strike rate и productive call, чем полезны KPI результативности визитов и как построить прозрачную аналитику полевых продаж в FMCG.
Статья
SFA
Контроль полевых команд
Антифрод
07.05.2026
Маршрутизация торговых представителей и мерчандайзеров: как централизованно планировать территории, визиты и нагрузку без хаоса
Маршруты полевых команд нельзя держать только на ручных правках и экспертных оценках. Разбираем, почему корректная маршрутизация начинается с нормирования визитов и централизованного планирования route engineers, как подключать к корректировке супервайзеров и торговые команды, и зачем для этого нужно специализированное ПО.
Статья
Мерчандайзинг
Полевые команды
07.05.2026
Perfect Store Score в FMCG: что это такое, как оценивать идеальный магазин и зачем этот показатель продажам
Объясняем, что такое Perfect Store Score, из каких метрик складывается оценка идеального магазина, почему она влияет на продажи и как внедрить этот показатель в работу торговых представителей, мерчандайзеров и аналитики.
Статья
Perfect Store Score
MDM
SFA
DMS
23.04.2026
Route-to-market в FMCG: как выбрать каналы продаж, форматы покрытия и выстроить RTM-стратегию
Разбираем, что такое RTM в FMCG, чем канал отличается от формата и покрытия, как выбрать модель работы с дистрибьюторами и полевыми командами, какие KPI действительно важны и почему без DMS, SFA и MDM стратегию невозможно удержать в рабочем состоянии.
Статья
Каналы продаж
Мы используем файлы cookies для улучшения работы сайта и анализа сетевого трафика. Подробнее — в Политике. Продолжая пользоваться сайтом, вы даёте согласие на использование файлов cookies.
Наш сайт собирает статистику посещения и данные посетителей сайта с помощью сервисов аналитики. Подробнее – в Политике.