- Что такое витрина данных
- Разница между хранилищем, озером и витриной данных
- Преимущества использования витрины данных
- Один источник с достоверной информацией
- Оперативное получение сведений из ВД
- Оперативное принятие рабочих решений
- Лёгкость и быстрота использования ВД
- ВД отличается гибкостью из-за учёта корпоративных потребностей
- ВД позволяет анализировать переходные процессы
- Типы витрин данных
- Зависимыми
- Независимыми
- Построение витрин данных
- Часто задаваемые вопросы о витринах данных
- Что произойдёт в случае объединения концепций хранилища и витрин данных?
- Как проводить анализ изменения сведений в информационной витрине?
- Из-за чего проще пользоваться ВД?
25 рабочих гипотез для увеличения конверсии на 40%
Скачать материалы
Что такое витрина данных? Это небольшой срез хранилища. Используется для упрощения ведения баз данных, так как содержит меньший объем информации. Как правило, это информация, предназначенная для конкретного отдела, группы пользователей.
Какие есть? Существуют несколько типов витрин данных. Основные из них – разработка зависимых и независимых DM (Data Mart). Подходящий вариант выбирается с оглядкой на стоящие перед пользователем цели и задачи.
Что такое витрина данных
В 1993 году Тед Кодд разработал технологию обработки информации (OLAP) для объединения разных транзакционных систем. Однако практическое использование OLAP для этих задач оказалось недолгим из-за низкой эффективности. Поэтому учёные начали работать над новой платформой, позволяющей содержать аналитическую информацию. Это привело к созданию хранилища данных (ХД, Data Warehouse).
Объёмы конфиденциальных и иных сведений росли. Организации, их представительства размещались на разных территориях, что приводило к проблемам с хранением и обработкой данных. Надо было минимизировать финансовые убытки от их неправомерного использования и сократить время на борьбу с нарушителями.
Для решения этой проблемы была разработана витрина статистических данных (ВД, Data Mart). Она содержала часть сведений из хранилища. Добавление в нее новой информации проводилось в то время, когда пользователи реже обращались к ней. При утрате либо повреждении сведений в ВД запускалась процедура восстановления для повторного получения данных из хранилища.
-
Дополнительно:
- 10 критических ошибок В2В маркетинга
- 5 полезных инструментов для В2В
Витрина является частью хранилища данных. Вся информация в ней относится к определённой теме. Есть отдельные витрины данных для финансистов, маркетологов, продавцов, рекрутеров и иных специалистов.
Для выяснения, что такое витрина данных, рассмотрим её особенности. Она предназначена для хранения информации в малом объёме и относится к отдельному подразделению организации либо к конкретному направлению её деятельности. Если на предприятии несколько витрин данных с одинаковыми сегментами, то данные в пределах этих секторов должны быть идентичны.
Разница между хранилищем, озером и витриной данных
Для хранения информации можно воспользоваться хранилищем, озером и витриной данных. Предусматриваются разные цели использования каждой из этих баз.
Хранилище данных – система управления материалом. Сведения в такой базе относятся ко всему предприятию и используются, когда нужно составить отчёт либо проанализировать общие знания об организации. Хранилище данных пополняется информацией из разных источников (например, журналы программ, приложения для совершения операций). Особенность его – структурированное хранение различных сведений.
Озеро данных (ОД) позволяет содержать большие объёмы информации (например, о посещениях, об интернет-страницах) и предоставляет пользователям быстрый доступ к ней. Сведения из него используют аналитики и специалисты по машинной обработке. Информация в озере данных находится в первоначальной форме. В отличие от информационного хранилища, оно содержит большие объёмы необработанных сведений и не предполагает их структурирование и последующее использование по определённым правилам.
Третьим вариантом информационной базы является витрина данных – это, простыми словами, упрощённая форма хранилища определённой тематики. Свои ВД есть у маркетологов, экономистов, менеджеров и иных специалистов предприятия.
В витринах данных держат узкоспециализированные сведения. Поэтому для их пополнения требуется меньше первоисточников информации (в виде внутренних систем, центрального хранилища, внешней среды), чем для хранилища.
Преимущества использования витрины данных
Витрины данных используют в разных подразделениях фирмы для получения приведенных ниже преимуществ.
Один источник с достоверной информацией
Все сотрудники подразделения предприятия пользуются одинаковыми сведениями, хранящимися централизованно в одном месте. У них нет необходимости сопоставлять данные. Это обеспечивает достоверность информации из ВД и составленных на её основе планов.
В результате сотрудники организации могут заниматься принятием решений и их последующим выполнением, не отвлекаясь на перепроверку выборки с данными.
Оперативное получение сведений из ВД
Сотрудники разных подразделений могут в короткие сроки получить необходимую им информацию из базы и использовать её совместно с иными данными, имеющимися у них.
После выполнения необходимых настроек для взаимодействия с первоисточником можно быстро получать сведения из ВД без обращения в информационное подразделение предприятия. Это позволит продуктивнее работать как лицам, отвечающим в компании за ведение бизнеса, так и работникам, занимающимся техническим обеспечением организации.
Оперативное принятие рабочих решений
В связи с ускорением получения статистической информации сотрудниками компании быстрее будут приниматься рабочие решения. Если хранилище данных относится ко всему предприятию, то ВД ориентирована на аналитическую работу определённого отдела фирмы. Так обеспечивается деятельность финансистов, рекрутёров и иных специалистов, занимающихся решением конкретных задач.
Сотрудники компании на основе полученных сведений рассчитывают различные показатели и принимают управленческие решения.
Лёгкость и быстрота использования ВД
Чтобы настроить хранилище на использование всеми работниками организации, понадобится много ресурсов и времени. При этом аналитическую витрину данных можно быстро адаптировать для нужд одного подразделения за счёт использования уменьшенного объёма информации.
ВД отличается гибкостью из-за учёта корпоративных потребностей
В текущей деятельности подразделения предприятия могут использоваться сведения, полученные в ходе реализации предыдущих проектов. В отделах могут заниматься изменением и дополнением информационных витрин новыми данными.
ВД позволяет анализировать переходные процессы
Ряд аналитических проектов предприятия предполагает реализацию за короткий период. Так, менеджеру компании поручили оценку результатов сбыта продукции через интернет-магазин по маркетинговой акции, запущенной две недели назад. Итоги работы специалиста могут потребоваться во время ближайшего совещания с сотрудниками подразделения организации. В этой ситуации возможна оперативная настройка витрины данных под решение такой задачи.
Типы витрин данных
Рассмотрим, какие могут быть витрины данных.
Зависимыми
Информационным источником такой витрины оказывается хранилище данных. Это помогает соединить всю бизнес-информацию предприятия в одно хранилище. При создании одной или нескольких ВД сведения в них будут согласованны и интегрированы в системы организации.
Зависимые витрины основаны на применении двух подходов. Первый вариант предполагает хранение итогов ETL во временной области с отказом от физической информационной базы. В результате пользователю доступна лишь витрина данных. Второй вариант предусматривает расширенный пользовательский доступ. То есть сотрудник может открыть и ВД, и единое информационное хранилище.
Независимыми
В данной ситуации не предусматривается использование центрального хранилища данных. Этот тип витрин подходит для малых рабочих групп и корпоративных служб предприятия. Информация в независимые ВД поступает напрямую из первоисточника, который может быть внешним либо внутренним.
Минусом этого решения оказывается риск появления дублей в разных витринах данных. Также из-за отказа от объединения сведений нельзя получить полноценную информацию о деятельности всей организации.
Обычно независимые ВД появляются в крупных фирмах с несколькими обособленными филиалами, в которых есть свои информационные отделы. В виде примера витрины данных можно указать:
- ВД маркетингового подразделения предприятия. В ней собраны сведения о товарах организации, о покупателях, о планируемой реализации.
- Витрину данных для подразделения фирмы, занимающегося реализацией продукции.
- ВД для финансового отдела компании.
- Витрину данных для подразделения организации, оценивающего риски.
- Витрину данных для иных отделов предприятия.
Пользователи и разработчики ВД отмечают такие их основные преимущества:
- Наибольшая польза для работника, так как он получит лишь те сведения, которые нужны для выполнения поставленной ему задачи.
- Уменьшение объёма по сравнению с хранилищем данных.
- Легче создать витрину данных, чем подготовить хранилище для всего предприятия. Также облегчается добавление информации в ВД и её использование разными пользователями организации.
- Содержащиеся в витрине данные оказываются тематическими.
- Можно оперативно внедрить ВД.
- Есть возможность подготовить ответы для пользователей на частые вопросы по информационной витрине.
- Обеспечивается оптимизация сведений для конкретного направления деятельности предприятия. В результате упрощается заполнение ВД и повышается эффективность работы сотрудников организации.
Отметим, что сервис витрина данных имеет свои недостатки. Создателями и пользователями их выделены такие минусы:
- Сложности с проверкой цельности, достаточности и достоверности информации. Возможно хранение похожих и дублирующих данных в разных информационных витринах, из-за чего система оказывается перегруженной. Это вызывает рост затрат предприятия на хранение сведений.
- Использование ВД усложняется в случае получения информации для неё от разных первоисточников. Для добавления новых данных в информационную витрину может потребоваться отдельная группа сотрудников предприятия.
- Нет консолидации сведений, имеющихся в различных витринах данных, то есть отсутствует объединённая база по всей организации.
- По одной ВД нельзя оценить работу предприятия в целом.
Помимо рассмотренных типов есть также гибридный вариант витрины данных. Он предусматривает объединение информации из первоисточников, отличающихся от централизованного хранилища, и поддержку крупных структур для хранения сведений.
Построение витрин данных
ВД включает в себя наборы, представленные в виде подмножества DWH. Информация поступает напрямую из первоисточника либо пополняется дополнительно сведениями, полученными из хранилища. При этом витрина данных информационной системы является доменно-ориентированной и создаётся для выполнения задачи, затрагивающей совокупность потребителей либо пользовательских сценариев.
При построении ВД пользуются моделированием многомерных сведений. Здесь следует рассмотреть следующие понятия:
- измерения выступают перечнем сведений, содержащих информацию по одному либо нескольким направлениям ведения бизнеса предприятием;
- факты являются списком метрик, измерений, транзакций и иных данных по процессам, связанным с коммерческой деятельностью организации;
- показатели или атрибуты выступают компонентами в таблице измерений.
С помощью таблиц фактов хранятся транзакции либо показатели, связанные с работой фирмы. В табличном виде можно и собирать бизнес-измерения, и установить подтекст для фактической информации. Моделирование многосоставных сведений предусматривает такие действия:
- проведение идентификации бизнес-процесса для определения необходимости создания ВД, понимания выявленной проблемы и определения измерений и сведений;
- осуществление идентификации гранулярности для выбора варианта нормализации данных;
- выбор измерений, оказывающихся элементами процесса моделирования многосоставных сведений, в которых представлены детальные данные о доменных объектах;
- выявление фактов в виде операций и показателей, связанных с измерениями.
Далее следует построить схему сведений. Это позволит представить измерения и фактические данные в табличном виде. Чаще всего для этих целей пользуются схемами снежинки либо звезды.
Первый вариант предусматривает окружение таблицы с фактами различными измерениями без полной нормализации. В такой схеме используется перечень атрибутов для описания отдельного измерения.
Звездообразный вариант можно расширить за счёт использования модели снежинки, увеличивающей количество измерений, которые оказываются полноценно нормализованными и дополнительно поделёнными на таблицы. Это позволяет сэкономить объём базы данных из-за нормализации и упростить добавление новых измерений.
Рассмотренные приёмы моделирования многосоставных сведений оказываются основой для разработки витрин и хранилищ данных. Это актуальная задача для дата-инженеров и информационных архитекторов. Пользователю базы данных важнее данные о том, какие сведения представлены в DWH.
Часто задаваемые вопросы о витринах данных
Что произойдёт в случае объединения концепций хранилища и витрин данных?
Для выяснения, что такое витрина данных в sql, следует рассмотреть три уровня, объединённые между собой:
- Общая по организации база данных, основанная на использовании реляционной системы управления (СУБД). Отличается наличием слабо денормализованной или нормализованной схемы (то есть подробными сведениями).
- ВД отдельного подразделения предприятия/сотрудника, реализованная на основе многосоставной системы управления данными (то есть используются агрегированные сведения).
- Рабочие компьютеры сотрудников, на которых установлены программы для анализа.
В будущем такая структура может стать типовой для большинства организаций. Это связано с тем, что в ней есть такие преимущества:
- Компактность хранения подробных сведений, поддержка крупных информационных баз, что основано на использовании реляционных систем управления данными.
- Лёгкость настраивания, оперативный ответ на пользовательский запрос во время использования агрегированных материалов на базе многосоставных систем управления.
Как проводить анализ изменения сведений в информационной витрине?
Анализ динамики показателей возможен в том случае, если в ВД добавлен дополнительный компонент в виде времени. Так как сведения в базу данных поступают непрерывно, то фиксируется дата их получения. Поэтому не нужно что-то менять в работе всего информационного хранилища.
Из-за чего проще пользоваться ВД?
В связи с тем, что система витрины данных предполагает решение задач по определённому виду деятельности или конкретному отделу предприятия, её легче разработать, чем аналитическую базу для всей организации. Для полноценного функционирования ВД потребуется хранилище с неструктурированной информацией, а также запросы по получению выборки с нужными сведениями из этого первоисточника.
Итак, можно постоянно содержать те данные, которые чаще всего требуются для отдельной группы пользователей в организации. Для получения других сведений предусматривается хранение характеристик их структуры и приложений для извлечения информации из центральной базы. Первое открытие этих виртуальных данных может быть очень длительным процессом. Однако использование ВД способствует увеличению гибкости работы предприятия и снижает стоимость оборудования для хранения информации.