что такое кхд в банке
Корпоративное хранилище данных
Корпоративное хранилище данных (КХД) – решение для хранения, объединения и обработки больших объемов данных из различных систем-источников (учетных систем, транзакционных систем). КХД предоставляет оперативный доступ к данным через информационные витрины, обеспечивая полноту, достоверность и непротиворечивость данных.
КХД предназначено для хранения разносторонней информации о бизнес-деятельности компании. КХД обычно строится на принципе «единой версии правды» и открывает доступ к широкому спектру данных для бизнес-пользователей компании.
Отправить запрос
Илья Муковоз
Руководитель отдела хранилища SAP BW
САПРАН специализируется на построении КХД на базе программных продуктов SAP BW, SAP HANA
КХД включает следующие функции и функциональные возможности:
В прикладных целях в КХД часто закладывают функции трансформации планов счетов. Например, для получения отчетности по стандартам МСФО.
КХД может быть реализовано на базе программных продуктов SAP BW, SAP HANA.
Преимущества использования корпоративных хранилищ данных
Внедрение КХД в первую очередь позволяет повысить эффективность принятия управленческих решений за счет увеличения достоверности информации и сокращения времени ее получения.
Становится возможным оперативно получать отчетность на регулярной основе в автоматическом режиме и в требуемой детализации.
Снижаются трудозатраты и сокращаются сроки разработки отчетности, т.к. вся необходимая информация доступна в витринах данных КХД.
Принципы построения корпоративных хранилищ данных
Лучшей практикой построения крупных систем КХД являются архитектуры LSA (Layered Scalable Architecture, многоуровневая масштабируемая архитектура) и LSA++.
Стандартная архитектура LSA включает несколько информационных слоев, отделяющих витрины данных от их источников. Такая организация КХД обеспечивает прозрачность, гибкость, масштабируемость, расширяемость и простоту поддержки хранилища данных.
Компания САПРАН занимается внедрением аналитических решений с 2008 года и обладает экспертизой в области внедрения корпоративных хранилищ данных и систем аналитической отчетности на базе платформы SAP. В число наших заказчиков систем КХД входят крупные и широко известные компании.
Корпоративные хранилища данных. Интеграция систем. Проектная документация.
Что такое корпоративное хранилище данных (Data Warehouse) и кому его продавать
Чтобы продавать, надо понимать что продаем
Определимся с терминологией и понятиями. Корпоративное хранилище данных (Data Warehouse) – это не система ключевых показателей эффективности (КПЭ, KPI), это не большая база данных, это не аналитический OLAP-инструмент, это не интеллектуальная система, позволяющая добывать новые данные и получать статистические зависимости, это не система единой НСИ – это все не ХД, если говорить о нем в контексте отдельно взятого пункта.
Корпоративное хранилище данных – это специальным образом организованный массив данных предприятия (организации), обрабатываемый и хранящийся в едином аппаратно-программном комплексе, который обеспечивает быстрый доступ к оперативной и исторической информации, многомерный анализ данных (KPI по различным измерениям), получение прогнозов и статистики в разрезах согласованной нормативно-справочной информации (НСИ).
Потенциальные клиенты на корпоративное хранилище данных и что они получают?
Как определить потенциальных корпоративных клиентов, которым необходимо хранилище данных?
Какие выгоды клиент получает от внедрения корпоративного хранилища данных?
Из чего состоит корпоративное хранилище данных
Из каких компонентов строит корпоративное хранилище данных с технической точки зрения?
Компоненты корпоративного хранилища данных предприятия
Как выглядят компоненты корпоративного хранилища данных (модель данных, ETL-процессы, витрины данных)
Приведем наглядные примеры модели данных, реализации ETL-процесса, формы поддержки единой НСИ, витрин данных.
Логическая модель данных.
Определяет сущности, их атрибуты и связи между ними.
ETL процесс устранения дубликатов в исходных данных
Форма ввода данных для формирования единого справочника
Витрина данных в форме табличного отчета
Витрина данных с графиком и цветовым
выведением данных по заданному условию
Витрина данных с графиком
Сопутствующее программное и аппаратное обеспечение
Прежде всего, помимо самих услуг на разработку корпоративного хранилища данных, продаются еще и лицензии как на серверное програнное обеспечение (ОС, базу данных, сервер приложений и др.), так и на клиентские места (средства антивирусной защиты и обеспечения безопасности).
Возможно, существующие сервера клиента не предназначены для развертывания хранилища данных. Необходимо выдвигать к ним требования и продавать потенциальному клиенту «железо».
Помимо самих серверов для хранения значительного объема информации необходимы дисковые массивы.
Намереваясь строить корпоративное хранилище данных, потенциальный клиент не всегда понимает как он будет обеспечивать резервирование. Зачастую существующие у клиента системы резервного копирования не способны одномоментно подключить к резервированию объемы данных от 20-30 Тб.
Как правило, специалистам и пользователям клиента требуется прохождение курсов обучения.
Финансовая сфера
О необходимости иметь в банке корпоративное хранилище данных (КХД) не говорит только ленивый. Всерьез обсуждаются вопросы о том, сколько именно хранилищ может (должен) иметь банк, по какой модели их строить — по Инману (Bill Inmon), по Кимбаллу (Ralph Kimball) или по некоторой их «комбинации». Предлагаются «рецепты» по внедрению — на основе промышленной системы, отраслевой модели данных, небольшими «кусочками» или всем «пирогом» сразу
Начальник управления обработки данных и формирования отчетности
Доступ Онлайн
Доступ Онлайн + Печатное издание
Подписавшись на Bosfera.ru, вы сможете ежедневно читать аналитические материалы, расследования, интервью с известными экспертами и бизнесменами. Подписчики также получают неограниченный доступ к архиву
Начальник управления обработки данных и формирования отчетности
В октябре 2021 года НРА опубликовало ESG-рэнкинг эмитентов ценных бумаг финансового сектора, входящих в котировальные листы Московской биржи первого и второго уровня
О том, какие факторы стимулируют сегодня развитие рынка интернет-эквайринга, а какие имеют сдерживающий характер, поговорили Вячеслав Семенихин, генеральный директор компании Mplace, и Дмитрий Спиридонов, директор платежного сервиса CloudPayments, советник заместителя председателя правления «Тинькофф»
Урегулирование убытков и выплаты клиентам при наступлении страхового случая – одно из наиболее проблемных мест страхования с точки зрения доверия потребителей. Применение технологий искусственного интеллекта в этом процессе позволит страховщикам исключить «человеческий фактор» и свести к минимуму претензии клиентов
5-й ежегодный форум по взаимодействию МСП и финансового сектора
Репортажи по итогам восьми сессий 4-ого финансового марафона Finversia
С 2021 года реализуется программа по обучению онкопсихологов
Свидетельство о регистрации (журнал «Банковское обозрение»): ПИ № ФС77-52048 от 07.12.2012.
Свидетельство о регистрации (сайт bosfera.ru): Эл № ФС77-43024 от 15.12.2010.
ООО «Методология бизнеса», а также авторы материалов сайта не несут ответственности за возможные убытки, которые могут быть причинены лицу в результате использования или неиспользования размещенной на сайте информации. Пользователи самостоятельно оценивают возможные риски совершения юридически значимых действий на основе размещенной информации и несут ответственность за их неблагоприятные последствия.
Аналитика и комментарии
Хранилище данных – абсолютная необходимость
С. БОВА: «В текущих условиях очень важно иметь возможность быстро получать и анализировать максимальный объем данных по клиентам»
Корпоративное хранилище данных (КХД) позволяет оперативно получать доступ к огромному массиву финансовой и аналитической информации по клиентам и истории их взаимоотношений с банком. Также КХД обеспечивает подготовку управленческой отчетности. О том, как проект по реинжинирингу КХД реализуется в Росбанке, NBJ рассказала директор департамента развития и поддержки корпоративного хранилища данных Росбанка Светлана БОВА.
NBJ: Светлана Николаевна, какая часть ИТ-бюджета идет на проекты, связанные с КХД?
С. БОВА: Проект реинжиниринга корпоративного хранилища данных входит в ТОП-5 портфеля проектов Росбанка в первую очередь как стратегический проект банка, направленный на создание консистентного единого источника «чистых» данных для получения качественной управленческой и регуляторной отчетности. Также КХД используется для предоставления бизнес-подразделениям корректных данных для принятия управленческих решений, управления взаимоотношениями с клиентами, управления рисками, ликвидностью и т.д.
Корпоративное хранилище данных должно обеспечить развитие бизнеса банка, особенно с учетом текущей экономической ситуации, требующей принятия быстрых и основанных на актуальной и качественной информации решений. Поэтому проект, безусловно, занимает весомое место в ИТ-бюджете, так как, помимо построения новых бизнес-процессов реализации отчетности и изменения архитектурных принципов построения бизнес-функциональности КХД, включает в себя масштабные инфраструктурные изменения. Речь идет о построении полноценных сред разработки, тестирования, сертификации и наращивании промышленной среды, о создании ландшафта для бэк-копирования данных и об организации disaster recovery площадки.
NBJ: Какие решения были выбраны для создания платформы КХД?
С. БОВА: Мы используем линейку продуктов IBM: в качестве СУБД IBM DB2, инструмент для загрузки и трансформации данных (ETL) IBM DataStage, IBM BDW (BankingDataWarehouse) индустриальная модель данных ядра – детального слоя хранилища, а для предоставления отчетности конечным пользователям – стандартный BI инструментарий.
NBJ: Не могли бы Вы подробно описать процесс обработки данных, поступающих в КХД?
С. БОВА: На ежедневной основе происходит загрузка данных из банковских систем в слой ODS (Operational DataStore), имеющий физические структуры таблиц, максимально приближенные к физической модели хранения данных систем-источников. Этот этап происходит в ночное время после процедуры закрытия операционного дня. Затем, на следующем шаге ETL-процессов, происходит выделение инкрементальных изменений, трансформация данных и загрузка в модель ядра хранилища данных. Банк выбрал промышленную модель IBM BDW для организации детального слоя хранения данных, специализированную для банковской деятельности и хорошо зарекомендовавшую себя в мировой практике построения хранилищ данных. Также на данном этапе производится проверка данных на консистентность, ссылочную целостность, корректность форматов заполнения данных с тем, чтобы в ядро КХД обеспечить загрузку только «чистых» данных.
Ядро КХД является единственным источником для построения слоя бизнес-ориентированных витрин данных. Витрины данных предназначены для вычисления и предподготовки данных для целей составления отчетности и предоставления выгрузок данных во внешние системы. Витрины данных, как правило, организованы по схеме «звезда», необходимой для эффективного применения инструментария Business Intelligence.
Конечный пользователь имеет доступ к данным и предрассчитанным отчетам через BI-инструмент, позволяющий не только использовать готовые отчеты, но и создавать свои произвольные ad-hoc отчеты из набора данных.
Важно отметить, что на каждом шаге загрузки и обработки данных осуществляются не только технические проверки, но и автоматизированные бизнес-проверки качества данных.
NBJ: Вы упомянули о качестве данных. Действительно, в последнее время много говорят о возрастающем объеме данных и ускорении темпов их прироста. Как в такой ситуации эффективно осуществлять управление данными?
С. БОВА: Абсолютно верно: чем больше информации, тем сложнее определить ее ценность, проверить качество, чтобы выбрать в этом потоке только достоверную информацию, на основании которой можно смело принимать решения.
Хранилище данных, являясь центром сосредоточения информации из большинства информационных систем банка, с одной стороны, и системой отчетности, с другой стороны, уделяет вопросам систематизации и качества данных повышенное внимание. Так, в рамках проекта по реинжинирингу корпоративного хранилища данных мы внедрили IBM DataGlossary – решение для унифицированного ведения бизнес-классификатора данных банка. Здесь содержится перечень и подробное описание бизнес-сущностей, атрибутов и показателей. Также мы фиксируем для каждой атомарной единицы данных ее владельца. Владельцем выступает бизнес-подразделение банка, ответственное за методологию расчета показателя, за определение критериев качества данных и за актуальность описания сути каждого бизнес-термина.
Это оказалось достаточно сложной задачей – определить «хозяина» данных. Приведу простой пример: контактный телефон клиента, казалось бы, – простой атрибут анкеты клиента. Кто в банке может являться владельцем этой информации? Тот, кто первично заводит данные во фронтовую информационную систему? Или тот, кто занимается оформлением выдачи продукта клиенту? Работник операционной вертикали? Или клиентский менеджер? Кто отвечает за полноту данных, за качество их заведения в информационные системы? Кто определяет критерии необходимой глубины хранения? Все эти вопросы возникают при определении понятия «владелец» каждого атрибута бизнес-модели данных банка (при том, что таких атрибутов на текущий момент более двух тысяч). И это только 40% проделанной работы по унификации и систематизации данных бизнес-глоссария.
NBJ: Каков объем хранилища данных в Росбанке на сегодняшний день, допускается ли его масштабирование?
С. БОВА: Общий объем базы данных КХД составляет порядка 40 террабайт. Ежеквартальный прирост данных в результате операционной деятельности варьируется от 5 до 7 террабайт. Учитывая такую динамику роста, естественно, в проекте КХД была разработана и внедрена архитектура инфраструктуры, предполагающая возможности горизонтального масштабирования. При этом речь идет как о масштабировании производственных мощностей, так и о наращении объемов системы хранения.
NBJ: Сотрудники каких подразделений обращаются к аналитической отчетности КХД наиболее часто, в каких сферах ее применение может быть наиболее эффективным и почему?
С. БОВА: Наибольшее количество пользователей отчетности, построенной на базе КХД, – это сотрудники финансового департамента, департамента рисков, операционной вертикали и розничного бизнеса. Большая часть функциональности, реализованной в хранилище на текущий момент, используется для целей управленческой отчетности, отчетности по стандартам IFRS, отчетности для группы Societe Generale.
Тем не менее КХД не ограничивается только лишь функцией расчета и предоставления отчетности – хранилище готовит и является поставщиком данных для систем оценки рисков по заемщикам при выдаче кредитов, для целей collection, для повышения эффективности работы контакт-центра и других бизнес-критичных приложений. В текущих условиях рынка очень важно иметь возможность быстро получать и анализировать максимальный объем данных по клиентам, истории их взаимодействия с банком, уровню качества клиентского портфеля.
Также сейчас регуляторные органы (ЦБ РФ, ФССП, ФНС и др.) делают акцент на все большей детализации в требованиях предоставления отчетных данных банка. Подобные задачи в многофилиальном банке, имеющем большое количество информационных фронт-офисных и бэк-офисных учетных систем, под силу решать, только имея централизованное корпоративное хранилище данных.
NBJ: Какие задачи решаются с применением технологий больших данных?
С. БОВА: Технология Big Data – интересный современный тренд, который уже имеет практический опыт применения в некоторых российских банках. Но мы пока только присматриваемся к данной технологии, так как существует целый ряд вопросов: стоимости, эффективности хранения больших данных, выстраивания процессов определения целевой аудитории использования больших данных. Все эти вопросы требуют детальной проработки до момента принятия решения о целесообразности применения данной технологии. Нельзя также забывать и о вопросах юридического характера и безопасности.
NBJ: Какие новые проекты сейчас внедряются в Росбанке? Не могли бы Вы рассказать о проектах по внедрению CRM-системы?
С. БОВА: Любой новый проект по внедрению информационной системы изначально зарождается из бизнес-инициатив. Именно бизнес диктует новые направления для развития, устанавливает новые планки показателей роста, повышения эффективности банка. На основании заданного бизнесом направления подразделение ИТ уже вырабатывает оптимальное технологическое решение для достижения поставленной стратегической цели.
Одним из таких стратегических проектов банка является построение нового комплекса систем обслуживания клиентов, начиная от системы взаимоотношений с клиентами, модернизации контакт-центра, фронт-офисной системы, системы автоматизации проведения маркетинговых компаний и заканчивая системой принятия решений по выдаче продуктов. Внедрение данного комплекса систем позволит повысить уровень обслуживания розничных клиентов, увеличить скорость принятия решений и скорость оформления выдачи клиенту продуктов банка.
С технической точки зрения использование новейших технологий от лидер ов рынка обеспечит бесперебойную стабильную работу приложений, а также будет способствовать обновлению слоя интеграционного взаимодействия между системами. Проект рассчитан на три года. Роль корпоративного хранилища данных в этом проекте – обеспечение консистентными данными всех вышеупомянутых систем комплекса, сквозной сбор и консолидация информации и, конечно же, построение пула управленческой отчетности для оценки деятельности розничного бизнеса и состояния продуктовых портфелей банка.
Не Hadoop’ом единым: что такое КХД и как его связать с Big Data
Apr 23, 2020 · 6 min read
В этой статье мы расскажем, что такое корпоративное хранилище данных, зачем оно нужно и как устроено. Еще рассмотрим основные достоинства и недостатки Data Warehouse, а также чем оно отличается от озера данных (Data Lake) и как традиционная архитектура КХД может использоваться при работе с большими данными (Big Data).
Где хранить корпоративные данные: краткий ликбез по Data Warehouse
Потребность в КХД сформировалась примерно в 90-х годах прошлого века, когда в секторе enterprise стали активно использоваться разные информационные системы для учета множества бизнес-показателей. Каждое такое приложение успешно решало задачу автоматизации локального производственного процесса, например, выполнение бухгалтерских расчетов, проведение транзакций, HR-аналитика и т.д.
При этом с хемы представления (модели) справочных и транзакционных данных в одной системе могут кардинально отличаться от другой, что влечет расхождение информации. Частично этот вопрос Data Governance мы затрагивали в контексте управления НСИ. Кроме того, большое разнообразие моделей данных затрудняет получение консолидированной отчетности, когда нужна целостная картина из всех прикладных систем. Поэтому возникли корпоративные хранилища данных (Data Warehouse, DWH) — предметно-ориентированные базы данных для консолидированной подготовки отчётов, интегрированного бизнес-анализа и оптимального принятия управленческих решений на основе полной информационной картины [1].
Принцип слоеного пирога или архитектура КХД
Вышеприведенное определение DWH показывает, что это средство хранения данных является реляционным. Однако, не стоит считать КХД просто большой базой данных с множеством взаимосвязанных таблиц. В отличие от традиционной SQL-СУБД, Data Warehouse имеет сложную многоуровневую (слоеную) архитектуру, которая называется LSA — Layered Scalable Architecture. По сути, LSA реализует логическое деление структур с данными на несколько функциональных уровней. Данные копируются с уровня на уровень и трансформируются при этом, чтобы в итоге предстать в виде согласованной информации, пригодной для анализа [2].
Классически LSA реализуется в виде следующих уровней [3]:
· операционный слой первичных данных (Primary Data Layer или стейджинг), на котором выполняется загрузка информации из систем-источников в исходном качестве и сохранением полной истории изменений. Здесь происходит абстрагирование следующих слоев хранилища от физического устройства источников данных, способов их сбора и методов выделения изменений.
· ядро хранилища (Core Data Layer) — центральный компонент, который выполняет консолидацию данных из разных источников, приводя их к единым структурам и ключам. Именно здесь происходит основная работа с качеством данных и общие трансформации, чтобы абстрагировать потребителей от особенностей логического устройства источников данных и необходимости их взаимного сопоставления. Так решается задача обеспечения целостности и качества данных.
· аналитические витрины (Data Mart Layer), где данные преобразуются к структурам, удобным для анализа и использования в BI-дэшбордах или других системах-потребителях. Когда витрины берут данные из ядра, они называются регулярными. Если же для быстрого решения локальных задач не нужна консолидация данных, витрина может брать первичные данные из операционного слоя и называется соответственно операционной. Также бывают вторичные витрины, которые используются для представления результатов сложных расчетов и нетипичных трансформаций. Таким образом, витрины обеспечивают разные представления единых данных под конкретную бизнес-специфику.
· Наконец, сервисный слой (Service Layer) обеспечивает управление всеми вышеописанными уровнями. Он не содержит бизнес-данных, но оперирует метаданными и другими структурами для работы с качеством данных, позволяя выполнять сквозной аудит данных (data lineage), использовать общие подходы к выделению дельты изменений и управления загрузкой. Также здесь доступны средства мониторинга и диагностики ошибок, что ускоряет решение проблем.
LSA — слоеная архитектура DWH: как устроено хранилище данных
Все слои, кроме сервисного, состоят из области постоянного хранения данных и модуля загрузки и трансформации. Области хранения содержат технические (буферные) таблицы для трансформации данных и целевые таблицы, к которым обращается потребитель. Для обеспечения процессов загрузки и аудита ETL-процессов данные в целевых таблицах стейджинга, ядра и витринах маркируются техническими полями (мета-атрибутами) [3]. Еще выделяют слой виртуальных провайдеров данных и пользовательских отчетов для виртуального объединения (без хранения) данных из различных объектов. Каждый уровень может быть реализован с помощью разных технологий хранения и преобразования данных или универсальных продуктов, например, SAP NetWeaver Business Warehouse (SAP BW) [2].
Data Lake и корпоративное хранилище данных: как работать с Big Data
В 2010-х годах, с наступлением эпохи Big Data, фокус внимания от традиционных DWH сместился озерам данных (Data Lake). Однако, считать озеро данных новым поколением КХД [4] не совсем корректно по следующим причинам:
· разное целевое назначение — DWH используется менеджерами, аналитиками и другими конечными бизнес-пользователями, тогда как озеро данных — в основном Data Scientist’ами. Напомним, в Data Lake хранится неструктурированная, т.н. сырая информация: видеозаписи с беспилотников и камер наружного наблюдения, транспортная телеметрия, графические изображения, логи пользовательского поведения, метрики сайтов и информационных систем, а также прочие данные с разными форматами хранения (схемами представления). Они пока непригодны для ежедневной аналитики в BI-системах, но могут использоваться Data Scientist’ами для быстрой отработки новых бизнес-гипотез с помощью алгоритмов машинного обучения [5];
· разные подходы к проектированию. Дизайн DWH основан на реляционной логике работы с данными — третья нормальная форма для нормализованных хранилищ, схемы звезды или снежинки для хранилищ с измерениями [1]. При проектировании озера данных архитектор Big Data и Data Engineer большее внимание уделяют ETL-процессам с учетом многообразия источников и приемников разноформатной информации. А вопрос ее непосредственного хранения решается достаточно просто — требуется лишь масштабируемая, отказоустойчивая и относительно дешевая файловая система, например, HDFS или Amazon S3 [5];
· наконец, цена — обычно Data Lake строится на базе бюджетных серверов с Apache Hadoop, без дорогостоящих лицензий и мощного оборудования, в отличие от больших затрат на проектирование и покупку специализированных платформ класса DWH, таких как SAP, Oracle, Teradata и пр.
Таким образом, озеро данных существенно отличается от КХД. Тем не менее, архитектурный подход LSA может использоваться и при построении Data Lake. Например, именно такая слоенная структура была принята за основу озера данных в Тинькоф-банке [6]:
· на уровне RAW хранятся сырые данные различных форматов (tsv, csv, xml, syslog, json и т.д.);
· на операционном уровне (ODD, Operational Data Definition) сырые данные преобразуются в приближенный к реляционному формат;
· на уровне детализации (DDS, Detail Data Store) собирается консолидированная модель детальных данных;
· наконец, уровень MART выполняет роль прикладных витрин данных для бизнес-пользователей и моделей машинного обучения.
В данном примере для структурированных запросов к большим данным используется Apache Hive — популярное средство класса SQL-on-Hadoop. Само файловое хранилище организовано в кластере Hadoop на основе коммерческого дистрибутива от Cloudera (CDH). Традиционное DWH банка реализовано на массивно-параллельной СУБД Greenplum [6]. От себя добавим, что альтернативой Apache Hive могла выступить Cloudera Impala, которая также, как Greenplum, Arenadata DB и Teradata, основана на массивно-параллельной архитектуре. Впрочем, выбор Hive обоснован, если требовалась высокая отказоустойчивость и большая пропускная способность. Подробнее о сходствах и различиях Apache Hive и Cloudera Impala мы рассказывали здесь. Возвращаясь к кейсу Тинькофф-банка, отметим, что BI-инструменты считывают данные из озера и классического DWH, обогащая типичные OLAP-отчеты информацией из хранилища Big Data. Это используется для анализа интересов, прогнозирования поведения, а также выявления текущих и будущих потребностей, которые возникают у посетителей сайта банка [6].
LSA-архитектура корпоративного Data Lake в Тинькоф-банке
В следующей статье мы продолжим разговор про архитектурные особенности современных DWH с учетом потребности работы с Big Data и рассмотрим еще несколько примеров таких гибридных подходов. А технические подробности реализации КХД и другие актуальные вопросы управления бизнес-данными вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
















