
Реализация Data Vault при построении DWH на PostgreSQL и Greenplum: проблемы и решения
В центре внимания — проблемы построения прикладного решения на PostgreSQL, а именно высоконагруженного аналитического хранилища данных. На примере кейса компании ЕВРАЗ покажем эффект применения методологии Data Vault на СУБД PostgreSQL и Greenplum для разработки единой системы производственных показателей.
Расскажем о сложностях и решениях – демонстрация вариантов, планов запросов на задачах обновления справочников и других больших объектов, примеры оптимизаций. Покажем нюансы кода – проблемы заполнения модели и проблемы выборки из модели.
Это будет интересно всем, кто планирует использовать или уже сталкивается со сложностями применения методологии Data Vault и проблемами производительности DWH на стеке open source. Сравним варианты технической реализации модельного слоя business vault с учётом специфики PostgreSQL и Greenplum. Рассмотрим 5 реальных проблем, возникающих при эксплуатации DWH и их решение:
1. Перенос логики сборки объектов Business Vault с PostgreSQL на Greenplum.
2. Замедление ETL при сборке текущего состояния Business Vault в PostgreSQL.
3. Замедление построения Data Lineage в PostgreSQL и Greenplum.
4. Медленная работа при запросе сателлита в Greenplum.
5. Медленные запросы с «in» или «or» при обращении к слою Business Vault.