Мега-масштабирование PostgreSQL: Советы от работающих с 10^6 баз данных

Peter van Hardenberg Heroku Главный исследователь

10:00 05 февраля

45 мин

Мега-масштабирование PostgreSQL: Советы от работающих с 10^6 баз данных

Heroku Postgres is a cloud database service and the largest provider of PostgreSQL as a service anywhere. We operate more than 1,000,000 PostgreSQL databases with a team of about 10 people. We may be the most efficient DBAs in history, with approximately 100,000 databases per person on our team! This talk will introduce the opportunity and challenges of building and operating a cloud database service, as well as discussing the strategies we use to build, operate, and scale this product and team for the last six years now. We will include details about

a brief introduction to the service to provide context
strategies to design and build such a data service
operational war stories like how to recover from losing thousands of servers at once,
common challenges users have with Postgres
and a basic overview of the technical architecture

This is a complementary talk to Will Leinweber's talk, which will go into much more depth on the architecture of the software we have written.

Слайды

Видео

Магнус Хагандер PostgreSQL Global Development Group Разработчик и коммиттер

О структуре и эволюции сообщества PostgreSQL

В отличие от большинства других баз данных, PostgreSQL разрабатывается сообществом, не компанией и даже не фондом. Те, кто участвуют в этом сообществе уже долгое время, обычно считают это преимуществом, но для людей со стороны, привыкших иметь дело с традиционными организациями, это часто бывает непонятно. Для тех, кто ещё не внутри, вместе с нами, в этом докладе будет рассказано, как работает сообщество PostgreSQL, как взаимодействуют различные группы, а также, как всё это изменилось за последние годы.

Материалы к докладу
Александр Коротков Postgres Professional Руководитель разработки

45 мин
Расширяемость PostgreSQL: Истоки и новые горизонты

Postgres изначально был спроектирован таким образом, чтобы индексные методы доступа были расширяемыми. Известная цитата гласит: "Совершенно необходимо, чтобы пользователь мог создавать новые методы доступа, обеспечивающие эффективный доступ к значениям нетрадиционных типов данных" Michael Stonebraker, Jeff Anton, Michael Hirohama. Extendability in POSTGRES, IEEE Data Eng. Bull. 10 (2) pp.16-23, 1987

Изначально, heap был просто одним из методов доступа. Таким образом, подключаемые методы доступа означали также и подключаемые хранилища, если говорить современным языком. Сейчас в таблице pg_am системного каталога хранятся индексные методы доступа, интерфейс которых хорошо задокументирован. Таким образом, для того, чтобы современный PostgreSQL отвечал первоначальному замыслу необходимо реализовать две фичи:
- Подключаемые индексные методы доступа, т.е. возможность реализовывать новые типы индексов путём добавления строк в таблицу pg_am;
- Подключаемые хранилища, т.е. возможность реализовывать совершенно другие движки для хранения данных, не использующие традиционный heap.
Помимо чисто механической работы, такой как реализация команды "CREATE ACCESS METHOD", подключаемые индексные методы доступа должны был защищены WAL'ом. Сейчас, сообщество не хочет, чтобы расширения могли определять свой собственный формат WAL-записей, потому что возникает риск поломать одновременно recovery и репликацию, что неприемлемо. Другим подходом к этой проблеме является обобщённый формат WAL-записей, который задаёт разницу между версиями страницы в общем виде.

Очень немногие СУБД поддерживают сейчас подключаемые хранилища. Самая распространённая из них – MySQL. Но обращение к различным хранилищам в MySQL подобно обращению к различным СУБД. Поэтому, с нашей точки зрения, PostgreSQL не должен идти таким путём.

Однако, сейчас пользователи PostgreSQL всё больше понимают преимущества, которые они бы получили от использования альтернативных хранилищ. Идея колоночного и in-memeory хранилищ для PostgreSQL очень популярна. Одновременно с этим, возрастают наши технические возможности их реализовать. PostgreSQL приобрёл механизмы FDW и custom nodes. Обобщённый WAL и расширяемые индексные методы доступа ожидают включения в 9.6. Очень много работы на пути к подключаемым хранилищам уже сделано, даже если эта работа преследовала совсем другие цели.

Наступило время, когда разработчикам ядра PostgreSQL нужно всерьёз задуматься о нативной поддержке подключаемых хранилищ без костылей. В конце концов, мы должны получить команду "CREATE STORAGE ENGINE name ...", как один из механизмов расширяемости.

В докладе будут продемонстрированы текущие результаты в области подключаемых индексных методов доступа, а также концепция подключаемых хранилищ.
Материалы к докладу
Владимир Сердюк SOFTPOINT Ген. директор

22 мин
Как построить высокоэффективную (гео)распределённую ИТ-систему при любых каналах связи?

У вас есть распределенная ИТ-система, в ней много узлов, НО:
- Недостаточная оперативность обмена. Задержка синхронизации – часы или дни?
- Помехи пользователям: блокировки во время выполнения обмена?
- Слабая управляемость - статус обмена всех узлов не ясен;
- Низкая стабильность обмена, необходимость ручного управления?
DBReplicaton - технология высокоскоростного обмена данными между базами PostgreSQL. В данном докладе представлено решение, работающее уже в десятках средних и крупных компании России (>2500 активных пользователей, >20 узлов обмена), которое обладает: - Собственной транспортной подсистемой; - Централизованным единым интерфейсом управления и контроля за обменом; - Двусторонним обменом: возможностью работать с данными на изменение во всех узлах, участвующих в обмене; - Высокой скоростью обмена (от 2 секунд).

Дополнительно будет рассказано о необычном применении репликации в различных бизнес-системах.
Материалы к докладу
Николай Рыжиков Health Samurai CTO

45 мин

PL/v8 в медицине

Мы разрабатываем медицинскую базу данных - fhirbase, основанную на PostgreSQL и современном стандарте обмена медицинской информацией FHIR. Первая версия была написана с использованием SQL и PL/PgSQL, однако она достигла предела своей сложности и была полностью переписанна на PLv8/javascript. В докладе я расскажу про архитектуру fhirbase и то, почему мы выбрали PLv8. Про комфортную среду разработки, которая позволяет разрабатывать код и тесты в Node.JS и потом деплоить этот код в PostgreSQL. Поделюсь проблемами, с которыми мы столкнулись. Порассуждаем о переиспользовании библиотек и эко-системы javascript для разработки бизнес-логики внутри PostgreSQL. Расскажу про идеи PostgREST и no-backend приложений на PostgreSQL.

Материалы к докладу

Все доклады

title