title

text

Игорь Сухоруков
Игорь Сухоруков Align Technology Big Data team lead
15:00 03 апреля
22 мин

Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap

Я покажу в PostGIS, как каждый может проанализировать геоданные всей Земли и получить ответы на свои глобальные вопросы за минуты и секунды.

Когда вы пользуетесь такси в небольших городах, вызывая машину по телефону, то с высокой вероятностью вашу поездку тарифицирует программа на основе данных OSM. Для тарификации используется какой-либо из пакетов прокладки маршрута. Благодаря этому сценарию использования, сотрудники таксопарка указывают номер дома и улицу на зданиях и делают вклад не только в свой бизнес, но и в OpenStreetMap.

В сценарии аналитики данных входят и задачи где лучше разместить торговую точку, чтобы в нее приходили покупатели. Опять же данные о шаговой доступности и населенности окресностей можно извлечь из геоданных. Можно расчитывать стоимость недвижимости на основе множества факторов связанных с расположением объекта и его окружения.

Ученые могут строить прогнозные модели для предсказания эпидемий, эволюции городов, планировать рекреационные зоны и застройку существующих территорий на основе открытых геоданных.

Ну и можно ответить на любой вопрос по географии который вам придет в голову: посчитать площади городов и построек, протяженности дорог и извлечь названия городов, областей и островов. Можете, например, стать чемпионом по игре в "Города" или основать новый сервис прокатов электро самокатов. Все ограничивается лишь вашей фантазией.

Я опубликовал https://github.com/igor-suhorukov/openstreetmap_h3 — мой проект высокопроизводительного загрузчика данных, который позволяет выполнять геоаналитику данных из OpenStreetMap в PostGIS. Он преобразует дамп OpenStreetMap всего мира или региона PBF в схему, разделенную по регионам H3. Опция столбцового хранения активирует расширение CitusDB в PostgreSQL для ускорения аналитических запросов.

Слайды

Видео

Видео доступно участникам мероприятия, выполнившим вход в личный кабинет

Другие доклады

  • Максим Милютин
    Максим Милютин Wildberries Разработчик/DBA
    45 мин

    Аналитические open-source решения на базе PostgreSQL

    Исторически PostgreSQL используется для транзакционной (OLTP) нагрузки. На это указывает строчное хранение данных и невозможность (или сложность) в организации распределённого исполнения запросов по канонам MPP (massive parallel processing) систем. Однако вследствие расширяемости ядра PostgreSQL (прежде всего, появления интерфейса подключаемых методов доступа) и либеральной лицензии (сходной с BSD) на свет появились различные форки и расширения, которые позволяют эффективно организовать обработку больших массивов данных для запросов аналитического толка.

    В текущем докладе планируется дать исчерпывающий обзор форка Greenplum и расширений Citus и TimescaleDB с точки зрение разработчика по основным признакам (фичам) аналитических СУБД - колоночное хранение, сжатие данных, распределённая обработка и др. Результаты данного обзора будут полезны архитекторам, выбирающим СУБД для аналитики под свою систему.

  • Игорь Косенков
    Игорь Косенков Postgres Professional Инженер
    22 мин

    Кластер Corosync-Pacemaker. Работа над ошибками

    Расскажу о частых ошибках при настройке отказоустойчивого кластера Corosync-Pacemaker. Зачастую эти ошибки приводят к фатальным последствиям, и как следствие - к отказу от выбранного решения в пользу других. Хотите рецепт "правильного" кластера?

  • Антон Дорошкевич
    Антон Дорошкевич ИнфоСофт Руководитель Отдела-ИТ
    45 мин

    Тонкости эксплуатации PostgreSQL для 1С

    В процессе эксплуатации баз достаточно больших 1С на СУБД PostgreSQL часто возникают вопросы, ответы на которые не так просто найти даже в документации. Хотелось бы поделиться опытом решения таких вопросов на базе нескольких переводов 1С с MS SQL на PostgreSQL клиентов из рейтинга РБК500. В докладе будут освещены такие моменты как: Как регулировать уровень глубины расчёта статистики и чем это может быть опасно? Как создание явной и неявной временной таблицы может "положить" сервер СУБД и как с этим бороться? В каком случае процесс СУБД будет убит операционной системой из-за перерасхода оперативной памяти и что с этим делать? Чем хорошо когда на одном кластере СУБД одна база, чем плохо когда много баз на одном кластере СУБД? Как быть с ресурсами серверов для сред тестирования и разработки при подходе "1 кластер - 1 база"? Резервное копирование- тонкости разных вариантов снятия бэкапов на PostgreSQL.

  • Антон Дорошкевич
    Антон Дорошкевич ИнфоСофт Руководитель Отдела-ИТ
    45 мин

    Резервное копирование и восстановление PostgreSQL

    Резервное копирование - один из самых обширных вопросов, который возникает после перехода на PostgreSQL. "Из коробки" PostgreSQL умеет делать два варианта резервного копирования и восстановления - это dump/restore pg_basebackup. Оба варианта имеют свои тонкости и особенности кардинально отличающие систему резервного копирования и восстановления от MS SQL. Так же в мире PostgreSQL сейчас активно развивается утилита pg_probackup, которая имеет на борту свой набор вариантов резервного копирования и восстановления со своими тонкостями и особенностями. Каждый вариант чем-то хорош, а чем-то не устраивает в разных сценариях. В докладе хочу рассказать про тонкости, особенности и лучшие практики на примере больших баз, сотен небольших баз на одном кластере PostgreSQL и просто маленьких инсталляций.