title

text

Олег Бартунов
Олег Бартунов Postgres Professional генеральный директор
Никита Глухов
Никита Глухов Postgres Professional Старший разработчик
15:45 26 октября
45 мин

Элегантный поиск ближайших соседей в PostgreSQL

С необходимостью эффективного поиска ближайших соседей можно встретиться в разных задачах, например, поиск ближайших к заданной точке объектов на карте. Задача, на непрограммистский взгляд кажущаяся тривиальной (действительно, человек довольно легко справляется с ней глядя на карту) , на самом деле не имеет общего и доступного решения, что приводит к головной боли разработчиков, которые придумывают ad hoc решения (вставляют костыли). Эти решения, обычно некрасивые, портят настроение творческой натуры программиста, которому требуется посещение пивной, чтобы пережить когнитивный диссонанс :)

Действительно, если у человека есть карта, у которой есть определенный масштаб, и характерный размер поля зрения, то у программиста есть только координаты заданной точки и множество точек, которых может быть очень много (миллиарды звезд !), и к которому может идти большое количество конкурентных запросов, причем не только на чтение. Язык SQL позволяет очень красиво записать запрос, но реальный план его выполнения удручает - требуется прочитать всю таблицу, вычислить все расстояния от заданной точки, отсортировать по убыванию и оставить требуемое количество записей. Наличие индексов не спасает, а только приводит к полному обходу поискового дерева и чтения всей таблицы в случайном порядке, что гораздо медленнее простого чтения таблицы.

В действительности, класс задач, в которых требуется эффективный поиск ближайших соседей, гораздо шире задач пространственного поиска, например, задачи классификации, задачи поиска очепяток, кластеризации, дедупликации данных. Все они могут сильно выиграть от поддержки эффективного поиска ближайших соседей в СУБД, которые являются в настоящее время де-факто стандартом хранения данных. Эффективный поиск означает быстрый, конкурентный, масштабируемый поиск и поддержку различных типов данных (возможно, нестандартных), что и было реализовано 11 лет назад в PostgreSQL. Я расскажу про его реализацию, современное состояние и примеры использования.

Слайды

Видео

Видео доступно участникам мероприятия, выполнившим вход в личный кабинет

Другие доклады

  • Федор Сигаев
    Федор Сигаев Postgres Professional технический директор, ведущий разработчик PostgreSQL
    22 мин

    Зачем еще 64-битные значения?

    Когда PostgreSQL только появлялся, значения идентификатора транзакции были выбраны 32х-битными. В то время это казалось запредельным числом - кто в здравом уме будет проводить 4 миллиарда транзакций? Но развитие техники привело к тому, что появились инстансы, где транзакции подбирались к этому пределу. Сообщество разработчиков ответило на это возможностью "оборота" счетчика транзакций (известный как wraparound). Но технический прогресс и рост количества данных поставили PostgreSQL перед новыми вызовами. В докладе я попытаюсь рассказать об этих вызовах, о том, как их можно преодолеть с помощью повышения разрядности счетчика, к каким следствиям это приведет и почему это надо делать сейчас, и почему это не было сделано раньше.

  • Андрей Зубков
    Андрей Зубков Postgres Professional Руководитель группы систем мониторинга
    45 мин

    Развитие модуля анализа исторической нагрузки pg_profile/pgpro_pwr

    Расширение pg_profile предназначено для анализа исторической нагрузки в базах данных Postgres. Его главной особенностью является экстремальная простота установки и использования - оно не требует для работы ничего кроме самой СУБД и любого планировщика заданий. Расскажу о новых возможностях расширения pg_profile и о новых статистиках, доступных в Postgres 14. У pg_profile есть расширенная версия, доступная в базах данных PostgresPro, главным образом, она отличается поддержкой расширения pgpro_stats. Расскажу какие дополнительные возможности это дает. Кроме того, обсудим некоторые существующие проблемы и перспективы дальнейшего развития Postgres в части мониторинга потребления ресурсов.

  • Руслан Усманов
    Руслан Усманов Федеральное казначейство Заместитель начальника управления
    45 мин

    ПУР КС - подсистема “Электронного бюджета” Федерального казначейства РФ, реализованная на полностью импортозамещённом ПО

    Создание полностью импортозамещенной компоненты государственной информационной системы на примере ПУР КС - подсистемы "Электронного бюджета", ключевой государственной интегрированной информационной системе управления общественными финансами. В презентации представлена архитектура подсистемы, история оптимизации производительности и описание мониторинга. Докладчик расскажет о плюсах и сложностях использования импортозамещённой системы для госсектора, а также о нюансах, которые стоит учесть ведомствам при внедрении open source решений и решений российских разработчиков.

  • Иван Муратов
    Иван Муратов ООО "Первая Мониторинговая Компания" Технический директор
    45 мин

    TimescaleDB 2.0 - Time-series данные в распределенном кластере TimescaleDB поверх ОРСУБД PostgreSQL.

    Расширение TimescaleDB позволяет превратить старый добрый Postgres в настоящий распределенный кластер для хранения time series данных с сохранением реляционной модели, удобного SQL и проверенной временем экосистемы. А дополнительные возможности такие, как непрерывные материализованные представления и компрессия данных, позволяют строить поистине мощные телематические хабы.