Введение
Если вы хотите сразу приступить к работе, ознакомьтесь с разделом Быстрый старт.
Обзор
Tantor PipelineDB создан для непрерывного выполнения SQL-запросов на потоковых данных. Результаты этих непрерывных запросов хранятся в обычных таблицах, которые можно запросить как и любую другую таблицу или представление. Таким образом, непрерывные запросы можно рассматривать как очень производительные, инкрементально обновляемые материализованные представления. Как и любая система обработки данных, Tantor PipelineDB эффективен для работы с определенными нагрузками и не подходит для других.
Подробнее о примерах использования Tantor PipelineDB смотрите в разделах Клиенты и Быстрый старт.
Для чего нужен Tantor PipelineDB
Tantor PipelineDB создан для выполнения SQL-запросов, которые уменьшают количество элементов в потоковых наборах данных. Например:
Обобщения и агрегации.
Выполнение вычислений в скользящих временных окнах.
Фильтрация текстового поиска.
Геопространственная фильтрация и т. д.
Уменьшив количество элементов, Tantor PipelineDB может значительно сократить объем информации, которую необходимо сохранять на диске, потому что хранится только результат непрерывных запросов. А сырые данные отбрасываются после их прочтения соответствующими постоянными запросами.
Большая часть данных, которые проходят через Tantor PipelineDB, можно рассматривать как виртуальные данные. Эта идея виртуализации данных лежит в основе Tantor PipelineDB, и именно это позволяет ему очень эффективно обрабатывать большие объемы данных, используя относительно небольшое аппаратное обеспечение.
Tantor PipelineDB предназначен для исключения этапа ETL (извлечение, преобразование и загрузка данных) для большинства обычных конвейеров данных.
Сырые данные можно напрямую передать в Tantor PipelineDB, где они непрерывно уточняются и очищаются в реальном времени с помощью непрерывных запросов, которые вы объявили. При этом периодическая обработка мелких данных перед загрузкой их уточненного вывода в базу данных становится излишней — при условии, что эта обработка, может быть определена с помощью SQL-запросов.
Tantor PipelineDB полностью поддерживает нативный синтаксис PostgreSQL 15+ и полностью совместим со всеми библиотеками для этих версий.
Чего Tantor PipelineDB не умеет
Учитывая, что непрерывные запросы должны быть известны заранее, Tantor PipelineDB не является своего рода хранилищем данных. В том время как вывод непрерывных запросов можно использовать произвольно, сырые данные, которые когда-либо проходили через Tantor PipelineDB так использовать нельзя, потому что точки данных удаляются после их прочтения. Кроме того, если требуются потоковые вычисления, которые нельзя написать на SQL, то Tantor PipelineDB для этого не подойдет.