Настройка структуры данных сырого слоя

Блок Выбор структуры данных

Блок предназначен для выбора структуры данных (схем, таблиц, колонок), которые необходимо импортировать из всех выбранных источников в один сырой слой.

Примечание

Схема - это логическая структура, которая определяет организацию данных. Она включает описание таблиц, колонок, типов данных, связей между таблицами и других объектов источника.

Таблица - это объект источника, хранящий в себе данные в виде строк и столбцов.

Колонка - это характеристика или свойство, описывающее объект данных. В таблице базы данных колонки представляют собой столбцы, и каждый атрибут содержит конкретную информацию о записи (строке). Например, в таблице «Сотрудники» колонками могут быть «Имя», «Фамилия», «Возраст», «Должность».

Для перехода в блок выбора схем, таблиц и колонок интеграции:

  1. Нажмите Параметры интеграции -> Схемы.

  2. Выберите схему.

  3. Нажмите Таблицы.

    Параметры интеграции, таблицы

    Справа отобразится блок Выберите схемы, таблицы и колонки для интеграции.

    раздел "Выбор схем, колонок, таблиц для интеграции"

    Блок выбора структуры сырых данных для интеграции содержит:

    1. Наименование основного источника.

    2. Дерево для настройки структуры данных сырого слоя (таблицы и колонки основного источника).

Панель управления

По умолчанию при открытии блока отображаются все таблицы основного источника.

Совет

  1. Для того, чтобы раскрыть структуру источника, нажмите кнопку arrowR.

  2. Для того, чтобы закрыть структуру источника, нажмите кнопку arrowD.

Дерево структуры данных.

При нажатии на кнопку arrowR отображается дерево структуры данных, которое содержит:

  1. На первом уровне все таблицы основного источника.

  2. На втором уровне колонки основного источника в формате: {имя колонки} ({тип колонки}).

Навигация по списку таблиц

Для перемещения между страницами используйте:

  • > - переход на следующую страницу;

  • >> - переход на 5 страниц вперед;

  • < - переход на предыдущую страницу;

  • << - переход на 5 страниц назад.

Пагинация списка таблиц.

Поиск по таблицам

  1. Введите название таблицы (полностью или частично) в поле поиска.

    Поле поиска.
  2. Нажмите на кнопку search или клавишу Enter.

    Список таблиц обновится согласно результатам поиска.

    Результат поиска.

Совет

Для сброса поиска нажмите search_delete.

Выбор структуры данных

  1. Выберите таблицы и колонки, которые будут импортированы из источника в сырой слой.

    Выбор структуры данных.

    Предупреждение

    • Нельзя выбрать Колонки с неподдерживаемыми типами данных.

      • Колонки с неподдерживаемыми типами данных выделяются серым цветом.

    • Нельзя выбрать Таблицу без Primary Key.

      • Колонки Primary Key выделяются красным цветом.

    Типы атрибутов.

    Примечание

    • При выборе таблицы полностью будут выбраны все колонки данной таблицы, кроме колонок с неподдерживаемыми типами данных.

      Для исключения таблицы из выборки снимите галочку.

      Для исключения колонки из выборки снимите галочку.

    • Предусмотрен частичный выбор данных, в таком случае необходимо вручную выбрать часть таблиц и/или часть колонок требуемой таблицы.

    • Если таблица выбрана частично, при нажатии на чек-бокс выбор таблицы сбросится.

    Отображение чек-бокса:

    Изображение

    Значение

    ChBox1

    Объект не выбран для интеграции

    ChBox2

    Объект частично выбран для интеграции

    ChBox3

    Выбран весь объект для интеграции

Навигация по списку колонок

Для перемещения между страницами используйте:

  • > - переход на следующую страницу;

  • >> - переход на 5 страниц вперед;

  • < - переход на предыдущую страницу;

  • << - переход на 5 страниц назад.

Пагинация списка таблиц.

Блок Replica Identity

Совет

Настройка Replica Identity доступна для источников PostgreSQL.

Предназначен для настройки идентификатора реплики таблиц, выбранных на предыдущем шаге. На основе настроек Replica Identity будут автоматически сформированы SQL-скрипты для настройки источников.

Примечание

Replica Identity - настройка источника, определяющая, какие данные будут использоваться для идентификации строк в таблице при импорте данных из источника. Она служит указателем, позволяющим найти нужную строку для ее обновления или удаления в реплицируемой таблице.

Реплицируемая таблица - таблица источника, изменения в которой отслеживаются и передаются в Tantor DLH.

Доступные настройки Replica Identity

Внимание

Пользователь может выбрать один из трех вариантов настройки:

  • Не переопределять - свойства Replica Identity остаются в текущем виде без изменений.

  • DEFAULT - используется только первичный ключ (PRIMARY KEY). Этот вариант подходит только для таблиц, где определен PRIMARY KEY. Если ключ отсутствует, механизм репликации не сможет однозначно определить строку для операций UPDATE и DELETE.

  • FULL - используется вся строка таблицы для точной идентификации строки.

Примечание

PRIMARY KEY (первичный ключ) - ограничение в базе данных, которое однозначно идентифицирует каждую запись в таблице.

Если в таблице отсутствует PRIMARY KEY, рекомендуется использовать настройку FULL, чтобы избежать ошибок при репликации.

Настройка Replica Identity

Для перехода в блок Настройка Replica Identity:

Выбор структуры данных.
  1. Раскройте структуру модели сырых данных в блоке Параметры интеграции, нажав на кнопку arrowR.

  2. Раскройте структуру одной из ранее выбранных таблиц.

  3. Нажмите кнопку Replica Identity.

    Справа отобразится блок Добавьте параметры Replica Identity.

    Выбор структуры данных.

    Блок настройки Replica Identity содержит:

    1. Наименование таблицы основного источника.

    2. Выпадающий список с настройкой Replica Identity.

    3. Кнопка Сохранить.

  4. Выберите свойство Replica Identity для текущей таблицы.

  5. Нажмите кнопку Сохранить.

Примечание

Для корректной работы Replica Identity необходимо применить сгенерированные SQL настройки на источнике.

Для каждой таблицы, участвующей в интеграции, повторите шаги 2-5.

Блок партиционирование

Предназначен для настройки партиционирования таблиц на сыром слое данных. Данная настройка опциональна.

Примечание

Партиционирование - это процесс разделения таблицы базы данных на партиции для оптимизации хранения и обработки данных.

Партиция - это отдельный логический раздел таблицы базы данных, который хранит часть её данных на основе определённого критерия (например, диапазона дат, значений). Партиции работают как независимые подтаблицы, но вместе они составляют единую таблицу.

Доступные настройки партиционирования

Внимание

В текущей версии поддерживается один вариант настройки партиционирования - партиционирование на основе диапазона дат.

Настройка партиционирования

Для перехода в блок Настройка Партиционирования:

Скрин с настройкой партиционирования.
  1. Раскройте структуру модели сырых данных в блоке Параметры интеграции, нажав на кнопку arrowR.

  2. Раскройте структуру одной из ранее выбранных таблиц.

  3. Нажмите кнопку Партиционирование.

    Справа отобразится блок Добавьте параметры партиционирования.

    Скрин с блоком партиционирования.

    Блок настройки Партиционирования содержит:

    1. Наименование таблицы основного источника.

    2. Выпадающий список с колонками выбранной таблицы.

    3. Интервал для определения диапазона дат партиционирования.

    4. Кнопка Сохранить.

    5. Кнопка Удалить.

  4. Выберите колонку, определяющую временную характеристику, для текущей таблицы.

    Примечание

    В выпадающем списке отобразятся только выбранные в блоке Выбор структуры данных атрибуты.

  5. Задайте интервал партиционирования в днях.

    Кнопка Сохранить станет доступной.

    Внимание

    Минимальное значения для интервала составляет 1 день.

    Формат: <число>d.

    Примеры заполнения:

    • 1d - 1 день;

    • 7d - 7 дней.

  6. Нажмите кнопку Сохранить.

    Скрин с блоком партиционирования.

Для каждой таблицы, в которой настраивается Партиционирование, повторите шаги 2-6.

Совет

Если партиционирование настроено неверно, нажмите кнопку Удалить.