Tableau Prep это ETL инструмент для подготовки, очистки, слияния и загрузки данных в BI систему.

Поставляется в комплекте с Tableau Desktop.

Что может Tableau Prep

Во многих организациях подготовкой данных занимаются отдельные специалисты. Аналитики и бизнес-пользователи могут начать анализ данных только после их подготовки.

Tableau Prep меняет такой подход, предоставляя всей организации возможность быстрее подготавливать данные. Команда получает инструменты, необходимые для объединения, формирования и очистки своих данных, чтобы быстрее находить и принимать лучшие бизнес-решения.

Tableau Prep состоит из двух частей:

  • Tableau Prep Builder — для построения Ваших потока преобразования данных;
  • Tableau Prep Conductor — для совместного использования потоков на сервере и автоматизации управления потоками данных организации.

10 функций Tableau Prep

1. Объединение разрозненных источников данных.

В течение довольно длительного времени одним из сильных сторон Tableau была его способность объединять различные источники данных.

Tableau Desktop позволяет объединять источники, «присоединяясь» или «смешивая». Также Tableau Prep позволяет объединить таблицу Oracle, таблицу SQL Server и рабочую таблицу Microsoft Excel в один источник данных всего за пару кликов.

Хотя некоторую подготовку данных можно выполнить во вкладке Источник данных Tableau Desktop, есть ограничения на то, что можно сделать. Основные различия между новым инструментом Tableau Prep Toolau и данными, полученными с помощью Tableau Desktopare, заключаются в их представлении и в количестве доступных опций.

Одним из таких отличий является возможность подключения к 70 различным источникам данных в Tableau Desktop, а в первом выпуске Tableau Prep вы можете подключиться к 28 источникам данных.

В Tableau Prep вы добавляете ссылки на эти источники. Если соединение представляет собой базу данных, такую как SQL Server, вы указываете схему, таблицы и какие столбцы вы хотите ввести. После того, как вы настроили источники, вы нарисуете линию между ними и добавите объединение.

Эта функциональность аналогична тому, как другие инструменты ETL объединяют.

Следует отметить, что часто проще сказать, чем сделать эти соединения. Если вы не работаете с простыми данными, например, с магазином образцов Tableau’s Sample Superstore, подключение может быть непростым делом.

Часто это связано с различиями в уровне детализации, несоответствием данных и т.д. Но если у вас относительно простой сценарий, присоединение к разрозненным источникам можно осуществить в Tableau Prep.

2. Объединение и присоединение источников данных.

С Tableau Desktop вы можете объединять и присоединять данные.

При присоединении или объединении в Tableau Desktop в нижней части вкладки Data Source (Источник данных) отображается результат.

Но часто вы хотите увидеть, какие данные объединились и какие данные не удалось сопоставить (для заданного условия  объединения).

В Tableau Prep вы получите краткое описание результатов соединения, которое показывает не совпавшие по ключу значения. Эта функция может быть полезна для оценки/отладки условий соединения и проверки данных.

3. Предварительный просмотр результатов в Tableau Desktop.

После каждого шага трансформации данных Вы можете активировать предварительный просмотр результатов в Tableau Desktop.

Эта функций позволяет быстро проверять свои шаги при создании алгоритма трансформации данных.

4. Агрегация данных.

Tableau Desktop предлагает различные способы агрегации, суммирования или подсчета итогов. Например, вы можете создать выборку данных только для отображаемых категорий (измерений) или использовать множества и группы для объединения или итогов типа «Продажи по региону».

Но если вам требуется просто быстро агрегировать данные и сохранить их в источнике данных или экстракте Tableua (TDE — Tabelau Data Extract) то для этого можно использовать Tableau Prep.

Вы добавляете шаг «агрегация» и просто перетащите мышкой группируемые поля в поле агрегации.

5. Групповое присоединение данных по маске.

Часто возникает ситуация, когда Вам необходимо объединить множество однотипных источников данных.

Например, у Вас есть папка, в который лежит сотня файлов отчетов по продажам от различных менеджеров.

В Tableau Desktop вы бы использовали операцию «union» и в ручную добавляли и соединяли все эти файлы.

В Tableau Prep стало проще.

Вы просто указываете путь к папке и маску, для отбора файлов. Все отобранные файлы пройдут объединение. Затем можно слить множество файлов в один файл.

Файл с результатом слияния будет содержать колонку, где указывается путь к исходному файлу.

6. Поворот (pivot) таблиц в базе данных.

В Tableau Desktop вы можете делать пивот данных в Excel или CSV файлах.

Если Вы захотели бы провести реструктуризацию (поворот) данных, хранящихся в базе данных (например, Microsoft SQL или Oracle) вам пришлось бы создать новую таблицу с применением специального sql запроса.

В Tableau Prep поворот таблицы в базе данных стал просто обычной функцией. Одним из шагов в вашем алгоритме трансформации и подготовки данных.

8. Группировка и замена значений.

Типичная ситуация. Название города представлено значениями: «москва», «мск», «moscow», «77». Вы знаете, что все строчки таблицы, которые содержат такие или аналогичные значения представляют одну сущность — город Москва. И Вам требуется объединить строчки с аналогичными по смыслу значениями.

Конечно, можно сгруппировать данные прямо в Tableau Desktop или попробовать внести корректировки на уровне источника данных.

Но с помощью Tableau Prep вы можете создать функцию, которая будет группировать и заменять значения, автоматически, приводя ваши данные в идеальный вид.

9. Профиль данных.

Во время работы в Tableau Prep экран разделен на три области:

  • верхняя область содержит визуальную схему трансформации данных;
  • средняя область отображает «профиль» данных;
  • нижняя область показывает исходные данные в «сыром» виде.

Область «профиль данных» содержит гистограмму распределения значений по колонкам, что помогает легко понять, какие есть данные даже в больших таблицах.

10. Графическое изображение шагов, предпринятых для преобразования данных..

Графическая схема трансформации данных очень наглядная.

Вы ясно видите, какие шаги, в каком порядке и что они делают с данными.

Достаточно кликнуть на любой шаг и вы увидите данные на данном шаге трансформации.

Этот функционал дают более сложные ETL инструменты.

Шаги  в вашей схеме трансформации могут быть расшарены и запущены как поток на сервере. Также их можно сохранить в файл, TDE или превращены в источник данных для других пользователей Вашей организации.

Описание Tableau Prep

  • Формирование полной картины данных
    Три скоординированных представления позволяют просматривать данные на уровне строк и профили каждого столбца, а также весь процесс подготовки данных. Выбирайте, исходя из поставленной задачи, с каким видом взаимодействовать.
  • Немедленный результат
    Если Вам надо отредактировать значение, Вы можете просто его выбрать и сразу редактировать. Измените тип объединения — и сразу увидите результат. Даже если у Вас миллионы строк данных, Вы мгновенно увидите их изменения от каждого Вашего действия. Tableau Prep дает Вам возможность переупорядочивать шаги и экспериментировать без последствий.
  • Разумный подход, чтобы работать быстрее
    Используйте интеллектуальные функции для решения распространенных проблем подготовки данных. Tableau Prep использует механизм нечеткого объединения в кластеры, чтобы превратить повторяющиеся задачи, такие как группировка по фонетическим признакам, в операции, выполняемые одним кликом.
  • Подключение к большему числу источников данных
    Подключайтесь к данным локально или в облаке, будь то база данных или электронная таблица. Получите доступ, объединение и очистка разрозненных данных без написания кода. Tableau Prep интеллектуально передает операции в базу данных, позволяя Вам воспользоваться существующими инвестициями в базу данных и обеспечить быструю производительность обработки потока.

Tableau Prep имеет несколько действительно хороших, экономящих время функций, которые позволят вам получать чистые данные, подходящие для работы с Tableau.

Это будет хорошей альтернативой ручной очистке данных с помощью шагов, которые часто не документируются или повторяются. Для простой задачи преобразования данных Tableau Prep должен делает все, что требуется.

Несмотря на то, что Tableau Data Prep хорошо подходит для создания экстрактов данных Tableau и текстовых файлов, часто бывает лучше создать хранилище данных, которое может быть эффективно использовано с помощью различных аналитических инструментов.

Для этого существуют другие инструменты ETL (извлечение, трансформация и загрузка), которые могут лучше соответствовать вашим потребностям.

Такие инструменты, как Alteryx и Informatica, имеют больше возможностей для вывода данных (например, таблицы баз данных) и больше возможностей в области прогнозирования, статистического анализа, геопространственных манипуляций, картографии и встроенных демографических данных для расширения набора данных.

Скачать Tableau Prep

для Windows

Чтобы скачать Tableau Prep с официального сайта нажмите кнопку ниже.
Вам потребуется указать свой адрес электронной почты.

Скачать Tableau Prep

Продукт Tableau Prep входит в пакет программного обеспечения с лицензией Tableau CREATOR и не лицензируется отдельно.

Tableau Prep устанавливается на рабочий компьютер,
может использоваться как частными исследователями, так и в организациях любого масштаба.

Как Выбрать ETL инструмент

критерии выбора инструмента подготовки данных для Tableau

Когда вы имеете дело с идеально подготовленным набором данных, таким как Tableau’s Sample Superstore, подготовка данных не требуется. Несколько щелчков мыши и вы уже в построили дашборд.

Однако, как мы все знаем, в реальном миру подготовка данных может занять более 80% проекта.

Только наличие целостного и актуального источника данных позволит реализовать BI проект и внедрить в организации бизнес аналитику самообслуживания (self service bi).

В 2018 году компания Tableau выпустила etl инструмент Tableau Prep для подготовки и очистки данных. Это достойный инструмент для простых сценариев работы с «грязными» данными.

Для более сложных ситуаций работы с данными может потребоваться альтернативная платформа для работы с данными. Существует много десятков инструментов для выгрузки, трансформации и загрузки данных (ETL платформы).

Сложно сказать, какой инструмент лучше, так как у каждого своя специфика и уровень удобства работы.

Рассмотрим 5 факторов, которые стоит учесть при выборе etl инструмента и обсудим распространенные etl инструменты, такие как Alteryx, Informica, Microsoft SSIS. 

5 факторов выбора ETL решения для подготовки данных

  1. Требования к источнику данных по вводу / выводу.
  2. Тип операций очистки (подготовки).
  3. Простота использования (наличие хорошей документации).
  4. Аналитические функции (прогностический анализ, усовершенствованная картография, статистические функции и моделирование данных, планирование работы ETL и тестирование данных).
  5. Стоимость покупки и общая стоимость владения ETL инструментом.

Каждый ETL инструмент может подключаться к большому количеству источников данных для выгрузки или загрузки данных.

Чаще всего это табличные файлы Excel, csv, реляционные базы данных типа Microsfto SQL, Mysql или приложения как Google Ads, Google Analytics, Salesforce.

Для каждого проекта необходимо понять, если ли соответствующий коннектор данных в рассматриваемом etl инструменте.

Alteryx, Informatica, Microsoft SSIS являются более сложными продуктами чем Tableau Prep и поэтому требуют большей технической подготовки для аналитика.

Общая схема работы аналогична Tableau Prep, но они предлагают больше функций подготовки и очистки данных.

Informica PowerCenter добавляет функции:
  • тестирования данных;
  • архивирования данных;
  • сложной интеграции данных;
  • управления метаданными.

Alteryx реализует сложные алгоритмы:

  • моделирование данных;
  • сложным анализ геоданных;
  • предикативная аналитика;
  • проверка данных и тпестирование;
  • расширенные статистические функции.

Tableau Desktop и Tableau Prep поставляются с лицензией Tableau Creator без дополнительной оплаты. Если у вас ограниченный бюджет и вам нужно больше возможностей, есть бесплатные инструменты с открытым исходным кодом ETL.

Но имейте в виду, что обучение людей использованию новых инструментов может отнимать много времени и быть дорогостоящим.

Некоторые базы данных, такие как Microsoft SQL Server, поставляются с инструментами, которые можно использовать для подготовки данных.

Microsoft SSIS является популярным инструментом разработки для баз данных Microsoft (т.е. SQL Server) и часто используется разработчиками для ETL. SSIS, используемая совместно с инструментами Tableau, может оказаться всем необходимым, если вы имеете дело с базами данных Microsoft.

Но если вы имеете дело с другими базами данных, такими как Oracle или Amazon Redshift, вам может понадобиться сторонний инструмент, такой как Alteryx и Informatica, который может работать с различными базами данных. Дополнительная функциональность может оправдать более высокие первоначальные расходы. Это особенно актуально, если у вас уже есть собственный опыт работы с конкретным инструментом.

Еще одной отличительной особенностью Alteryx и Informatica является их популярность. Это означает, что вокруг них сконцентрировано большое количество ресурсов (техническая поддержка, форумы пользователей, обучение, библиотеки с пакетированными потоками и т.д.). Использование этих ресурсов может сэкономить драгоценное время разработки, сократив общую стоимость проекта