Обязанности:
Анализ требований к витринам данных (взаимодействие с Data Analysts, Data Scientists);
Поиск и исследование источников данных для последующей интеграции с Data Lake;
Разработка ETL/ELT процессов на PySpark;
Разработка оркестрации ETL процессов в Airflow;
Развитие инструментов контроля и поддержки качества данных (Data Quality);
Проектирование структуры хранилищ данных (DWH, Data Lake);
Требования:
SQL для сложных и производительных запросов (CTE, оконные функции);
Python для разработки ETL/ELT pipeline;
Опыт работы c СУБД: MS SQL, ClickHouse, PostgreSQL;
Опыт работы со стеком Big Data: HiveQL Hadoop, Apache AirFlow, Apache Spark, Apache Flink, Airbyte;
Понимание концепции Data Vault хранилищ данных (DWH, Data Lake);
Опыт написания сервисов взаимодействия с внешними источниками данных;
Понимание построения системных интеграций;
Условия: