Data Engineering від А до Я

EXPLORE

Society & Culture

Health & Fitness

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/6f/70/3c/6f703c08-b91c-ccea-74aa-a5702ed3d4d5/mza_16581544847773492686.jpg/600x600bb.jpg

Data Engineering від А до Я

Data Enthusiast FM

26 episodes

5 days ago

Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію? Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.

Show more...

All content for Data Engineering від А до Я is the property of Data Enthusiast FM and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію? Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.

Show more...

Episodes (20/26)

Data Engineering від А до Я

Data Engineering Testing: від unit-тестів до інтеграції з dbt

У цьому випуску ми говоримо про тестування в дата-інжинірингу. Які види тестів варто застосовувати — від unit- і інтеграційних до end-to-end і контрактних. Розбираємо, що саме тестують у світі даних: схеми баз, трансформації, пайплайни, бізнес-правила та якість результатів. Окремо зупиняємось на ролі dbt у тестуванні: вбудовані тести, кастомні перевірки й те, як dbt допомагає зробити контроль якості даних частиною щоденного робочого процесу. Це практичний огляд для інженерів даних, які хочуть будувати більш надійні пайплайни.

1 month ago

18 minutes 1 second

Data Engineering від А до Я

Avro та Protobuf у Data Engineering: схеми для якісних даних

Щоб дані залишались узгодженими і зрозумілими, інженери даних використовують спеціальні формати опису схем. У цьому випуску ми розглянемо два найпопулярніших варіанти — Apache Avro та Google Protobuf. Ми пояснимо, як вони працюють, чим відрізняються, які переваги та обмеження мають. Ви дізнаєтесь, чому Avro зручний для schema evolution, а Protobuf — для високошвидкісних систем, і як обрати правильний інструмент для своїх data pipelines.

Також не забувайте підписуватись на каналта писати коменти під відео :)

1 month ago

20 minutes 20 seconds

Data Engineering від А до Я

Якість даних для Data Engineering: що міряти і як тримати SLA

Пояснюємо, що таке Data Quality (якість даних) і як її вимірювати без «води». Розберемо «погані дані» та бізнес-виміри (Descriptive, User-driven), технічні метрики (Availability, Freshness, Uniqueness, Completeness, Schema validity + Consistency), і як оформити це у scorecard з чіткими SLA/SLI/SLO. Покажемо, як вшити тести якості у пайплайни/DAG (дедуп, non-NULL, обсяги, аномалії), налаштувати алерти й observability (метрики, логи, lineage) та використовувати data contracts для стабільних схем. Завершимо практикою: старт з 3 ключових датасетів і 3–5 базових тестів. Підписуйтесь — випуск максимально практичний.

2 months ago

12 minutes 15 seconds

Data Engineering від А до Я

Data Orchestration: від cron до DAG — глибше за Airflow

Ми вже говорили про Airflow як приклад оркестратора. У цьому епізоді йдемо ширше й глибше: пояснюємо, що таке data orchestration, навіщо вона потрібна та як виглядає зріла оркестрація поза межами одного інструмента. Розберемо історичні болі cron (залежності, продуктивність, «клейовий» код, data silos), три основні кроки collection → unification → activation, типи платформ (інженерні Airflow/Dagster, модельні dbt, low/no-code), роль DAG (upstream/downstream, без циклів, паралельність). Поговоримо про тригери (time/event/manual), SLA, алерти, retries, idempotency, чеки якості, а також observability (метрики, логи, lineage), вартість і RBAC. Наприкінці — як почати перехід від cron до керованих DAG і вибрати стек під вашу команду.

2 months ago

7 minutes 52 seconds

Data Engineering від А до Я

SQL: Query, DDL vs DML та життєвий цикл запиту (Query Life Cycle)

У цьому епізоді просто й по суті: пояснюємо, що таке query (запит) у СУБД, чітко розводимо DDL vs DML(структура проти даних) і проходимо Query Life Cycle від парсера та оптимізатора до виконання плану зі стадіями wait → read → compute → write. Розберемо ключові команди без коду:
— DDL: CREATE, ALTER, DROP, TRUNCATE, RENAME, INDEX;
— DML: SELECT, INSERT, UPDATE, DELETE, MERGE.
Пояснимо, як думати про партиціювання (PARTITION BY), кластеризацію (CLUSTER BY) і фільтри до JOIN, щоб запити працювали швидше й дешевше.

Підписуйтесь, буде практично й без «води».

2 months ago

6 minutes 12 seconds

Data Engineering від А до Я

Steps of Dimensional Modeling: 4 кроки на прикладі оренди e-самокатів

У 21-му випуску ми покроково проведемо вас крізь процес Dimensional Modeling за методологією Кімбалла. На прикладі компанії з оренди електросамокатів ви дізнаєтеся:

Select the business process – чому grain = одна завершена поїздка.
Declare the grain – як вибір атомарного рівня деталізації дає гнучкість у запитах.
Identify the dimensions – створюємо таблиці Rider (SCD1), City (SCD2) і Vehicle + mini-dimension (SCD4).
Identify the facts – які метрики (duration, distance, price, pauses, rating) варто зберігати в fact table.

Наприкінці епізоду словесно опишемо, як у BigQuery побудувати датасет, налаштувати партиціювання за датою та кластеризацію за ключами вимірювань для максимальної продуктивності ваших аналітичних запитів.

Підпишіться, щоб не пропустити детальні гайди з практичною реалізацією!

3 months ago

6 minutes 33 seconds

Data Engineering від А до Я

Dimensional Modeling: OLTP vs OLAP, освоюємо Kimball’s Star Schema (Зіркова схема Кімбела) та Slowly Changing Dimension (SCD, повільно змінювана розмірність)

У цьому випуску ми просто й зрозуміло розкажемо:

OLTP vs OLAP: навіщо потрібні окремі оперативні й аналітичні бази даних.
Star Schema by Kimball: як факти (fact table) у центрі та виміри (dimension tables) навколо допомагають робити запити швидко й зрозуміло.
Snowflake Schema: коли варто нормалізувати виміри, щоб зекономити місце.
Slowly Changing Dimension (SCD): п’ять способів (Type 0–4) зберегти історію змін атрибутів.

Після цього епізоду ви знатимете, як правильно спроєктувати модель даних для свого data warehouse. Підпишіться, щоб не пропустити інші корисні випуски!

3 months ago

10 minutes 32 seconds

Data Engineering від А до Я

Вступ до Data Modeling: Як перетворити бізнес-вимоги на таблиці

У цьому випуску — introduction to data modeling для data engineers. Розбираємо три рівні моделювання: conceptual, logical та physical. Пояснюємо, що таке granularity, normalization, primary keys, foreign keys та як усе це допомагає побудувати зрозумілу, масштабовану аналітичну систему.

📦 На прикладі продуктової мережі моделюємо процес продажів: від бізнес-процесу до BigQuery-таблиць.

Це — основи, без яких неможливо побудувати якісний data warehouse чи data product.

👉 У наступному випуску поговоримо про Kimball’s Dimensional Modeling

Підпишись, щоб не пропустити продовження!

3 months ago

8 minutes 15 seconds

Data Engineering від А до Я

Ingest with Python — pandas та PySpark у data pipelines

Цей випуск завершує серію про ingestion-методи. Говоримо про два популярних інструменти з Python-екосистеми — pandas та PySpark.
Коли варто використовувати кожен? Як зчитувати, обробляти і завантажувати дані з CSV, BigQuery або DataFrame-структури? Чим відрізняються RDD, DataFrame і Dataset у Spark?

Щоб не пропустити нові епізоди — підпишіться на подкаст ✨

3 months ago

6 minutes 58 seconds

Data Engineering від А до Я

Real-Time Ingestion без магії — CDC та Streaming Explained (Kafka)

Real-time ingestion — це вже не розкіш, а норма. У цьому випуску розбираємо, як працює CDC (Change Data Capture), чим він відрізняється від Kafka, і які існують варіанти стримінгових платформ для обробки подій у реальному часі.

3 months ago

6 minutes 31 seconds

Data Engineering від А до Я

SFTP vs API vs Object Storage: Битва ingestion-методів

У цьому випуску — глибоке занурення у три архітектурно різні способи інжесту: від старої школи (SFTP) до REST API та сучасних data lake-підходів через object storage. Пояснюю на прикладах, коли обрати який.

3 months ago

7 minutes 29 seconds

Data Engineering від А до Я

Push чи Pull: як обрати правильну стратегію для data ingestion

Push чи Pull? Розбираємось, як саме дані потрапляють у систему: хто ініціює передачу, як це впливає на швидкість, надійність і масштабування. Порівнюємо обидва підходи з реальними прикладами.

3 months ago

7 minutes 55 seconds

Data Engineering від А до Я

Stream Ingestion — нова ера Data Ingestion

Stream ingestion — новий підхід до data ingestion у реальному часі. У цьому епізоді: різниця з batch, delivery semantics, обробка помилок і практичний приклад з Pub/Sub → BigQuery. Мінімум теорії, максимум користі.

4 months ago

6 minutes 59 seconds

Data Engineering від А до Я

Data Ingestion по-старому: батч, snapshot і BigQuery

Batch ingestion — це класика data ingestion. Пояснюємо, як працює завантаження даних пачками: по часу чи обсягу, snapshot чи інкрементально. І показуємо практичний приклад з BigQuery та біткоїном.

4 months ago

8 minutes 27 seconds

Data Engineering від А до Я

Принципи хорошої Cloud Data Architecture

Побудувати щось у хмарі може кожен. Побудувати так, щоб воно було надійне, гнучке, дешеве і безпечне — вже інше питання. У цьому випуску говоримо про 5 ключових принципів Cloud Data Architecture, які справді працюють.

5 months ago

6 minutes 34 seconds

Data Engineering від А до Я

Весь ІТ у трьох літерах: розбираємо IaaS, PaaS, SaaS

IaaS, PaaS і SaaS — не просто модні слова. Це різні способи використовувати хмару. Розбираємось, що вони значать, які є приклади, і як зрозуміти, що підійде саме тобі.

5 months ago

6 minutes 28 seconds

Data Engineering від А до Я

Cloud Data Architecture простими словами

Після оркестраторів переходимо до великої картини: як виглядає сучасна хмарна архітектура для даних. Пояснюємо, що таке Lambda, Kappa та Medallion — простими словами, з прикладами з життя. Якщо хочеш зрозуміти, як великі компанії будують data-системи — це твоя відправна точка.

5 months ago

8 minutes 2 seconds

Data Engineering від А до Я

Prefect, Dagster, Mage: чим вони кращі (або простіші) за Airflow?

Airflow — це круто, але іноді занадто важко. У цьому випуску розбираємо, які ще інструменти керують пайплайнами: що обрати, якщо ти тільки починаєш, чим різняться стилі, і де Mage кращий за Airflow. Просто, по суті й з прикладами.

5 months ago

5 minutes 49 seconds

Data Engineering від А до Я

Airflow не магія. Це просто — якщо знаєш, що таке DAG

Airflow звучить як щось складне? Насправді все простіше, ніж здається. У цьому випуску пояснюємо, що таке DAG, чому саме на ньому тримається оркестрація, і як Airflow допомагає не втратити контроль, коли пайплайнів стає більше. Без термінів, але з прикладами.

5 months ago

5 minutes 26 seconds

Data Engineering від А до Я

Пайплайни не слухаються? Ось як навести порядок у світі даних

Усе летить, дашборди не оновлюються, пайплайни запускаються коли заманеться — знайомо? У цьому випуску розбираємося, що таке оркестрація даних і чому без неї навіть найкращий pipeline перетворюється на головний біль.

5 months ago

5 minutes 13 seconds