All content for Data Engineer поневоле is the property of Hodza Nassredin and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Обсуждаем и сравниваем ETL системы на примере Apache NIFI и StreamsetsDataCollector. Далее разбираемся в работе EvenHub-ов.
Продолжаем обсуждение форматов файлов и схем данных.
Рассматриваются: выведение схемы данных, проекция сложных типов данных в колонки, преимущества колоночных форматов, кратко о методах сжатия данных.
Dremel made simple with Parquet
https://blog.twitter.com/engineering/en_us/a/2013/dremel-made-simple-with-parquet.html
Avro specs
https://avro.apache.org/docs/1.8.1/spec.html
Data Engineer поневоле
Обсуждаем и сравниваем ETL системы на примере Apache NIFI и StreamsetsDataCollector. Далее разбираемся в работе EvenHub-ов.