Piloto - Sobre o Apache Spark

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/36/0f/be/360fbe3a-1d71-6f9e-d0e6-06fcfdd8a259/mza_3640219442970096109.jpg/600x600bb.jpg

O. Palma Tech Tales

Orlando Palma Jr

5 episodes

2 days ago

O. Palma Tech Tales: tecnologias, curiosidades e boas histórias se encontram. Compartilhamento de experiências, novidades e dicas sobre IA, cloud, desenvolvimento e tudo que move o mundo tech.

Technology

RSS

All content for O. Palma Tech Tales is the property of Orlando Palma Jr and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

O. Palma Tech Tales: tecnologias, curiosidades e boas histórias se encontram. Compartilhamento de experiências, novidades e dicas sobre IA, cloud, desenvolvimento e tudo que move o mundo tech.

Technology

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/44178446/44178446-1754182178182-b4318701a2032.jpg

Piloto - Sobre o Apache Spark

O. Palma Tech Tales

5 minutes 56 seconds

3 months ago

Piloto - Sobre o Apache Spark

O Apache Spark surgiu para superar as limitações de lentidão do Hadoop MapReduce, introduzindo o processamento em memória em 2009. Isso o torna até 100 vezes mais rápido para tarefas repetitivas, como machine learning e análises interativas. A evolução para DataFrames e Datasets e o Catalyst Optimizer facilitaram o uso e otimizaram a execução, impulsionando sua adoção.Sua principal força é ser uma plataforma unificada, consolidando processamento em lote, streaming, SQL, machine learning (MLlib) e grafos em um único ambiente, o que simplifica arquiteturas complexas. O Spark é usado desde ETL clássico até detecção de fraude em tempo real e treinamento de modelos.Apesar de poderoso, o Spark não é mágico: o gerenciamento de RAM é crucial, a otimização de clusters exige conhecimento e o custo da memória pode ser alto. Seu streaming é "quase em tempo real", não de latência ultrabaixa. Para volumes pequenos de dados, o overhead pode não compensar. No geral, o Spark virou um "canivete suíço" da engenharia de dados, transformando e unificando pipelines complexos, democratizando o processamento distribuído em larga escala.