Processando Big Data com Apache Spark

  • avatar Flávio Roberto Santos
    Flávio é doutor em Sistemas Distribuídos pela UFRGS. Trabalhou em um mecanismo de combate a ataques massivos em sistemas de distribuição de conteúdo, parcialmente desenvolvido enquanto pesquisador visitante na Universidade de Zurique, na Suíça. Atualmente é um dos responsáveis pelo time de Analytics na Chaordic Systems, empresa especializada em servir recomendações no ramo do e-commerce.
Apache Spark vem ganhando força frente ao já consolidado paradigma Map-Reduce implementado pela suite Hadoop. O grande diferencial do Spark é a utilização do modelo In-Memory Computation, que mantem os dados em memória para realizar computação tipicamente iterativas. Esse modelo se mostra bastante eficiente quando multiplas iterações são feitas sobre as mesmas fatias de dados espalhadas pelo cluster.

Um benchmark do time do Spark mostra que é possível alcançar ganhos de até 100 vezes frente ao Hadoop. Essa palestra abordará o modelo de armazenamento e computação do Spark, técnicas para consulta a dados usando Spark SQL, além de algoritmos para processamento de dados em Streaming. A linguagem utilizada na palestra será Scala, apesar de Python e Java também serem suportados.