Liberando dados com um comando

Dada a imensa quantidade de informação disponível na Web de forma distribuída e não padronizada, é comum a necessidade de capturar e converter/normalizar esses dados antes de começar o trabalho desejado em cima deles: análise e visualização. As etapas de captura e normalização tiram o foco do projeto de análise e visualização e podem ser bastante trabalhosas.

Nesta palestra será apresentado o software rows, que foi desenvolvido por Álvaro Justen com o intuito de automatizar os processos de identificação de formatos e conversão de dados. rows possui uma interface linha de comando onde podemos capturar, converter e filtrar dados em diversos formatos (HTML, CSV, XLS, XLSX, ODS, SQLite, Parquet, dentre outros) de forma muito fácil e direta; além disso, está disponível também como uma biblioteca Python, que pode ser usada de maneira personalizada em diversos programas.

O pacote rows é software livre (GPLv3) e está disponível nos repositórios oficiais do Debian e Fedora, além do Python Package Index e pode ser usado para liberar dados públicos que estão presos em formatos nada amigáveis a análise de dados, como HTML, XLS, XLSX etc. Durante a palestra mão-na-massa serão demonstrados diversos exemplos de como liberar dados usando um simples sub-comando do rows.