NOTÍCIAS
26/06/2015 16:42 -03 | Atualizado 26/01/2017 22:34 -02

Plataforma brasileira de dados dá vida aos números e pretende tornar os relatórios tradicionais "obsoletos"

MediaLab

Governos em todo o mundo divulgaram mais de um milhão de conjuntos de dados abertos na última década. Essa informação ajudou a estimular a criação de empregos e a realização de algumas mudanças na sociedade, incluindo o aumento da responsabilidade governamental e proteção ao consumidor, mais transparência nos custos com o sistema de saúde e mais resiliência contra as mudanças climáticas.

A análise desses dados, se feita da maneira correta, pode ajudar os políticos a tomarem melhores decisões, mas eles estão apenas começando a explorar esse potencial.

Um projeto do Media Lab do MIT mostra o que é possível ser feito. Em 2013, a Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), contratou César Hidalgo, o diretor do grupo Macro Connections do laboratório, para produzir um relatório sobre onde a indústria se desenvolveria. Hidalgo decidiu produzir mais do que apenas um documento desinteressante e estático e criou algo que acreditava ser mais útil e dinâmico.

Sua equipe do Media Lab lançou a ferramenta DataViva, que permite aos usuários visualizarem mais de 500 gigabytes de dados do governo brasileiro de 1 bilhão de formas diferentes. O público pode usar a plataforma para cruzar múltiplos conjuntos de dados econômicos, demográficos, comerciais e educacionais, de maneira rápida e fácil. A ideia por trás do DataViva, explica Hidalgo, "é tornar os relatórios obsoletos".

Agora a equipe está relançando o DataViva com informações de todo o Brasil, tornando-se, de acordo com Hidalgo, a maior plataforma de visualização de dados online.

Nos dois anos desde o lançamento do DataViva, a equipe do MIT reuniu uma impressionante quantidade de informações - dados das importações e exportações de mais de 5.000 municípios, dados de 50 milhões de trabalhadores no mercado formal brasileiro, dados referentes a matrículas e graduações dos sistemas de ensino básico e superior e dados sobre impostos dos últimos cinco anos - e as padronizou, estruturou e adicionou ao seu sistema.

Hidalgo diz esperar que a plataforma facilite a rápida e bem fundamentada tomada de decisões por parte de burocracias no Brasil. Líderes municipais e estaduais podem utilizar o DataViva para buscar dados de qualquer município do país e visualizá-los de diversas formas. Por exemplo, os bancos podem decidir se concederão um empréstimo a um futuro pequeno negócio observando os dados econômicos e decidindo se o negócio seria adequado para uma área específica.

DataViva 2.0 Launch Video from DataViva on Vimeo.

Vídeo de lançamento DataViva 2.0, do DataViva, no Vimeo.

O DataViva usa um código aberto e está disponível no site GitHub, de compartilhamento de código. Todos os dados governamentais utilizados estão disponíveis na forma de arquivos que podem ser baixados. Hidalgo e seus parceiros de negócios estão agora analisando se outros países, estados e cidades podem achar útil essa ferramenta de visualização de dados.

"Há conhecimento incorporado na rede de localidades", disse Hidalgo. "O perfil industrial não é relevante apenas para o crescimento da receita, mas também para a desigualdade".

Em maio, Hidalgo me mostrou, no Media Lab, como o DataViva funciona e em seguida respondeu algumas perguntas sobre ele por e-mail. Suas respostas, editadas e condensadas para maior clareza são mostradas a seguir:

Qual a diferença entre o DataViva e outros sites de dados governamentais?

Nós não apenas tornamos os dados acessíveis por meio de visualizações bem projetadas, mas também organizamos os dados em perfis cuidadosamente administrados para cada localidade, indústria, ocupação, universidade, etc. Esses perfis auxiliam na otimização da ferramenta de busca e também facilitam a descoberta de visualizações. Além disso, temos um gerador de visualizações avançadas que pode ser utilizado para criar onze tipos diferentes de gráficos.

O DataViva está sendo desenvolvido há três anos. Construímos a plataforma e as tecnologias necessárias para criá-lo. Até onde sei, nenhuma outra iniciativa de divulgação de dados públicos é comparável à qualidade e à funcionalidade da plataforma de visualização do DataViva. Adoraria que suas ideias e código base pudessem servir de exemplo para futuras reformulações de portais de dados abertos.

O que de mais importante ele faz, mas que não será percebido de imediato pelo público em geral?

A maioria dos usuários da ferramenta não tem ideia das rotinas de manipulação de dados desenvolvidas para assimilar, indexar e finalmente tornar os dados acessíveis em uma velocidade compatível com o ritmo da internet. Isso significa retornar consultas de dados em menos de um segundo.

A visão de longo prazo do site também pode não ser evidente na primeira visita. O DataViva, assim como o Observatório da Complexidade Econômica ou o Pantheon, é semelhante às enciclopédias, no sentido de que ninguém nunca as leria da primeira à última página, mas sua utilidade como recurso aparece com o tempo. Jornalistas buscando citar números brutos sobre a economia, tomadores de decisão buscando validar políticas com tendências de dados, ou até mesmo cidadãos curiosos querendo saber sobre seu município ou a distribuição dos salários pagos a pessoas com a mesma ocupação, podem consultar a ferramenta de forma muito estruturada e lógica.

Isso devido às muitas iterações realizadas na [interface de usuário] e na [experiência do usuário] do site.

Vemos o DataViva como parte de uma segunda onda de sites de dados abertos, em que dados não são apenas "disponibilizados" na forma de arquivos de textos massivos, mas também visualizados de maneira interessante e convincente.

Que funcionalidade importante não estava disponível antes do lançamento?

Antes de ser feita a limpeza dos dados e de se tornarem acessíveis pelo DataViva, era difícil fazer comparações no tempo (longitudinalmente) e entre entidades (geografias, indústrias, ocupações, universidades, etc.) (latitudinalmente). Ao usar a visualização "compare", por exemplo, os usuários podem imediatamente ver quais indústrias e ocupações estão recebendo os melhores salários em uma localidade em comparação a outra. Isso é algo que se feito anteriormente levaria horas e demandaria muito conhecimento técnico.

Outro conceito utilizado pela interface de usuário do site é a rede de perfis. Assim como no Netflix, a página inicial do DataViva mostra uma série de listas pré-populadas com links para "os municípios mais ricos" ou "ocupações com maiores salários", deixando o usuário a um clique do conteúdo. A partir desses perfis, mais estatísticas rápidas são mostradas na barra lateral esquerda com perguntas de seguimento na forma de links para perfis subsequentes.

Por exemplo, se um usuário, na página de perfil, clica em Magistrados (uma das ocupações com maiores salários no Brasil), ele vê um link para a página de perfil da indústria "Justiça", na qual ele vê um link para a página de perfil dos "Serventuários da Justiça" (a ocupação com o maior número de empregados na indústria judiciária). Então, você começa a ver como essa rede de perfis relacionados é construída.

Para aqueles voltados para a parte técnica, como a D3plus, a biblioteca de visualização de dados que vocês desenvolveram, será relevante para outras organizações?

A utilidade da D3plus se tornou visível no dia que precisamos duplicar uma das funcionalidades do primeiro site que fizemos, O Observatório da Complexidade Econômica.

A biblioteca começou como uma forma de evitarmos duplicar nossos esforços e abstrairmos algumas das funcionalidades centrais da tarefa geral de criar visualizações interativas para a web, com qualquer conjunto de dados. Ter o código no Github permite que o projeto faça parte da comunidade de código aberto, algo do qual nos beneficiamos imensamente. É uma forma de retribuição.

A D3 [biblioteca Javascript de código aberto desenvolvida em 2011] é uma biblioteca fantástica. Uma das razões é que ela dá ao usuário controle total sobre qualquer aspecto relacionado a como lidar com seus dados no contexto de um site. Mas devido a essa quantidade de controle que é oferecida, podem ser necessárias centenas de linhas de código para escrever um diagrama totalmente interativo, algo que não queríamos ter que fazer em cada site que criássemos.

Assim, estamos realizando gradualmente a tarefa de fazer da D3plus uma biblioteca de visualização que permite que os usuários tragam seus dados, escrevam um código de configuração básico e gerem uma visualização interativa muito poderosa para a web. Esse conceito é extremamente poderoso quando se considera a fase de concepção inicial de se trabalhar com dados e tentar criar um protótipo final do produto.

Tradução: Simone Palma

Este artigo foi originalmente publicado pelo HuffPost US e traduzido do inglês.

LEIA MAIS:

- Aldo Rebelo, ministro da Ciência e Tecnologia?

- 'Tecnologia' na sala de aula não quer dizer nada

- Participação social e o combate à corrupção no Brasil