Você sabe o que é Big Data? Uma breve introdução à um tema de relevância cada dia maior para o futuro das ciências e do processamento de dados.
Escrito por Amanda Navarro*
A importância dos dados para planejamento de políticas públicas de saúde é inquestionável. A partir do levantamento de dados epidemiológicos, é possível planejar e implementar adequadamente estratégias e programas de saúde, partindo da debilidade identificada a partir dos estudos. No campo da saúde privada, é possível partir da mesma premissa: os dados epidemiológicos podem mostrar onde se perde ou onde se ganha dinheiro, as melhores formas de realocar e buscar excelência no serviço vendido. Não é apenas na saúde que os dados importam. Para planejamento político e econômico, são ferramentas fundamentais, como se comprovam todos os dias.
Atualmente temos no Brasil uma vasta gama de dados coletados e explorados, entretanto há uma demanda grande reprimida por profissionais da área da computação. A avaliação desta situação foi feita pela Assembleia Legislativa de São Paulo (Alesp), por pesquisadores que participaram do ciclo de palestras promovidos pela Fapesp, com o tema: Big Data e Machine Learning. André Carlos Ponce de Leon Ferreira de Carvalho, professor do Departamento de Ciências de Computação, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo (ICMC-USP), comparou em sua palestra o big data com o valor do ouro.
“Em toda a história da humanidade foram extraídas 190 mil toneladas de ouro, o que dá US$ 7,6 trilhões. Juntas, as oito principais empresas que trabalham com dados no mundo hoje – Facebook, Amazon, Apple, Microsoft, Google, Baidu, Alibaba e Tencent – valiam cerca de US$ 5 trilhões em 2018, ou seja, dois terços de tudo o que foi gerado em ouro”, disse Carvalho conforme noticiado pela Agência Fapesp.
Pode parecer absurdo, porém as informações de André Carlos Ponce convergem com os dados apresentados no livro The Big Nine, lançado em março deste ano pela professora da Universidade de Nova York, nos EUA, Amy Weeb. Segundo professor da USP, em 2019, o Big Data terá um faturamento de US$ 190 bilhões, enquanto o ouro, tem uma previsão de extração de toneladas no ano, algo em torno de US$ 120 bilhões. É a partir desta discussão, que André Carlos Ponce coloca a importância que o big data e as técnicas de machine learning podem trazer para a economia e a geração de empregos. De acordo com a professora da Unicamp, Claudia Bauzer Medeiros, outra especialista nesta área em expansão, é preciso investir na qualidade dos dados para que essas oportunidades de emprego e avanço econômico se tornem realidade.
“O que mostram estudos no mundo inteiro? O big data é acima de tudo data e depois big. Se não houver muitos dados, não dá para fazer as análises necessárias. Por outro lado, se não houver qualidade nos dados, eles não servem para nada. E sabe-se que 80% do custo de pessoal e de infraestrutura está no pré-processamento que garante a qualidade necessária”, disse Bauzer Medeiros.
Ou seja, com informações coletadas com qualidade, obtidas através de sensores, o big data coloca como desafio a combinação de dados de diferentes ordens, como históricos, mapas, notícias de jornal e até tweets, para conseguir ir além do que os dados podem ir hoje por si mesmos: o big data pode prever, monitorar, gerar políticas públicas ou identificar produtos de interesse dos consumidores.
“O big data está em toda parte. Em geral, corresponde a um conjunto de propriedades que começam com ‘v’: volume, velocidade e variedade [big], veracidade, visualização e valor [data]. Porém, é preciso que se invista – e muito – em qualidade para que os dados tenham valor”, disse Bauzer Medeiros.
Entretanto, segundo a pesquisadora os dados tem valor e requer um custo, exigindo boa infraestrutura e processamento. “Quanto mais se preservar para usos futuros, mais se consegue extrair valor dos dados. Cerca de 30% do orçamento da agência espacial norte-americana (Nasa) é dedicado à preservação e backup de dados”, disse Bauzer Medeiros. Assim, órgãos de pesquisa reconhecidos no Brasil estão procurando formas de se ajustar à esta nova era das informações: há dois anos, a Fapesp passou a exigir de todo projeto maior de pesquisa um plano que descreva como os dados serão produzidos, armazenados e preservados.
Além disso, o big data não se relaciona apenas à dados numéricos: uma particularidade dele é a imagem. Através do Machine Learning, é possível fazer análises de dados a partir das imagens. “Em captura de imagem estamos bem, mas ainda é preciso melhorar a análise dessas imagens por meio do machine learning. A ideia é usar o computador para extrair qualquer tipo de informação útil e relevante a partir dos dados”, explicou Nina Hirata, pesquisadora do Instituto de Matemática e Estatística (IME) da USP.
Em relação ao mercado de trabalho, o Big Data pode ser um novo campo amplo e muito relevante, principalmente por não se tratar de uma única área, e sim ser aplicável em todas as áreas de conhecimento. Os cientistas de dados tornam-se cada vez mais buscados, segundo Jorge Gripp, sócio da startup Autaza, só em São Paulo nota-se uma necessidade de cerca de 150 profissionais da área.
Saúde: medicina de precisão será o futuro para a saúde?
Com o avanço dos estudos, em especial multicêntricos, quantidade imensas de informações ficam disponíveis e acabam criando uma necessidade iminente de aprofundar e melhorar a qualidade das análises. O big data na saúde dá seus primeiros passos, se mostrando forte em três grandes áreas de imensa importância: a medicina de precisão, os prontuários eletrônicos do paciente e a internet das coisas.
Atualmente, os estudos são baseados, a despeito da grande quantidade de dados utilizados, em resultados comparados através de médias. Através de análises estatísticas que comparam médias, chega-se à resultados que ainda são incapazes de produzir ferramentas mais finas para o desenvolvimento das ações práticas. Um estudo de Alexandre Dias Porto Chiavegatto Filho, da Faculdade de Saúde Pública da USP, exemplifica o caso utilizando um estudo de metanálise verificou que o uso de novos anticoagulantes orais diminui o risco de acidentes vasculares cerebrais (AVC) e eventos embólicos sistêmicos em 19%. Entretanto, este dado por si só não consegue responder uma pergunta: quantos são os indivíduos que não tiveram nenhum desses evento ou que tiveram um desses eventos?
Assim, a partir deste estudo sabe-se que os anticoagulantes são capazes de reduzir os eventos na população como um todo, entretanto, mesmo neste estudo nota-se uma boa parte da população que não respondeu ao medicamento. O big data pode ajudar a avançar justamente neste ponto crítico da epidemiologia hoje, proporcionando terapias mais específicas e direcionadas para cada paciente. Entretanto, assim como já descreveu Bauzer Medeiros, é necessário aumentar a base de dados, e não só em quantidade, mas também em qualidade. Para isso, é preciso uma política de incentivo à estudos multicêntricos, com metodologia idêntica, garantindo qualidade e confiança dos dados, estimulando grandes bancos de dados. Além disso, o prontuário eletrônico e único , segundo o estudo feito por Chiavegatto Filho, é um importante passo para que o big data possa se tornar uma realidade no Brasil.
Leia também a entrevista de Alexandre Dias Porto Chiavegatto Filho para o jornal O globo sobre dados, saúde e tecnologia. Clique aqui!
*Mestranda em Saúde Pública pela FSP-USP e parte da equipe científica da revista Newslab
Informações:
¹ http://agencia.fapesp.br/big-data-pode-gerar-beneficios-politicos-sociais-e-economicos/30333/
² https://www.scielosp.org/scielo.php?script=sci_arttext&pid=S2237-96222015000200325