Topo

CSI nacional? Algoritmo brasileiro quer investigar crimes em redes sociais

Projeto da Unicamp recria eventos com dados encontrados em redes sociais  - iStock
Projeto da Unicamp recria eventos com dados encontrados em redes sociais Imagem: iStock

João Paulo Vicente

Colaboração para o UOL Tecnologia

25/07/2018 04h00

Em julho do ano passado, um grande incêndio devastou o Grenfell, um prédio no norte de Londres, e matou 71 pessoas. O episódio foi documentado à exaustão desde o início do fogo, no começo da madrugada de 14 de junho, até ser extinguido por completo mais de dois dias depois. A imprensa inglesa fez imagens da torre em chamas dos mais variados ângulos, assim como testemunhas registraram o caos com celulares e câmeras de mão. E é claro, tudo isso foi postado na internet em tempo real.

A partir desse material um pesquisador da Unicamp encara um desafio interessante: como ensinar um computador a reconstruir o desastre londrino ocorreu a partir de um volume gigantesco de informações produzido por pessoas que acompanharam o evento. Em resumo, o o projeto quer criar uma ferramenta capaz de juntar um grande número dados postados em redes sociais sobre um evento, reconstruí-lo a partir delas e, por fim, compreender o que aconteceu. É um algoritmo que reconta histórias a partir de textos, imagens e vídeos.

VEJA TAMBÉM

O resultado desse trabalho tornaria mais fácil para peritos entender como o fogo se alastrou, procurar suspeitos e investigar cada uma das mortes. Por si só, já seria um avanço e tanto no campo da inteligência artificial, mas o doutorado de Rafael faz parte de um projeto bem mais amplo, o DéjàVu.

“Nós temos fontes de natureza muito variada, imagens de helicóptero, vídeos do Instagram de baixa qualidade”, conta Rafael Padilha. “E precisamos traçar uma linha temporal com isso. Há muitas características que o computador pode usar como referência, a clareza do dia, por exemplo, ou a quantidade e posição do fogo e fumaça.”

Parece coisa simples, mas longe disso. Para um humano, é fácil correlacionar os fatos de um texto e de uma foto. Para um computador, não. “O computador transforma tudo em números, mas como compará-los? São dados de modalidades diferentes.”

Bahram Lavi, estudante de pós-doutorado iraniano que trabalha ao lado de Rafael na reconstrução dos vídeos do incêndio da torre Grenfell, sintetiza como o projeto poderia beneficiar investigações: “Nós vamos organizar todas essas fontes de dados para sermos capazes de responder quatro perguntas sobre um acontecimento: onde, quando, como e por quem.”

Pornografia infantil

Para quem ouve a descrição do projeto, parece coisa de ficção científica. No entanto, os pesquisadores se apressam em baixar a bola e encarar a iniciativa com pé no chão. Décadas de livros, filmes e seriados ensinaram mais de uma geração a acreditar que a tecnologia resolveria qualquer problema de um jeito quase mágico. Daí, surge uma expectativa irreal sobre o alcance de determinadas inovações.

O maior exemplo disso é aquele zoom milagroso capaz de mostrar o mínimo detalhe de uma imagem com resoluções baixíssimas. ‘Enhance’, o termo em inglês para o efeito repetido em todas as versões da série CSI, faz risos serem ouvidos no Recod (Reasoning for Complex Data), laboratório ao qual o DéjàVu é ligado. A sua maneira, porém, eles deram um jeito de fazer isso acontecer.

Dentro de outro projeto do Recod, o DeepEyes, foi desenvolvido um algoritmo capaz de analisar filmagens em baixa resolução para identificar placas de carros. A ferramenta estuda frame a frame dos vídeos e pesca de cada um deles trechos em que os caracteres da placa estão com melhor visibilidade para construir um resultado final. O laboratório tem um termo de colaboração com a Polícia Federal e a solução foi cedida ao órgão.

Também para a PF, foi criado um algoritmo de identificação de pornografia infantil. “Foi complicado”, diz o professor Anderson Rocha, professor do Instituto de Computação da Unicamp e coordenador do projeto. “Não tínhamos permissão para ter acesso ao material. Então treinarmos o algoritmo aqui com pornografia geral e enviamos à PF para eles afinarem”, explica ele. Em comparação com a ferramenta anterior utilizada pela Polícia, a eficácia de detecção subiu de 70% para 90%.

A princípio, nenhuma destas iniciativas está ligada ao DéjàVu, mas Rocha vislumbra possibilidades futuras de integração. “No caso de pornografia infantil, por exemplo. O DeepEyes identifica, e vamos atrás da cadeia de distribuição. Quando fazemos isso, começamos a checar ao longo do tempo pessoas que postaram ou falaram sobre aquilo e vamos abrangendo tudo.”

Contra notícias falsas

Com a capacidade de avaliar de maneira conjunta tanto imagens quanto textos sobre um evento, uma das possibilidades do DéjàVu é ajudar a identificar notícias falsas - como relatos sobre um comício, por exemplo, que não condizem com os registros em fotos e vídeos.

No âmbito da análise dos materiais escritos, um dos pesquisadores é o doutorando Antônio Theophilo, que tem dois objetivos: detalhar a filogenia de um texto e identificar a autoria de textos muito curtos - tuítes, basicamente. “Os dois problemas têm a ver com notícias falsas. A filogenia de um texto é a história dele. Dados vários textos parecidos, quem editou primeiro, quem inspirou quem”, conta Antônio.

“As duas abordagens ajudariam a identificar notícias falsas, mas é preciso ter um humano na investigação”, diz Rocha. 

Com a discussão em torno de discriminação algorítmica e ferramentas de machine learning cujo processo de tomada de decisões é impossível de compreender, há a preocupação em fazer com que o DéjàVu seja auditável. Em outras palavras, fazer com que os resultados possam ser explicados por alguém que os analisa de fora.

A perspectiva é finalizar o DéjàVu em cinco anos. A partir do segundo semestre, os pesquisadores do Recod começaram a fazer testes com eventos atuais - tanto aqueles com potencial forense, como crimes, quanto outros, como jogos de futebol. Um mistério, no entanto, a ferramenta não chegará perto de responder: o por quê.