Nota sobre o estudo da UFPel no Rio Grande do Sul

* This post is in Portuguese.

Introdução

Resolvi escrever esta nota sobre o estudo de prevalência de anticorpos (seroprevalence) que a UFPel está realizando no Rio Grande do Sul, pois parece haver um grande desentendimento por parte da população, principalmente por parte dos jornalistas em relação aos números reportados pelos pesquisadores da UFPel.

Para começar, minha opinião foi e continua sendo (até a data de hoje) de que a UFPel tem feito um péssimo trabalho de divulgação científica, e gostaria de deixar claro que não estou criticando o estudo, mas sim a divulgação que está sendo feita nas coletivas. Infelizmente, para não dizer lamentavelmente, os pesquisadores da UFPel parecem não ter entendido a crítica que fiz no dia 15 de Abril e acabaram descaracterizando completamente o argumento ao responder de forma anti-ética na live que fizeram no dia 21 de Abril (ver aos 59 min do vídeo) onde comentaram que eu estaria “deslumbrado” e que queria “lacrar“, pois entenderam que eu havia dito que eles não haviam pensado sobre o intervalo de confiança, quando na verdade a minha crítica era sobre a omissão da comunicação não só deste intervalo como também da incerteza associada com o kit de teste que eles estão utilizando.

Honestamente não consegui entender porque usaram um argumento ad hominem para responder a minha crítica, deboche não deveria fazer parte da ciência e do diálogo científico. Tive também inúmeros “carteiraços” também no Twitter por parte de outros professores da UFPel e outros:

Toda vez que eu leio sobre estes argumentos de autoridade, eu lembro que foi Karl Popper que felizmente teve o grande insight de que o conhecimento é sujeito a avaliação competitiva e deve ser revisada por pares e por comunidades independentes. Ciência não é sobre autoridade, sobre quem é melhor ou não no país, mas sim sobre evidência, e a evidência inclui incerteza e devemos comunicá-la com rigor científico, estamos falando de um estudo que impacta políticas de saúde pública e vidas.

Torturando os números

Mas vamos ao que interessa, que é a parte técnica. Primeiramente a UFPel apresentou o seguinte slide na coletiva:

Slide apresentado pela UFPel.

Onde alertam sobre “números pequenos”, seja lá o que um “número pequeno” significa, pois ao invés de adotar aqui rigor científico, deixaram margem para a subjetividade. Apesar de este alerta ser importante (dado que se entenda o que ele quer dizer), ele não ajuda em nada porque logo depois temos os slides apresentando os resultados e ignorando detalhes importantes que vou comentar a seguir:

Slide apresentado pela UFPel.

Aqui é onde começam os graves problemas que acabaram gerando uma série de notícias e desinformação que fez com que o público interpretasse estes resultados sem ter a informação completa. Segue uma pequena lista de algumas notícias que foram divulgadas depois desta coletiva:

  • Revista Pesquisa Fapesp:
    • “Rio Grande do Sul pode ter 7,5 vezes mais casos do que o confirmado”
  • Notícia da própria UFPel:
    • “Dos 4189 testes validados pelos pesquisadores, dois testes confirmaram positivo, cerca de 0,05% da população gaúcha deve ter sido contaminada.”
  • Jornal O Nacional:
    • “Estudo estima que RS tenha 5.650 pessoas infectadas pela Covid-19”
  • Diário da Manhã:
    • “Estudo estima que RS tenha mais de 5.600 pessoas infectadas pela Covid-19”
  • Notícia da UNISC:
    • “(…) estima-se que há um infectado a cada dois mil habitantes do estado, podendo existir 5650 pessoas que estão ou já estiveram infectadas com o vírus (…)”

E tantas outras notícias de outros jornais, que passaram a veicular estes números da UFPel.

Mas o que há de errado nestes resultados que foram anunciados ? Segue uma lista:

  • Arredondamento grosseiro da proporção (0.05%) estimada:
    • Este arredondamento pode parecer pequeno, mas já vamos ver qual é o problema;
  • Omissão de erro amostral:
    • Até enquetes de eleições apresentam incertezas do erro amostral, mas uma pesquisa que vai impactar em política de saúde pública não apresenta isto para imprensa ?
  • Ignoraram as características dos testes nestes resultados:
    • Sabemos que os testes tem características como sensibilidade e especificidade, e apesar de terem feito validações, não propagaram as incertezas destes testes nos resultados apresentados. No meu ponto de vista, este é um dos piores erros cometidos;
  • Constante política que permeia as coletivas:
    • Na segunda coletiva da UFPel, eles constantemente falam que o estudo é “único no mundo”, mas ignoram estudos como por exemplo o de Miami que finalizou a segunda etapa no dia 24 de Abril, portanto não é verdade que o estudo é “inédito” ou “único no mundo”. Este tipo de comentário pode gerar um bom marketing para a universidade, mas não devemos ignorar outros estudos em prol da política universitária ou orgulho acadêmico;
  • Falta de transparência (open science):
    • Os pesquisadores já estão na segunda fase do estudo e ainda não divulgaram dados como por exemplo o número de amostras que utilizaram para fazer a validação dos testes que utilizaram, e tantos outros micro-dados anonimizados que poderiam ser divulgados para que outros pesquisadores possam avançar em outras análises. Há uma demora muito grande para a divulgação destes dados e já estou sem esperanças que este estudo divulgue algo além dos slides apresentados na coletiva antes de acabarem o estudo;

Vou falar de cada um dos pontos acima e depois fazer uma análise prática mostrando alguns números muito diferentes da UFPel. Nesta análise tive que ignorar alguns aspectos como por exemplo os ajustes demográficos porque como comentei, a UFPel não divulgou detalhes do estudo.

Arredondamentos grosseiros

Quando se estima prevalência, estima-se uma proporção. No caso da UFPel, se fizermos uma conta muito simples, veremos que a proporção correta não é 0.05% mas sim 0.047%. Por que estou utilizando uma precisão maior e evitando arredondamento ? Pelo simples motivo de que esta proporção é multiplicada posteriormente pela população inteira para se extrapolar o resultado da amostragem para a população. E sabemos que o número da população não é um número pequeno, no RS temos uma população estimada de 11.300.000 de habitantes. Ou seja, um arredondamento pequeno pode inflacionar artificialmente o número de infectados. Ao multiplicarmos a população pela proporção:

\underbrace{11300000}_{\text{Population}}*\underbrace{0.0005}_{\text{Proportion}} = 5650

Chegamos ao número que a UFPel divulgou como estimado número de infectados. Mas, ao multiplicarmos pela proporção correta, temos:

\underbrace{11300000}_{\text{Population}}*\underbrace{2/4189}_{\text{Proportion}} = 5395

Portanto temos uma inflação artificial de 255 infectados a mais, que surgiram magicamente ao se arredondar números que não se devem ser arredondados. Esta quantidade de infectados pode não parecer um número grande, mas ao colocarmos 255 infectados em uma população e utilizarmos o número de reprodução básico (R0) estimado do SARS-CoV-2, o impacto destes infectados em uma população, definitivamente não é insignificante. Parece aqui que a UFPel não lembrou do próprio conselho que apresentou no slide anterior: “devermos ter cuidado quando os números são pequenos”.

Modelando erro amostral

Quando fazemos uma amostragem de uma população, as quantidades estatísticas estimadas para esta amostragem podem não representar a as mesmas quantidades da população. Aumentando o tamanho da amostra, conseguimos reduzir este erro, porém é obviamente proibitivo fazer isto quando não temos nem testes suficientes no Brasil para grupos de risco, quanto mais para uma amostra grande de assintomáticos. Portanto em estudos de prevalência temos que conviver com estes erros, que geralmente são grandes pelo fato das amostras representarem apenas uma pequena parcela da população total. Novamente, não estou aqui criticando que a UFPel não irá fazer isto no estudo final, ou que não pensou sobre estes intervalos de confiança, minha crítica é que não apresentaram estes intervalos na primeira coletiva.

Para estimar esse erro amostral, vou fazer uma modelagem bayesiana simples utilizando um prior não-informativo. Como estamos estimando valores discretos de número de testes positivos dado uma quantidade de ensaios, utilizei a distribuição binomial \(\text{Binomial}(n, p)\) onde n é o número de trials e p é a probabilidade que queremos estimar, que representa a probabilidade de sucesso para cada trial. Como estamos estimando uma proporção p, a distribuição natural como prior para este tipo de quantidade é a distribuição \(\text{Beta}(\alpha, \beta)\), como não sabemos muito sobre a prevalência, utilizei um prior não-informativo \(\text{Beta}(1.0, 1.0)\). No fim o modelo é este:

$$
\begin{eqnarray}
\text{p} &\sim & \text{Beta}(\mathit{alpha}=1.0,~\mathit{beta}=1.0)\\\text{y_obs} &\sim & \text{Binomial}(\mathit{n}=4189,~\mathit{p}=\text{p})
\end{eqnarray}
$$

O resultado da estimativa deste parâmetro de prevalência resultou na seguinte distribuição:

Adicionei neste plot o valor que a UFPel divulgou, que é o 5650. Mas como podemos ver, com um intervalo de credibilidade de 95% este valor na realidade vai de 790 até 17238 infectados. Como podemos ver, um valor muito diferente do que a UFPel divulgou e tem um erro grande associado devido ao tamanho da amostra. Mas este ainda não é o pior dos problemas, porque nesta estimativa estamos assumindo um teste perfeito que nunca erra, o que sabemos não representar a realidade, portanto devemos incluir nesta modelagem as características de sensibilidade e especificidade dos testes utilizados.

Incorporando incerteza dos testes

A UFPel utilizou testes da Wondfo, que foram validados pela própria UFPel e por outros institutos [1]. No seguinte slide, a UFPel mostra alguns resultados destas validações:

Slide apresentado pela UFPel.

Onde comentaram que o teste tem “ótimas características de validade” e que foi validado também por eles mesmos (mas não apresentaram como isto foi feito e nem a quantidade de amostras utilizada para esta validação). Estes testes são distribuídos no Brasil pela empresa Celer Biotecnologia, mas nas especificações brasileiras, a tabela do estudo feito pelo fabricante relacionada ao sangue capilar foi removido. Segue uma thread interessante do Ricardo Parolin:

Como é muito difícil encontrar os dados dos estudos realizados no Brasil (INCQS e outro pela UFPel), vou utilizar os dados do estudo do fabricante pois podemos saber o tamanho da amostra que eles utilizaram para podermos propagar a incerteza do estudo no estudo da UFPel. É importante ressaltar que os dados dos fabricantes geralmente são extremamente otimistas em relação ao que acontece na realidade, pois eles são feitos em condições ideais de testagem, o que muitas vezes não se reflete em campo, mas como são os dados que temos, é o que vou utilizar.

Para definir os priors de sensibilidade e especificidade, utilizei a distribuição \(\text{Beta}(\alpha, \beta)\) por naturalmente modelar proporções e representar a incerteza dependendo da quantidade de amostras que foram utilizas. Abaixo segue o prior definido para a sensibilidade (sensitivity) utilizando os dados do fabricante de 42 amostras positivas e onde as 42 foram corretamente detectadas como positivos (true positives):

Beta prior para 42 amostras positivas corretamente detectadas como positivas.

É interessante visualizarmos como este prior seria se o fabricante tivesse utilizado apenas 5 amostras por exemplo:

Beta prior para 5 amostras positivas corretamente detectadas como positivas.

O que isto quer dizer é que na modelagem, independente se a deteção de verdadeiros positivos seja sempre correta, ao utilizar menos amostras a incerteza nestes dados aumenta porque temos maior incerteza com menos amostras do que se tivéssemos mais amostras, este é um ponto importante na escolha de um prior para este tipo de proporção.

Utilizei o mesmo prior para os dados de especificidade do fabricante, o qual teve 2 falsos positivos em uma amostra de 172:

Beta prior para 172 amostras negativas onde se tem 2 falsos positivos.

Como podemos ver, a incerteza em relação a especificidade do teste é bem menor do que vimos na sensibilidade, por terem utilizado mais amostras (172) neste ensaio. Porém ainda temos uma incerteza associada. Lembrando novamente que estes dados são do próprio fabricante e que são dados otimistas.

Para modelar o problema agora, temos que ter em mente que a prevalência detectada pelo estudo da UFPel é apenas uma prevalência aparente e não a prevalência verdadeira, pois não estamos usando um teste perfeito. Porém sabemos a relação entre sensibilidade/especificidade e a prevalência verdadeira, então podemos utilizar esta relação para estimar a prevalência verdadeira dado a incerteza amostral e também a incerteza dos testes (utilizando dados do estudo do fabricante):

$$
\hat{\pi} = \pi se + (1.0 – \pi) (1.0 – sp)
$$

Onde \(\hat{\pi}\) é a prevalência aparente, \(\pi\) é a prevalência real, \(se\) é a sensibilidade e \(sp\) é a especificidade. No fim o modelo em plate notation ficou assim:

Onde propagamos as incertezas do teste através dos priors, modelamos o prior da prevalência verdadeira com um prior não-informativo e o que estamos observando no fim é o y_obs que é uma distribuição binomial com uma proporção que representa a prevalência aparente. Esta modelagem é muito similar a modelagem apresentada em [2].

Os resultados desta modelagem nos dão a seguinte distribuição:

Deixei o valor anunciado pela UFPel como referência em uma linha vertical de cor alaranjada. Como podemos ver, ao incorporar a incerteza dos testes (com os dados otimistas do fabricante), temos um intervalo de 0 (zero) até 12045 infectados no Rio Grande do Sul com um intervalo de credibilidade de 95%. Estes números são bem diferentes dos números anunciados pela UFPel na primeira coletiva, e podemos ver que há uma grande incerteza associada a eles.

Seguem as distribuições e o intervalo de credibilidade de 95% para sensibilidade e especificidade:

Na segunda fase do estudo, a UFPel divulgou o seguinte resultado:

Segue abaixo o resultado com os dados da segunda fase do estudo:

Deixei novamente a linha laranjada representando o resultado divulgado pela UFPel. Como podem ver, este resultado acaba caindo muito longe da maior parte da distribuição estimada. O intervalo mostrado pela UFPel foi de 5650 até 32770, enquanto que o meu intervalo acabou sendo entre 0 (zero) e 18126 com uma credibilidade já alta de 95%.

Óbvio que se pode melhorar o resultado ao incorporar mais hipóteses como por exemplo a quantidade de infectados que já se sabia existir em dado momento no tempo, mas apenas com os dados em mão, é isto o que se pode dizer, algo inconclusivo devido a baixa prevalência encontrada e as propriedades do teste, especialmente a especificidade. E neste caso ainda estou usando os dados otimistas do fabricante que testou o produto em condições ideais. Novamente, isto não significa que você não deva fazer estudos [3], mas sim que deve propagar as incertezas dos erros amostrais e dos kits de teste, e levando também em consideração os erros amostrais.

Outro comentário interessante sobre estes detalhes do estudo da UFPel por Manoel Galdino:

Comparação interessante entre RS e Portugal

Uma comparação que eu fiz no dia 12 de Abril, que eu acho muito interessante, é entre o Rio Grande do Sul e Portugal. Ambos tem aproximadamente uma população similar e coincidentemente adotaram medidas de fechamento de escolas, declaração de estado de emergência nas mesmas datas. Porém, o Rio Grande do Sul foi mais rápido ao adotar as medidas em relação ao primeiro caso detectado.

É interessante que o Rio Grande do Sul parece ter atingido um número reprodutivo efetivo menor que Portugal antes de Portugal. Mas, Portugal manteve até hoje (dia 2 de Maio) o estado de emergência e as medidas de intervenção e isolamento. Portugal hoje se encontra com a epidemia controlada, com ocupação de UTIs estável e está aos poucos relaxando o confinamento, entretanto, ninguém sabe se teremos uma nova onda ao relaxar as intervenções como tem acontecido no Rio Grande do Sul na região de Passo Fundo/Marau onde parece estar se tornando um novo epicentro da epidemia no Rio Grande do Sul.

Tenho tentado ressaltar a importância de não só utilizarmos testes em assintomáticos e em estudos randomizados com o da UFPel mas também utilizarmos os testes em regiões com grupos de risco. Fiz este mapa abaixo mostrando a importância da utilização de dados de alta resolução (utilizando imagens de satélite e Machine Learning) para se estimar onde estão os grupos de risco. O mapa abaixo mostra os pontos onde temos a maior densidade de idosos no grupo de risco (acima de 60 anos) em Passo Fundo no Rio Grande do Sul, e em um dos clusters de maior densidade que o mapa mostrou é justamente onde foi encontrado um lar de idosos com 18 infectados.

Este outro mapa abaixo mostra a quantidade de leitos de UTI no RS juntamente com marcadores em vermelho do número de infectados confirmados nas UTIs:

Temos atualmente uma capacidade limitada nas UTIs no Rio Grande do Sul, e não sabemos ainda qual é a defasagem dos testes para podemos estimar em que ponto estamos na curva epidemiológica. Ao relaxar intervenções, podemos correr um alto risco de criarmos uma pressão neste sistema de saúde, especialmente na região de Passo Fundo, que atende várias cidades do interior.

Monitorando a epidemia

Mantenho atualizado diariamente estimativas para o R(t) por estado para todos estados do Brasil. Como já pontuado por inúmeros epidemiologistas, este número é o número que devemos monitorar para auxiliar nas decisões de medidas de intervenção. Ainda dá para melhorar bastante as estimativas ao ajustar pela defasagem dos testes, mas infelizmente as secretarias de saúde não fornecem os dados necessários para que se possa fazer este trabalho.

Segue a última atualização para o estado do Rio Grande do Sul:

Atualização [13 de Maio 2020]: resultados para terceira fase do estudo

Na terceira fase do estudo que a UFPel liberou, temos os seguintes resultados:

Como podemos ver, dos 10 casos positivos, tivemos 4 deles em Passo Fundo, o que não surpreende muito (veja o que comentei sobre Passo Fundo/RS no dia 29 de Abril acima neste post) dado a alta incidência que há em Passo Fundo desde algumas semanas atrás. Novamente a UFPel só mostrou valores em percentuais sobre a sensibilidade/especificidade do teste e não falou sobre os dados dos 4 estudos diferentes que foram feitos (incluindo o deles), portanto continuamos no escuro em relação à este estudo que eles fizeram sobre os testes, mesmo após a terceira fase do estudo.

De acordo com os resultados da UFPel, teríamos na melhor estimativa deles, 24.860 pessoas com anticorpos no RS. Porém, ao incorporar a incerteza dos testes como comentado anteriormente, temos os seguintes resultados:

A marca laranjada é onde está a melhor estimativa da UFPel, e a média para o meu resultado é 9.608, muito abaixo do resultado da UFPel. De fato, o resultado da UFPel está já muito próximo do intervalo de credibilidade de 95% deste modelo incorporando a incerteza dos testes.

Temos também as seguintes estimativas de sensibilidade e especificidade:

Utilizando as características encontradas por um outro laboratório independente do estudo Test performance evaluation of SARS-CoV-2 serological assays (Jeffrey D. Whitman, et al. 2020), onde há uma sensibilidade bem mais baixa que a especificada pelo fabricante, ainda assim obtemos resultados bem diferentes dos da UFPel:

Com estes dados do estudo independente, obtemos uma média de pessoas com anti-corpos de 14.894, com 95% de credibilidade em 37.453, ou seja, muito maior do que com os dados do teste do próprio fabricante. O que demonstra como os resultados podem mudar muito ao se utilizar dados de validação de estudos independentes.

Seguem sensibilidade e especificidade estimada com os dados do estudo independente mencionado acima:

 

Atualização [18 de Maio 2020]: resultados de Manaus/Amazonas

Na pesquisa de prevalência em Manaus, foram encontradas 27 amostras positivas do total de 250 amostras feitas. O que mostra uma grande prevalência na cidade de Manaus. A UFPel divulgou um valor estimado de 201.6 mil pessoas com anti-corpos. Seguem os resultados abaixo usando dois cenários, o primeiro usando dados de validação dos testes da própria fabricante (Wondfo) e o segundo utilizando os dados de validação independente do COVID-19 Testing Project [1].

Cenário com validação do COVID-19 Testing Project

Neste cenário, podemos ver que com uma prevalência mais alta, os resultados começam a bater com os resultados da UFPel, mas com credibilidade muito maiores. Na minha estimativa a média foi 214.932 pessoas com anticorpos (a UFPel anunciou 201.6 mil), e a credibilidade de 95% vai de 104.134 até 332.654, a UFPel anunciou uma margem de 180 mil até 220 mil.

Cenário com validação da própria fabricante

Como podemos ver, com os dados de validação da própria fabricante, os resultados acabam ficando mais otimistas para Manaus.

Comentários

Viu algo errado neste artigo ? Entre em contato e critique ! É através da crítica que juntos crescemos e lutamos contra esta epidemia.

Cite this article as: Christian S. Perone, "Nota sobre o estudo da UFPel no Rio Grande do Sul," in Terra Incognita, 29/04/2020, http://blog.christianperone.com/2020/04/nota-ufpel-covid/.

Referências

[1] COVID-19 Testing Project. 2020.
[2] Estimating SARS-CoV-2 seroprevalence and epidemiological parameters with uncertainty from serological surveys. Daniel B Larremore et al. 2020.
[3] Concerns with that Stanford study of coronavirus prevalence. Andrew Gelman. 2020.

– Christian S. Perone

3 thoughts to “Nota sobre o estudo da UFPel no Rio Grande do Sul”

  1. Caro Christian, Como presidente da Procempa eu agradeço a tua grande contribuição ao nosso trabalho alertando para grave vulnerabilidade de segurança de dados. Seu alerta, além de impedir a propagação do problema pela correção do código, está ensejando a revisão e melhorias no processo de desenvolvimento e testes de software para reduzir os riscos desse tipo de problema no futuro. Um abraço, Paulo Miranda.

  2. Christian, podes por teu Tweet original ali junto com meu comentário? “ I just became aware of the results from randomized study by @UFPel in Brazil. They reported to the media: numbers without confidence intervals, without taking into consideration specificity/sensitivity of the tests and also rounding proportions, holy mother, what are they doing ?”. Só para as pessoas entenderem melhor que os comentários nao foram feitos em um Tweet ético e científico. Valeu.

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.