Rastreando en los archivos almacenados en Google Cloud, un investigador dice haber recuperado 13 secuencias de los primeros coronavirus de Wuhan que habían desaparecido de una base de datos el año pasado.
Hace aproximadamente un año, las secuencias genéticas de más de 200 muestras de virus de los primeros casos de COVID-19 en Wuhan, China, desaparecieron de una base de datos científica online.
Ahora, tras buscar en los archivos almacenados en Google Cloud, un investigador de Seattle informa de que ha recuperado 13 de esas secuencias originales, lo que supone una nueva e intrigante información para discernir cuándo y cómo el virus pudo pasar de un murciélago u otro animal a los humanos.
El nuevo análisis, publicado el martes, refuerza las sugerencias anteriores de que una variedad de coronavirus puede haber estado circulando en Wuhan antes de los brotes iniciales vinculados a los mercados de animales y mariscos en diciembre de 2019.
El mercado mayorista de marisco de Wuhan Huanan en enero de 2020. Foto Dake Kang/Associated Press
Mientras el gobierno de Biden investiga los controvertidos orígenes del virus, conocido como SARS-CoV-2, el estudio no refuerza ni descarta la hipótesis de que el patógeno se filtró de un famoso laboratorio de Wuhan.
Pero sí plantea preguntas sobre por qué se borraron las secuencias originales, y sugiere que puede haber más revelaciones que recuperar de los rincones más lejanos de Internet.
“Se trata de un gran trabajo de investigación, que supone un gran avance en la comprensión del origen del SARS-CoV-2”, afirmó Michael Worobey, biólogo evolutivo de la Universidad de Arizona que no participó en el estudio.
Jesse Bloom, experto en virus del Centro de Investigación del Cáncer Fred Hutchinson y autor del nuevo informe, calificó de sospechosa la supresión de estas secuencias.
Parece probable que las secuencias se hayan eliminado para ocultar su existencia“, escribió en el documento, que aún no ha sido revisado por pares ni publicado en una revista científica.
Bloom y Worobey forman parte de un grupo de científicos que han pedido que se investigue más sobre el origen de la pandemia.
En una carta publicada en mayo, se quejaban de que no había suficiente información para determinar si era más probable que una fuga de laboratorio propagara el coronavirus o que éste saltara a los humanos por contacto con un animal infectado fuera de un laboratorio.
Las secuencias genéticas de las muestras virales contienen pistas cruciales sobre cómo el SARS-CoV-2 pasó a nuestra especie desde otro animal, probablemente un murciélago.
Lo más valioso de todo son las secuencias de los primeros momentos de la pandemia, porque acercan a los científicos al evento original de propagación.
Hallazgo
Mientras Bloom revisaba los datos genéticos publicados por varios grupos de investigación, encontró un estudio de marzo de 2020 con una hoja de cálculo que incluía información sobre 241 secuencias genéticas recogidas por científicos de la Universidad de Wuhan.
La hoja de cálculo indicaba que los científicos habían subido las secuencias a una base de datos online llamada Sequence Read Archive, gestionada por la Biblioteca Nacional de Medicina del gobierno de Estados Unidos.
Pero cuando Bloom buscó las secuencias de Wuhan en la base de datos a principios de este mes, su único resultado fue “no se encontró ningún elemento”.
Desconcertado, volvió a la hoja de cálculo en busca de más pistas.
Indicaba que las 241 secuencias habían sido recogidas por un científico llamado Aisi Fu en el Hospital Renmin de Wuhan.
Buscando en la literatura médica, Bloom acabó encontrando otro estudio publicado en Internet en marzo de 2020 por Fu y sus colegas, en el que se describía una nueva prueba experimental para el SARS-CoV-2.
Los científicos chinos lo publicaron en una revista científica tres meses después.
En ese estudio, los científicos escribieron que habían examinado 45 muestras de hisopos nasales tomados “de pacientes ambulatorios con sospecha de COVID-19 al principio de la epidemia”.
A continuación, buscaron una parte del material genético del SARS-CoV-2 en los hisopos.
Los investigadores no publicaron las secuencias reales de los genes que extrajeron de las muestras.
En su lugar, sólo publicaron algunas mutaciones de los virus.
Pero una serie de pistas indicaban a Bloom que las muestras eran la fuente de las 241 secuencias que faltaban.
Los documentos no incluían ninguna explicación de por qué las secuencias se habían subido al Archivo de Lecturas de Secuencias, para luego desaparecer.
Al examinar el archivo, Bloom descubrió que muchas de las secuencias estaban almacenadas como archivos en Google Cloud.
Cada secuencia estaba contenida en un archivo en la nube, y los nombres de los archivos compartían el mismo formato básico, informó.
Bloom cambió el código por una secuencia perdida de Wuhan.
De repente, tenía la secuencia.
Rastreo
En total, consiguió recuperar 13 secuencias de la nube de esta manera.
Con estos nuevos datos, Bloom volvió a examinar las primeras etapas de la pandemia.
Combinó las 13 secuencias con otras publicadas de los primeros coronavirus, con la esperanza de avanzar en la construcción del árbol genealógico del SARS-CoV-2.
La elaboración de todos los pasos por los que el SARS-CoV-2 evolucionó a partir de un virus de murciélago ha sido un reto porque los científicos todavía tienen un número limitado de muestras que estudiar.
Algunas de las primeras muestras proceden del mercado mayorista de mariscos de Huanan, en Wuhan, donde se produjo un brote en diciembre de 2019.
Pero esos virus del mercado tienen en realidad tres mutaciones adicionales que faltan en las muestras de SARS-CoV-2 recogidas semanas después.
En otras palabras, esos virus posteriores se parecen más a los coronavirus que se encuentran en los murciélagos, lo que apoya la idea de que hubo algún linaje temprano del virus que no pasó por el mercado de mariscos.
Bloom descubrió que las secuencias eliminadas que recuperó de la nube también carecen de esas mutaciones adicionales.
“Son tres pasos más similares a los coronavirus de los murciélagos que a los virus del mercado de pescado de Huanan”, dijo Bloom.
Esto sugiere, dijo, que cuando el SARS-CoV-2 llegó al mercado, ya había estado circulando durante un tiempo en Wuhan o más allá.
Los virus del mercado, argumentó, no son representativos de toda la diversidad de coronavirus ya sueltos a finales de 2019.
“Tal vez nuestra imagen de lo que estaba presente a principios de Wuhan a partir de lo que se ha secuenciado podría ser algo sesgada“, dijo.
En su informe, Bloom reconoció que esta conclusión tendría que confirmarse con un análisis más profundo de las secuencias del virus. Worobey dijo que él y sus colegas están trabajando en un estudio a gran escala de los genes del SARS-CoV-2 para comprender mejor su origen y que ahora añadirán las 13 secuencias recuperadas por Bloom.
“Estos datos adicionales desempeñarán un papel importante en ese esfuerzo”, dijo Worobey.
No está claro por qué se perdió esta valiosa información en primer lugar.
Los científicos pueden solicitar la eliminación de los archivos enviando un correo electrónico a los gestores del Sequence Read Archive.
La Biblioteca Nacional de Medicina, que gestiona el archivo, dijo que las 13 secuencias fueron eliminadas el verano pasado.
“Estas secuencias de SARS-CoV-2 se presentaron para su publicación en el SRA en marzo de 2020 y posteriormente el investigador que las presentó solicitó su retirada en junio de 2020”, dijo Renata Myles, portavoz de los Institutos Nacionales de Salud.
Dijo que el investigador, al que no nombró, dijo a los gestores del archivo que las secuencias se estaban actualizando y se añadirían a una base de datos diferente.
Pero Bloom ha buscado en todas las bases de datos que conoce y aún no las ha encontrado.
“Obviamente no puedo descartar que las secuencias estén en alguna otra base de datos o página web en algún lugar, pero no he podido encontrarlas en ninguno de los lugares obvios en los que he buscado”, dijo.
Tres de los coautores del estudio de pruebas de 2020 que produjo las 13 secuencias no respondieron inmediatamente a los correos electrónicos en los que se preguntaba por el hallazgo de Bloom.
Ese estudio no dio información de contacto de otro coautor, Fu, que también fue nombrado en la hoja de cálculo del otro estudio.
Algunos científicos se muestran escépticos de que haya algo siniestro detrás de la eliminación de las secuencias.
“No entiendo realmente cómo esto apunta a un encubrimiento”, dijo Stephen Goldstein, un experto en virus de la Universidad de Utah.
Goldstein señaló que el documento de las pruebas enumeraba las mutaciones individuales que los investigadores de Wuhan encontraron en sus pruebas.
Aunque las secuencias completas ya no están en el archivo, la información clave ha sido pública durante más de un año, dijo.
Simplemente estaba escondida en un formato difícil de encontrar para los investigadores.
“Todos echamos de menos este documento relativamente oscuro”, dijo Goldstein.
“No se puede decir realmente por qué se eliminaron”, reconoció Bloom en una entrevista.
“Se puede decir que la consecuencia práctica de eliminarlos fue que la gente no se dio cuenta de que existían”.
También señaló que el gobierno chino ordenó la destrucción de varias de las primeras muestras del virus y prohibió la publicación de trabajos sobre el coronavirus sin su aprobación.
Por su parte, Worobey sigue queriendo respuestas.
“Espero que escuchemos a los autores que generaron, pero luego borraron, estas secuencias cruciales para que podamos entender mejor su motivación para hacerlo”, dijo.
“Ciertamente es extraño a primera vista y realmente exige una explicación”.
Independientemente de lo que ocurrió con estas 13 secuencias, Bloom se pregunta ahora qué otras pistas podrían descubrirse en la red.
Para reconstruir el origen de COVID-19, todas esas pistas son potencialmente importantes.
“Lo ideal sería tratar de encontrar el mayor número posible de otras secuencias tempranas”, dijo.
“Y creo que este estudio sugiere que debemos buscar en todas partes”.