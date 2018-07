Unos quince años después de la secuenciación del genoma humano, los investigadores todavía no pueden ponerse de acuerdo acerca de cuántos genes contiene, según nature.

Uno de los primeros intentos para estimar el número de genes que hay en el genoma humano involucró a unos genetistas borrachos, un bar en Cold Spring Harbor, Nueva York, y pura conjetura.

Eso fue en 2000, cuando aún se estaba preparando un proyecto de secuencia del genoma humano; los genetistas realizaron un sorteo sobre cuántos genes tienen los humanos, y las apuestas variaron de decenas de miles a cientos de miles. Casi dos décadas después, los científicos armados con datos reales todavía no pueden ponerse de acuerdo sobre el número, una brecha de conocimiento que dicen obstaculiza los esfuerzos para detectar mutaciones relacionadas con la enfermedad.

El último intento de cerrar esa brecha utiliza datos de cientos de muestras de tejido humano y se publicó en el servidor de preimpresión BioRxiv el 29 de mayo. Incluye casi 5.000 genes que no han sido detectados previamente, entre ellos casi 1.200 que llevan instrucciones para fabricar proteínas. Y el recuento total de más de 21.000 genes que codifican proteínas es un salto sustancial ante las estimaciones previas, que sitúan la cifra en alrededor de 20.000.

Pero muchos genetistas aún no están convencidos de que todos los genes recién propuestos resistirán el escrutinio. Sus críticas subrayan lo difícil que es identificar nuevos genes, o incluso definir qué es un gen.

"La gente ha estado trabajando duro en esto durante 20 años, y todavía no tenemos la respuesta", dice Steven Salzberg, un biólogo computacional de la Universidad Johns Hopkins en Baltimore, Maryland, cuyo equipo realizó el último recuento.

Difícil de precisar

En 2000, cuando la comunidad de genómica debatía acerca la cuestión de cuántos genes humanos se encontrarían, Ewan Birney lanzó el concurso GeneSweep. Birney, ahora codirector del Instituto Europeo de Bioinformática (EBI) en Hinxton, Reino Unido, realizó las primeras apuestas en un bar durante una reunión anual de genética, y el concurso finalmente atrajo a más de 1.000 participantes y un premio mayor de $3.000. Las apuestas sobre el número de genes oscilaron entre más de 312.000 a poco menos de 26.000, con un promedio de alrededor de 40.000. En estos días, el lapso de estimaciones se ha reducido, con la mayoría ahora entre 19.000 y 22.000, pero todavía hay desacuerdo.

El recuento de genes puede variar según los datos que se analicen, las herramientas utilizadas y los criterios para descartar falsos positivos. El recuento más reciente utilizó un conjunto de datos más grande y diferentes métodos computacionales de esfuerzos anteriores, así como también criterios más amplios para definir un gen.

El equipo de Salzberg utilizó datos del proyecto Genotype-Tissue Expression (GTEx), que secuenció el ARN de más de 30 tejidos diferentes tomados de varios cientos de cadáveres. El ARN es el intermediario entre el ADN y las proteínas. Los investigadores querían identificar los genes que codifican una proteína y los que no lo hacen, pero aún así cumplen una función importante en las células. Entonces ensamblaron los 900 mil millones de diminutos fragmentos de ARN de GTEx y los alinearon con el genoma humano.

Sin embargo, el hecho de que un tramo de ADN se exprese como ARN no necesariamente significa que sea un gen. Entonces el equipo intentó filtrar el ruido usando una variedad de criterios. Por ejemplo, compararon sus resultados con genomas de otras especies, razonando que las secuencias compartidas por criaturas distantemente relacionadas probablemente se hayan preservado por la evolución porque sirven para un propósito útil, y por lo tanto es probable que sean genes.

El equipo se quedó con 21.306 genes que codifican proteínas y 21.856 genes no codificantes, muchos más de los incluidos en las dos bases de datos de genes humanos más utilizadas. El conjunto de genes GENCODE, mantenido por el EBI, incluye 19,901 genes codificadores de proteínas y 15,779 genes no codificantes. RefSeq, una base de datos administrada por el Centro Nacional de Información Biotecnológica de los EE. UU. (NCBI), enumera 20.203 genes que codifican proteínas y 17.871 genes no codificantes.

Kim Pruitt, investigador del genoma en el NCBI en Bethesda, Maryland, y ex director de RefSeq, dice que la diferencia probablemente se deba en parte al volumen de datos analizados por el equipo de Salzberg. Y hay otra gran diferencia. Tanto GENCODE como RefSeq se basan en la conservación manual: una persona revisa la evidencia de cada gen y toma una determinación final. El grupo de Salzberg se basó únicamente en programas informáticos para tamizar los datos.

"Si a la gente le gusta nuestra lista de genes, entonces tal vez dentro de un par de años seremos el árbitro de los genes humanos", dice Salzberg.

Difícil Recuento

Muchos científicos dicen que necesitan más evidencias para convencerse de que la lista es precisa. Adam Frankish, un biólogo computacional del EBI que coordina la anotación manual de GENCODE, dice que él y su grupo han escaneado aproximadamente 100 de los genes codificadores de proteínas identificados por el equipo de Salzberg. Según su evaluación, solo uno de esos parece ser un verdadero gen codificador de proteínas.

Y el equipo de Pruitt observó alrededor de una docena de los nuevos genes codificadores de proteínas del grupo Salzberg, pero no encontró ninguno que cumpliera con los criterios de RefSeq. Algunos se superponen con regiones del genoma que parecen pertenecer a retrovirus que invadieron los genomas de nuestros antepasados; otros pertenecen a otros tramos repetitivos, que rara vez se traducen en proteínas.

Pero Salzberg dice que algunas secuencias repetitivas pueden considerarse genes. Un ejemplo es ERV3-1, que aparece en RefSeq y codifica una proteína que se sobreexpresa en el cáncer colorrectal. Salzberg también reconoce que los nuevos genes en la lista de su equipo requerirán la validación de su equipo y otros.

Otros esfuerzos de recuento confusos son la definición imprecisa y cambiante de un gen. Los biólogos solían ver genes como secuencias que codifican proteínas, pero luego se hizo evidente que algunas moléculas de ARN no codificantes tienen papeles importantes en las células. Juzgar cuáles son importantes, y deben considerarse genes, es controvertido y podría explicar algunas de las discrepancias entre el recuento de Salzberg y otros.

Aún así, es probable que al menos algunos de los genes identificados por el grupo de Salzberg resulten ser válidos, dice Emmanouil Dermitzakis, un genetista de la Universidad de Ginebra en Suiza, quien es copresidente del proyecto GTEx. No le sorprende que el recuento del equipo para los genes que codifican proteínas sea un aumento del 5% en los recuentos previos, dado el tamaño gigantesco del conjunto de datos GTEx.

Tener un recuento exacto de todos los genes humanos es importante para los esfuerzos por descubrir los vínculos entre los genes y la enfermedad. Los genes que no se tienen en cuenta a menudo se ignoran, incluso si contienen una mutación que causa una enfermedad, dice Salzberg. Pero agregar genes apresuradamente a la lista maestra también puede presentar riesgos, dice Frankish. Un gen que resulta incorrecto puede desviar la atención de los genetistas del problema real.

Aún así, las inconsistencias en el número de genes de la base de datos a la base de datos son problemáticos para los investigadores, dice Pruitt. "La gente quiere una respuesta", agrega, "pero la biología es compleja".

