Identificación de los genes
El Proyecto Genoma Humano es una iniciativa internacional que se inició en 1990, para dar a conocer las instrucciones precisas de carácter químico que van a definir a los organismos vivos: el genoma completo. El término Genoma es el nombre colectivo que se emplea para agrupar las diferentes moléculas de ADN que se encuentran en una célula.
En el organismo humano existen 25 moléculas diferentes de ADN:
El ADN presente en cada cromosoma contiene los genes de cada cromosoma. Secuenciar un cromosoma significa identificar toda la secuencia de las bases químicas de los nucleótidos que componen el ADN de ese cromosoma:
y, a partir de ahí, determinar qué piezas o trozos de esa molécula de ADN constituyen los genes propios de ese cromosoma. Porque debe tenerse en cuenta que no toda la larga cadena de ADN presente en un cromosoma tiene capacidad para codificar, es decir, para originar los productos funcionales que de él se derivan, que son:
Por eso es preciso identificar qué trozos o segmentos de la larga cadena de ADN presente en el cromosoma poseen realmente la actividad propia de un gen.
La identificación de un gen supone un largo proceso mediante el cual se ha de conocer:
a) su longitud y estructura, que vendrá identificada por la secuencia de bases y el número de bases presentes en los nucleótidos del ADN
b) su organización: mediante la cual sus componentes van a codificar los productos propios y característicos de se gen (tránscritos de ARN)
c) el producto(s) o molécula(s) originado(s) a partir del gen; es decir, el polipéptido o proteína resultante de la acción de ese gen. Con frecuencia, un mismo gen origina diversas proteínas que varían según sea el mecanismo que el gen ponga en marcha para producir una u otra molécula
d) la función que desempeña el producto resultante. Esta función ha de ser identificada a diversos niveles:
e) Las consecuencias que se derivan de la modificación estructural de ese gen por cambios en su contenido: mutaciones (supresión o cambio en algún aminoácido, duplicación de una secuencia), anulación del gen, duplicación o triplicación del gen completo, etc.
El número total de genes en el genoma humano, según los más recientes cálculos y previsiones, está entre 30.000 y 50.000. De ellos 37 son mitocondriales y todo el resto son nucleares. Estas estimaciones están muy por debajo de los 50.000 a 100.000 genes que se previeron hace unos años; sin embargo, no hay todavía certeza sobre el número exacto de genes.
El tamaño total del genoma humano es de una 3.200 Mb de ADN que se distribuyen entre los cromosomas de manera irregular, desde las 270 Mb que contiene el cromosoma 1 hasta las 45 Mb del cromosoma más pequeño, el 21.
Los genes humanos no se distribuyen de modo igual por los cromosomas, lo que hace que su densidad (número de genes por unidad de ADN) varíe sustancialmente de un cromosoma a otro y, dentro de un cromosoma, de una porción a otra
Los genes de los organismos sencillos (p. ej., bacterias) tienen un tamaño parecido, en general corto. Pero en los organismos complejos como es el humano, el tamaño de los genes es enormemente variable; y puede variar desde menos de 1 kb (el gen del interferón a hasta el gen de la distrofina que tiene cerca de 2.500 kb. La mayoría del ADN con capacidad codificadora se utiliza para fabricar ARN mensajero (mARN) y, a partir de él, para elaborar los polipéptidos formados gracias al ensamblaje de aminoácidos. Pero un 10% de los genes humanos codifican ARN que después no va a regular la formación de polipéptidos.
Pero no toda la cadena del ADN de un gen tiene capacidad para codificar sus productos. En la gran mayoría de los genes que codifican polipéptidos, la información genética viene en segmentos de ADN que son codificadores y se denominan exones. Estos exones están separados por secuencias de ADN que no aportan mensajes codificadores por lo que no contribuyen con información genética útil para sintetizar el producto final, y se llaman intrones.
El primer paso de la transcripción de un gen consiste en la producción de una secuencia de ARN complementaria a la longitud completa del gen: es el tránscrito primario. En el caso de los genes que contienen múltiples exones, este tránscrito primario contiene las secuencias complementarias, tanto de los exones como de los intrones del gen. Pero posteriormente el tránscrito primario de ARN sufre un proceso de corte y empalme (splicing) del ARN: una serie de reacciones por las que los segmentos de ARN intrónico son seccionados y eliminados, y los segmentos de ARN exónico se van juntando uniéndose un cabo a otro (empalme), dando origen a un segundo tránscrito de ARN que es más corto (figura 1).
Figura 1. Proceso de corte y empalme (splicing) de ARN, por el cual el gen origina el tránscrito final maduro de ARN. El gen (en azul) contiene 3 exones (codificadores) y 2 intrones (no codificadores). El tránscrito primario de ARN (en rojo) posee todas las secuencias complementarias. Posteriormente se cortan y eliminan las secuencias entrónicas (GU....AG) y se empalman las exónicas (E1, E2, E3) para originar el ARN maduro. (Figura tomada de: Stracham T, Read AP. Human Molecular Genetics, 3ª ed., New York, Garland Publishing 2004).
Existen también dentro de la cadena de ADN los pseudogenes y los fragmentos de genes: son copias defectuosas de secuencias de bases relacionadas con algún gen pero carecen de función. Se calcula la existencia de unos 20.000 pseudogenes en el genoma humano.
Anotación funcional del gen. Transcriptoma y proteoma
De los aproximadamente 30.000 genes que se calcula que poseemos, aún nos quedan muchos por descubrir hasta conseguir el catálogo completo de los genes que componen el genoma humano. Pero aunque ya lo tuviéramos, no sería más que una lista de componentes. Porque de los que se trata es de comprender cómo, entre todos ellos, se llega a formar y cómo funciona un ser humano. Para ello tenemos que entender qué es lo que hacen. La siguiente tarea, por tanto, es determinar las funciones precisas de cada uno de los genes en el genoma humano, un proceso conocido con el nombre de anotación funcional del gen o descripción funcional del gen.
Las similitudes y las diferencias que se encuentran entre los genomas de especies distintas indican la existencia de secuencias de ADN que se han conservado a lo largo de la evolución de las especies, y que son importantes desde el punto de vista funcional. En efecto, en las distintas especies se encuentran genes que están estrechamente relacionados por su estructura y se llaman genes ortólogos. Esta similitud y presencia en distintas especies ayudan a encontrar y asignar una función concreta a un gen determinado. Los genes ortólogos no suelen ser enteramente idénticos porque existen mutaciones que se acumulan a lo largo de la línea evolutiva; pero el grado de semejanza entre ellos ofrece una medida útil para calcular el tiempo de evolución y construir el árbol filogenético. La genómica comparada utiliza estas semejanzas y diferencias entre los genomas para deducir la información estructural, funcional y evolutiva de los genes.
Pero, incluso cuando se lleguen a identificar todos los genes presentes en el genoma y se les asigne una función, no sabremos todavía cómo se coordinan los productos originados por el gen para desempeñar las actividades biológicas propias de un ser vivo. Para conocer cómo se combinan las funciones de miles de genes para generar un ser humano, es necesario estudiar directamente los productos del gen. Ahora bien, un gen nunca actúa en soledad sino en combinación con el resto de los genes. Efectivamente, el producto de un gen puede favorecer o dificultar la actividad productiva de otro gen. Por otra parte, el producto (A) de un gen sólo es útil biológicamente o es funcionante si coincide en el tiempo y en el espacio con los productos (B, C, D...) de otros genes; si éstos fallan, por mucho (A) que se produzca no realizará su función. Así, pues, la acción de un gen ha de ser analizada de forma global. Este análisis global de la función de un gen es denominada genómica funcional.
Un concepto clave en la genómica funcional es la expresión del genoma para producir el ARN mensajero (mARN) y las consiguientes proteínas. Puesto que el proceso por el que ADN produce el mARN se llama transcripción (figura 1), al mRNA concreto derivado de un ADN se llama tránscrito, y al conjunto de ARN mensajeros presente en una célula como resultado final de los procesos de transcripción, procesamiento y recambio del mARN se llama transcriptoma. Por último, al conjunto de proteínas formadas existente en la célula llamamos proteoma.
El transcriptoma y el genoma son mucho más complejos que el genoma, porque un solo gen puede producir varios mARN (por métodos de corte y empalme del ADN y otros sistemas de procesamiento, ver figura 1). Y a partir de estos mRNAs se forman polipéptidos y proteínas que pueden después ser modificadas y procesadas de modo variable (proteolisis, glucosilación, etc.). A diferencia del genoma, que es idéntico en la mayoría de las células de un organismo, el transcriptoma y el proteoma son muy variables, distintos para cada tipo de células, en respuesta a las influencias del ambiente que los modifica. Son ellos los que determinan la función y el funcionamiento de las células.
Las proteínas son el producto final de la actividad del genoma. De ahí la importancia de conocer sus funciones, sus propiedades y su papel en el complejo funcionamiento de una célula viva. De acuerdo con el Consorcio de Secuenciación del Genoma Humano, se ha establecido una clasificación funcional que categoriza a las proteínas de acuerdo con el componente celular en el que la proteína opera, su función molecular y el proceso biológico en el que participa.
Genoma del ratón
Aunque son varios los genomas que se utilizan de distintas especies para resolver la anotación funcional del genoma humano, el genoma del ratón es el modelo actual de genoma de mamífero más asequible y útil. Existe un grado muy alto de conservación de secuencias codificadoras entre los genes de ratón y del hombre; por este motivo casi todos los genes humanos poseen su homólogo murino fácilmente identificable.
Existen largos segmentos de cromosomas que conservan las mismas secuencias de genes en el ratón y en el hombre (conservación sinténica), de modo que si se identifica y mapea con precisión una región del genoma murino, la información ahí obtenida permite hacer razonables predicciones sobre las regiones ortólogas del genoma humano. Esto ha sido decisivo para profundizar en el análisis del genomadel cromosoma 21 humano, que posee una larga secuencia de genes ortólogos en cromosoma 16 murino.
Alrededor del 80% de las proteínas del ratón poseen ortólogos estrictos 1:1 en el genoma humano, con identidades en su secuencia de aminoácidos que oscilan entre el 70 y el 100%. Naturalmente, existen notables diferencias como no podía ser de otro modo, dadas las enormes diferencias fenotípicas entre las dos especies. Estas diferencias se deben a las divergencias en el contenido de ADN, en las secuencias de genes y proteínas, y sobre todo en la expresión de los genes (incluidos los ortólogos), es decir, en modo en que se procesa el mARN, el uso alternante de promotores, etc. Incluso, aun cuando los genes ortólogos muestran un alto grado de conservación a nivel de expresión de proteína, los patrones de expresión en el espacio y en el tiempo suelen ser muy diferentes.
Pese a estas limitaciones, el análisis del genoma del ratón y de su funcionamiento está siendo pieza fundamental para conseguir la anotación funcional de los genes humanos. En lo que se refiere al cromosoma 21 y sus ortólogos en el ratón, véase el artículo: El cromosoma 21. Anotación funcional.