Predicción de la estructura de las proteínas

La predicción de la estructura de las proteínas es la predicción o cálculo de la estructura tridimensional de una proteína desde su secuencia de aminoácidos, es decir, la predicción de sus estructuras secundaria y terciaria desde su estructura primaria. La predicción de la estructura es fundamentalmente diferente del problema inverso del diseño de proteínas. Es uno de los principales objetivos de la bioinformática y de la química teórica, y altamente importante en medicina (en diseño de fármacos, por ejemplo) y biotecnología (en el diseño de nuevas enzimas, por ejemplo).

Existen dos estrategias básicas para aproximarse a la predicción de la estructura: la predicción de novo, en la que se suelen utilizar métodos estocásticos; y la predicción por comparación, en la que se recurre a una biblioteca de estructuras previamente conocidas.

Cada dos años se evalúa el rendimiento de los métodos actuales en el experimento CASP (Critical Assessment of Techniques for Protein Structure Prediction, Evaluación Crítica de Técnicas para la Predicción de la Estructura de las Proteínas).

Estructura secundaria

La predicción de la estructura secundaria es un conjunto de técnicas bioinformáticas cuyo objetivo es predecir la estructura secundaria local de secuencias de proteínas y ARN basándose sólo en el conocimiento de su estructura primaria de aminoácidos o de nucleótidos, respectivamente. Para las proteínas, una predicción consiste en asignar regiones como probables hélices alfa, hebras beta (denominadas a menudo conformaciones “extendidas”), o bucles beta. El éxito de una predicción se determina por su comparación con los resultados de aplicar el algoritmo DSSP (método estándar para asignar una estructura secundaria a los aminoácidos de una proteína dadas sus coordenadas atómicas de resolución) a la estructura cristalina de la proteína. Para ácidos nucleicos, podría determinarse por el patrón de puentes de hidrógeno. Se han desarrollado algoritmos para la detección de patrones específicos bien definidos tales como hélices transmembrana y hélices superenrolladas en las proteínas, o estructuras de microARN en el ARN.[1]

Los mejores métodos modernos de predicción de estructura secundaria en proteínas alcanzan alrededor del 80% de precisión. Tan alto porcentaje permite el uso de las predicciones en el enhebrado de proteínas y la predicción de la estructura proteica ab initio, la clasificación de motivos estructurales, y el refinamiento de los alineamientos de secuencias. La precisión de los métodos actuales de predicción de la estructura secundaria se evalúa en comparaciones ( benchmarks) semanales tales como LiveBench y EVA.

Antecedentes

Los métodos iniciales de predicción de la estructura secundaria, introducidos en la década de los 60 y los primeros 70 del siglo XX,[1] La conservación evolutiva de estructuras secundarias puede ser aprovechada mediante la evaluación simultánea de varias secuencias homólogas en un alineamiento múltiple de secuencias, calculando así la propensión de una secuencia de aminoácidos alineada a formar redes de estructura secundaria.

Conjuntando estos métodos con grandes bases de datos de estructuras proteicas conocidas y con los métodos actuales de aprendizaje automático tales como redes neuronales artificiales y máquinas de soporte vectorial, puede alcanzarse hasta un 80% de precisión en proteínas globulares.[4] debido, en parte, a la idiosincrasia en la asignación del DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían bajo condiciones nativas pero pueden forzarse para asumir una única conformación cristalina debido a las restricciones del empaquetado. También impone restricciones la incapacidad de la predicción de la estructura secundaria de tomar en cuenta la estructura terciaria. Por ejemplo, una secuencia predicha como probable hélice puede ser capaz todavía de adoptar una conformación de hebra beta si está localizada dentro de una región hoja beta de la proteína y sus cadenas laterales encajan bien con sus vecinas. Los cambios conformacionales drásticos relacionados con la función o el entorno de la proteína pueden alterar también la estructura secundaria local.

Método de Chou-Fasman

El método de Chou-Fasman fue uno de los primeros algoritmos desarrollados para la predicción de la estructura secundaria, y se fundamenta predominantemente sobre parámetros de probabilidad determinados por las frecuencias relativas de las apariciones de cada aminoácido en cada tipo de estructura secundaria.[1]

Método GOR

El método GOR, así denominado por los tres científicos que lo desarrollaron (Garnier, Osguthorpe y Robson), es un método basado en la teoría de la información desarrollado no mucho después del Chou-Fasman, y usa técnicas probabilísticas más apropiadas de inferencia bayesiana.[1]

Aprendizaje automático

Los métodos basados en redes neuronales artificiales utilizan conjuntos de entrenamiento cuyos elementos son estructuras resueltas para identificar secuencias motivo comunes asociadas con disposiciones particulares de estructuras secundarias. Estos métodos están sobre el 70% de precisión en sus predicciones, aunque las hebras beta todavía vienen siendo predichas en poca medida debido a la carencia de información estructural tridimensional que pudiera permitir la evaluación de los patrones de puentes de hidrógeno con los que pudiera promoverse la formación de la conformación extendida requerida para la presencia de una hoja beta completa.[1]

Las máquinas de soporte vectorial (MSV) han demostrado ser particularmente útiles en la predicción de las localizaciones de los bucles, que son difíciles de identificar con métodos estadísticos.[8]

Algunas extensiones a las técnicas de aprendizaje automático intentan predecir propiedades locales de granularidad más fina en las proteínas, como los ángulos diedros en determinadas regiones del esqueleto de las proteínas. Se han aplicado a este problema tanto MSVs[10]

Otras mejoras

Además de la secuencia de la proteína, la formación de la estructura secundaria depende de otros factores. Por ejemplo, se sabe que las tendencias en la estructura secundaria dependen también del entorno local,[18]

Los métodos de covarianza sobre la secuencia dependen de la existencia de un conjunto de datos compuesto de múltiples secuencias homólogas de ARN, con secuencias relacionadas pero diferentes. Estos métodos analizan la covarianza de sitios de bases individuales en evolución. Que se mantengan pareados dos sitios de bases de nucleótidos ampliamente separados, indica la presencia entre esas posiciones de un puente de hidrógeno requerido estructuralmente. El problema general de la predicción de un pseudonudo ha demostrado ser NP-completo.[19]

Other Languages