Algoritmo Needleman-Wunsch


Algoritmo Needleman-Wunsch

El algoritmo de Needleman-Wunsch sirve para realizar alineamientos globales de dos secuencias. Se suele utilizar en el ámbito de la bioinformática para alinear secuencias de proteínas o de ácidos nucleicos. Fue propuesto por primera vez en 1970, por Saul Needleman y Christian Wunsch. Se trata de un ejemplo típico de programación dinámica. El algoritmo funciona del mismo modo independientemente de la complejidad o longitud de las secuencias y garantiza la obtención del mejor alineamiento.[1]

Las dos secuencias a alinear, llamadas A y B en los ejemplos, de longitud | A | = m y | B | = n, están formadas por elementos de un alfabeto finito de símbolos. El algoritmo necesita saber qué símbolos son diferentes entre sí y cuáles son iguales. Podemos utilizar una matriz cuadrada (S) para este propósito, en la que cada elemento Sij indique la similitud entre los elementos i y j del alfabeto usado. Si nuestro alfabeto de símbolos no fuese finito, en vez de una matriz podríamos usar una función R^2 \rightarrow R que tuviese como parámetros ambos símbolos a comparar y cuya salida fuese la similitud entre ambos. También se necesita otro parámetro (d) que nos indique cómo vamos a valorar que un símbolo no quede alineado con otro y que en su lugar se utilice un hueco.

Por ejemplo podemos definir la siguiente matriz:


\begin{array}{ccccc}
- & A & G & C & T \\
A & 10 & -1 & -3 & -4 \\
G & -1 & 7 & -5 & -3 \\
C & -3 & -5 & 9 & 0 \\
T & -4 & -3 & 0 & 8 \end{array}

Y entonces el siguiente alineamiento:

AGACTAGTTAC
CGA---GACGT

con una penalización por hueco de d = − 5 nos devolvería como solución óptima:

S(A,C) + S(G,G) + S(A,A) + 3\times d + S(G,G) + S(T,A) + S(T,C) + S(A,G) + S(C,T) = -3 + 7 + 10 - 3\times 5 + 7 + -4 + 0 + -1 + 0 = 1

Para determinar la puntuación óptima y poder reconstruir el alineamiento que devolvería esa puntuación se necesita otra matriz, F, que almacena los resultados parciales de cada posible alineamiento. Las dimensiones de la matriz F son el número de elementos en la secuencia A y el de B ( | A | x | B | ).


En cada iteración del algoritmo recibe valor un elemento de la matriz F. El valor que recibe el elemento Fij representa la puntuación obtenida al alinear de forma óptima los primeros i elementos de A y los primeros j de B. Cuando el algoritmo termine, el último elemento de F (Fmn, con m = | A | y n = | B | ) contendrá la puntuación para el alineamiento óptimo de ambas secuencias.

  Inicio del algoritmo:
  F0j = d * j
  Fi0 = d * i
  Recursión para obtener el siguiente elemento de forma óptima:
  Fij = max(Fi − 1,j − 1 + S(Ai,Bj),Fi,j − 1 + d,Fi − 1,j + d)

La matriz F se calcula con el siguiente algoritmo:

   for i=0 to length(A)-1
     F(i,0) <- d*i
   for j=0 to length(B)-1
     F(0,j) <- d*j
   for i=1 to length(A)
     for j = 1 to length(B)
     {
       Choice1 <- F(i-1,j-1) + S(A(i), B(j))
       Choice2 <- F(i-1, j) + d
       Choice3 <- F(i, j-1) + d
       F(i,j) <- max(Choice1, Choice2, Choice3)
     }

Cuando el algoritmo acaba tenemos calculada la matriz F; el resultado es la puntuación devuelta por el mejor alineamiento posible, de acuerdo a los parámetros que hemos definido. Para obtener la secuencia se necesita ejecutar el siguiente algoritmo, que hace uso de la matriz F. Este algoritmo comienza por el último elemento, Fmn, y va retrocediendo hasta llegar a un elemento de la primera fila o la primera columna de F. En cada paso se comparan 3 elementos de F para ver cuál de ellos es el que se ha seguido en la solución óptima. Para cada Fij debemos comparar Fi − 1,j,Fi,j − 1 y Fi − 1,j − 1. Si el elemento usado es Fi − 1,j, entonces Ai se ha alineado con un hueco; si es Fi,j − 1, entonces Bi se ha alineado con un hueco; y si no, si el elemento elegido es Fi − 1,j − 1, los elementos Ai y Bi han sido alineados. Es importante destacar que el que dos elementos sean alineados no implica necesariamente que sean iguales; significa que entre esa posibilidad, alinear con huecos o alinear símbolos diferentes, esa era la mejor opción. El pseudo-algoritmo que permite obtener el alineamiento correcto es el siguiente:

   AlignmentA <- ""
   AlignmentB <- ""
   i <- length(A) - 1
   j <- length(B) - 1
   while (i > 0 AND j > 0)
   {
     Score <- F(i,j)
     ScoreDiag <- F(i - 1, j - 1)
     ScoreUp <- F(i, j - 1)
     ScoreLeft <- F(i - 1, j)
     if (Score == ScoreDiag + S(A(i), B(j)))
     {
       AlignmentA <- A(i-1) + AlignmentA
       AlignmentB <- B(j-1) + AlignmentB
       i <- i - 1
       j <- j - 1
     }
     else if (Score == ScoreLeft + d)
     {
       AlignmentA <- A(i-1) + AlignmentA
       AlignmentB <- "-" + AlignmentB
       i <- i - 1
     }
     otherwise (Score == ScoreUp + d)
     {
       AlignmentA <- "-" + AlignmentA
       AlignmentB <- B(j-1) + AlignmentB
       j <- j - 1
     }
   }
   while (i > 0)
   {
     AlignmentA <- A(i-1) + AlignmentA
     AlignmentB <- "-" + AlignmentB
     i <- i - 1
   }
   while (j > 0)
   {
     AlignmentA <- "-" + AlignmentA
     AlignmentB <- B(j-1) + AlignmentB
     j <- j - 1
   }

Se puede demostrar formalmente que tanto el tiempo de ejecución como el espacio necesario para ejecutar el algoritmo son de orden O(nm). Para alguna aplicaciones, sobre todo en bioinformática, el requerimiento de espacio es prohibitivo, puesto que se alinean secuencias muy largas. Existe una optimización de este algoritmo, denominada algoritmo de Hirschberg, que sólo necesita espacio del orden O(m+n), pero a costa de incrementar el tiempo de computación.

Sitios externos

Véase también

Referencias

  1. Needleman, S.B. and Wunsch, C.D. (1970). «A general method applicable to the search for similarities in the amino acid sequence of two proteins». Journal of molecular biology (Elsevier) 48 (3):  pp. 443-453. 
  • A general method applicable to the search for similarities in the amino acid sequence of two proteins. S.B. Needleman, C.D. Wunsch (1970) J. Mol. Biol. 48(3):443-453.

Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Saul Needleman — Saul B. Needleman es un bioinformático. Junto con Christian Wunsch publicó en 1970 un método para realizar el alineamiento de secuencias de forma global. Este método pasó posteriormente a denominarse algoritmo de Needleman Wunsch. Este método fue …   Wikipedia Español

  • Christian Wunsch — es un bioinformático. Junto con Saul Needleman publicó en 1970 un método para realizar el alineamiento de secuencias de forma global. Este método pasó posteriormente a denominarse algoritmo de Needleman Wunsch. Este método fue el primero en… …   Wikipedia Español

  • Alineamiento de secuencias — Un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales… …   Wikipedia Español

  • Bioinformática — Saltar a navegación, búsqueda La bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.[1] Los términos bioinformática, biología computacional y, en …   Wikipedia Español

  • Distancia de Levenshtein — Saltar a navegación, búsqueda En Teoría de la información y Ciencias de la Computación se llama Distancia de Levenshtein, distancia de edición, o distancia entre palabras, al número mínimo de operaciones requeridas para transformar una cadena de… …   Wikipedia Español

  • Matriz de sustitución — Matriz PAM70 para 23 aminoácidos, calculada con el servicio web del Wageningen University Laboratory of Bioinformatic …   Wikipedia Español

  • Genomica computacional — La Genómica computacional se refiere al uso de análisis computacional para descifrar la biología de las secuencias del genoma y de datos, así como el ADN y la secuencia de ARN, así como otros post genómica de datos (es decir, datos experimentales …   Wikipedia Español