Bigrama


Bigrama

Bigrama

Los Bigramas son grupos de dos letras, dos sílabas, o dos palabras, y son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.[1] Se trata de un caso especial del N-grama.

Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:

 P(W_n|W_{n-1}) = { P(W_{n-1},W_n) \over P(W_{n-1}) }

Es decir, la probabilidad P() de una palabra Wn < / math > dadalapalabraprecedente < math > Wn − 1 es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras P(Wn − 1,Wn), dividido por la probabilidad de que la palabra precedente.

References

  1. Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Véase también

Obtenido de "Bigrama"

Wikimedia foundation. 2010.

Mira otros diccionarios:

  • N-grama — Un n grama es una subsecuencia de n elementos de una secuencia dada. Los n gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n grama de… …   Wikipedia Español

  • digrama — ► sustantivo masculino 1 LINGÜÍSTICA Conjunto de dos letras con el que se transcribe un solo fonema. 2 Grupo de dos letras, entre los criptógrafos. SINÓNIMO [bigrama] …   Enciclopedia Universal