Clasificador lineal

Clasificador lineal

En el campo del aprendizaje automático, el objetivo del aprendizaje supervisado es usar las características de un objeto para identificar a qué clase (o grupo) pertenece. Un clasificador lineal logra esto tomando una decisión de clasificación basada en el valor de una combinación lineal de sus características. Las características de un objeto son típicamente presentadas en un vector llamado vector de características.

Definición

Si la entrada del clasificador es un vector de características reales \vec x, entonces el resultado de salida es

y = f(\vec{w}\cdot\vec{x}) = f\left(\sum_j w_j x_j\right),

donde \vec w es un vector real de pesos y f es una función que convierte el producto punto a punto de los dos vectores en la salida deseada. El vector de pesos \vec w aprende de un conjunto de muestras de entrenamiento. A menudo f es una función simple que mapea todos los valores por encima de un cierto umbral a la primera clase y el resto a la segunda clase. Una f más compleja puede dar la probabilidad de que una muestra pertenezca a cierta clase.

Para un problema de dos clases, se puede visualizar la operación de un clasificador lineal como una partición del espacion de alta dimensionalidad de entrada con un hiperplano: todos los puntos a un lado del hiperplano son clasificados como "sí", mientras que los demás son clasificados como "no".

Los clasificadores lineales se suelen usar en situaciones donde la velocidad de la clasificación es importante, ya que a menudo es el clasificador más rápido, especialmente cuando \vec x es disperso. Sin embargo, los árboles de decisión pueden ser más rápidos. Además, los clasificadores lineales con frecuencia funcionan muy bien cuando el número de dimensiones de \vec x es grande, como en clasificación de documentos, donde típicamente cada elemento en \vec x es el número de apariciones de una palabra en un documento. En tales casos, el clasificador debe estar bien regularizado.

Generative models vs. discriminative models

Hay dos tipos de clases de métodos para determinar los parámetros de un clasificador lineal \vec w.[1] [2] Métodos de la primera clase conditional density functions P(\vec x|{\rm class}). Ejemplos de tales algoritmos incluyen:

  • Linear Discriminant Analysis (or Fisher's linear discriminant) (LDA)—assumes Gaussian conditional density models
  • Naive Bayes classifier—assumes independent binomial conditional density models.

The second set of methods includes discriminative models, which attempt to maximize the quality of the output on a training set. Additional terms in the training cost function can easily perform regularization of the final model. Examples of discriminative training of linear classifiers include

  • Logistic regression—maximum likelihood estimation of \vec w assuming that the observed training set was generated by a binomial model that depends on the output of the classifier.
  • Perceptrón—an algorithm that attempts to fix all errors encountered in the training set
  • Support vector machine—an algorithm that maximizes the margin between the decision hyperplane and the examples in the training set.

Note: Despite its name, LDA does not belong to the class of discriminative models in this taxonomy. However, its name makes sense when we compare LDA to the other main linear dimensionality reduction algorithm: Principal Components Analysis (PCA). LDA is a supervised learning algorithm that utilizes the labels of the data, while PCA is an unsupervised learning algorithm that ignores the labels. To summarize, the name is a historical artifact (see,[3] p.117).

Discriminative training often yields higher accuracy than modeling the conditional density functions. However, handling missing data is often easier with conditional density models.

All of the linear classifier algorithms listed above can be converted into non-linear algorithms operating on a different input space \varphi(\vec x), using the kernel trick.

Notas

  1. T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005 download
  2. A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002. download
  3. R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3

See also:

  1. Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pgs. 42-49, (1999). paper @ citeseer
  2. R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X

Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Regresión logística — Saltar a navegación, búsqueda En estadística, la regresión logística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. Es útil para modelar la probabilidad de un evento ocurriendo como función de… …   Wikipedia Español

  • Diagrama de tiempos — Saltar a navegación, búsqueda Un diagrama de tiempos o cronograma es una gráfica de formas de onda digitales que muestra la relación temporal entre varias señales, y cómo varía cada señal en relación a las demás. Un cronograma puede contener… …   Wikipedia Español

  • Red neuronal artificial — perceptrón simple con n neuronas de entrada, m neuronas en su capa oculta y una neurona de escape. Las redes de neuronas artificiales (denominadas habitualmente como RNA o en inglés como: ANN [1] ) so …   Wikipedia Español

  • Falsos amigos — Anexo:Falsos amigos Saltar a navegación, búsqueda Los falsos amigos son palabras que pueden escribirse o tener una pronunciación similar en dos o más idiomas, pero en realidad significan conceptos diferentes, debido a sus distintas etimologías, o …   Wikipedia Español

  • Anexo:Falsos amigos — Los falsos amigos son palabras que, a pesar de tener significados diferentes, pueden escribirse o pronunciarse de una manera similar en dos o más idiomas. Lo anterior puede deberse tanto a distintas etimologías como a un cambio en el significado… …   Wikipedia Español

  • Lego Mindstorms — con tres sensores (tacto, luz y rotación) y un motor eléctrico …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”