Arquitectura de red neuronal superficial multicapa

En este tema se presenta parte de un flujo de trabajo de una red superficial multicapa típica. Para obtener más información y otros pasos, consulte Redes neuronales superficiales multicapa y entrenamiento de retropropagación.

Modelo de neurona (logsig, tansig, purelin)

A continuación se muestra una neurona elemental con R entradas. Cada entrada está ponderada con un peso w apropiado. La suma de las entradas ponderadas y el sesgo forman la entrada a la función de transferencia f. Las neuronas pueden utilizar cualquier función de transferencia diferenciable f para generar su salida.

Schematic diagram of a general neuron. The neuron multiplies a input vector p by a weights vector w, sums the result, and applies a bias b. A transfer function f is then applied, generating output a.

Las redes multicapa a menudo usan la función de transferencia sigmoide logarítmica logsig.

A plot of the log-sigmoid transfer function. For large positive inputs, the output tends to +1. For large negative inputs, the output tends to 0. An input of 0 gives an output of 0.5.

La función logsig genera salidas entre 0 y 1 cuando la entrada combinada de la neurona pasa de infinito negativo a positivo.

De forma alternativa, las redes multicapa pueden usar la función de transferencia sigmoide tangencial tansig.

A plot of the tan-sigmoid transfer function. For large positive inputs, the output tends to +1. For large negative inputs, the output tends to -1. An input of 0 gives an output of 0.

Las neuronas de salida sigmoides se utilizan a menudo para problemas de reconocimiento de patrones, mientras que las neuronas de salida lineales se utilizan para problemas de ajuste de funciones. A continuación se muestra la función de transferencia lineal purelin.

A plot of the linear transfer function. The output scales linearly with the input.

Las tres funciones de transferencia que se describen aquí son las que se utilizan con más frecuencia en redes multicapa, pero si se desea, se pueden crear y utilizar otras funciones de transferencia diferenciables.

Red neuronal prealimentada

A continuación se muestra una red de una sola capa de S neuronas logsig que tienen entradas R con todo detalle a la izquierda y con un diagrama de capa a la derecha.

Schematic diagram showing a layer containing S logsig neurons.

Las redes prealimentadas a menudo tienen una o varias capas ocultas de neuronas sigmoides seguidas de una capa de salida de neuronas lineales. Varias capas de neuronas con funciones de transferencia no lineales permiten a la red aprender relaciones no lineales entre vectores de entrada y salida. La capa de salida lineal se usa con mayor frecuencia para problemas de ajuste de funciones (o regresión no lineal).

Por otro lado, si desea limitar las salidas de una red (por ejemplo, entre 0 y 1), entonces la capa de salida debe utilizar una función de transferencia sigmoide (como logsig). Esto ocurre cuando la red se utiliza para problemas de reconocimiento de patrones (en los que la red está tomando una decisión).

Para redes multicapa, el número de capa determina el superíndice en la matriz de pesos. La notación apropiada se usa en la red de dos capas tansig/purelin que se muestra a continuación.

A schematic diagram of a network containing two layers. A hidden layer receives an input vector p. The weights of the hidden layer are denoted with a superscript 1. An output layer receives the output of the hidden layer. The weights of the output layer are denoted with a superscript 1.

Esta red se puede usar como un aproximador de función general. Puede aproximar cualquier función con un número finito de discontinuidades de manera arbitrariamente precisa, siempre y cuando tenga suficientes neuronas en la capa oculta.

Ahora que se ha definido la arquitectura de la red multicapa, el proceso de diseño se describe en las secciones siguientes.