La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus variables asociadas están relacionadas. Por otro lado, no en el conjunto de datos no existen ejemplos en los que esas variables se mueven independientemente. Lo que nos lleva a unos parámetros con menor p-valor. En esta entrada vamos a ver cómo solucionar la multicolinealidad con VIF (Factor de Inflación de Varianza, del inglés "Variance Inflation Factor").
Factor de Inflación de Varianza
El Factor de Inflación de Varianza (VIF, del inglés "Variance Inflation Factor") de una variable independiente es en un valor que indica el grado de indecencia de esa variable. Para obtener el VIF en primer lugar ha de calcular la regresión lineal de una variable independiente frente a resto de variables independientes. Posteriormente se usa el R^2 de esta regresión para obtener el VIF de esta variable
VIF = \frac{1}{1-R^2}
Al fijarnos en la definición de VIF podemos ver que una variable independiente es realmente independiente del resto si el valor de VIF es igual a la unidad. Esto es el valor de R^2 es cero. Por otro lado, si el valor tiende a infinito la variable no es independiente, sino que se puede calcular a partir del resto de variables independientes.
Utilizar VIF para solucionar la multicolinealidad
Una vez obtenido el valor de VIF para cada una de las variables independientes de un conjunto de datos es posible identificar las variables más dependientes y eliminarlas. El proceso que se debería seguir para solucionar la multicolinealidad con VIF es:
- Obtener el VIF para todas las variables independientes
- Identificar la que tiene el valor máximo de VIF, solamente una, aunque existan dos o más con el mismo valor
- Si esta variable supera un valor umbral, por ejemplo 5, eliminarla y volver al punto 1. En caso contrario se termina el proceso.
Es importante eliminar únicamente una variable en cada paso, ya que en caso contrario se podría eliminar todas las variables relacionadas. Por ejemplo, si tenemos una variable que es dos veces otra, en tal caso ambas tendrán un valor de VIF que tiende a infinito, ya que el R^2 es igual a uno. Si eliminamos ambas se eliminan todas las ocurrencias de esa variable, que no es lo que se desea.
Los valore umbrales típicos que se suelen utilizara son entre 5 y 10, siendo más exigentes los valore más bajos.
Implementación en Python
La eliminación de características se puede implementar fácilmente en Python, solamente hay que importar LinearRegression
de Scikit Learn. En primer lugar, se tiene que hacer un método para calcular el VIF al que se le debe de pasar las variables independientes y las columnas a probar. Una función que puede devolver un vector con los valores de VIF.
Una vez se crea esta función simplemente se tiene que implementar un bucle while
que elimine las características con mayor valor de VIF siempre que esta supere el límite marcado. Esto es lo que se muestra en el siguiente ejemplo.
from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression def calculate_vif(X, used_cols): VIF = [] for col in used_cols: cols = used_cols.copy() cols.remove(col) model = LinearRegression().fit(X[:, cols], X[:, col]) VIF.append(1 / (1 - model.score(X[:, cols], X[:, col]))) return VIF X, y = load_boston(return_X_y=True) max_vif = 5 used_cols = list(range(X.shape[1])) VIF = calculate_vif(X, used_cols) while max(VIF) > max_vif: col = VIF.index(max(VIF)) print('Elimina columna:', used_cols[col], 'con VIF', max(VIF)); used_cols.pop(col) VIF = calculate_vif(X, used_cols)
En este caso se ha importado los datos de Boston que existe en Scikit Learn. Una vez aplicado el método se puede ver que se ha eliminado la columna 9 que tiene un valor de VIF cercano a 9. Una vez elimina esta columna ya no es necesario eliminar más.
En este ejemplo se ha de notar que en la primera iteración hay dos columnas con VIF que supera el límite de 5. La columna 8, con un valor de 7 y la 9 con un valor de 9. Al eliminar la columna 9 la columna 8 ya es independiente. Lo que refuerza lo que se ha comentado, solamente se tiene que eliminar una variable en cada iteración.
Conclusiones
En esta entrada se ha visto un método para solucionar la multicolinealidad con VIF. Siendo la multicolinealidad un problema que afecta negativamente al rendimiento de los modelos de regresión. Por lo que si sabemos como identificar y eliminar la variables en las que existe multicolinealidad podremos evitar los efectos no deseados.
Publicidad