Regresión lineal múltiple en r
Dentro de un modelo de regresión múltiple, es posible que queramos saber si una determinada variable x está haciendo una contribución útil al modelo. Es decir, dada la presencia de las otras variables x en el modelo, ¿una determinada variable x nos ayuda a predecir o explicar la variable y? Por ejemplo, supongamos que tenemos tres variables x en el modelo. La estructura general del modelo podría ser
Si la hipótesis nula anterior fuera el caso, entonces un cambio en el valor de \_{1}{}no cambiaría y, por lo que y y \_{1}{1}{}no están linealmente relacionados. Además, todavía nos quedaría que las variables \(x_{2}\) y \(x_{3}\) están presentes en el modelo. Cuando no podemos rechazar la hipótesis nula anterior, debemos decir que no necesitamos la variable \(x_{1}} en el modelo dado que las variables \(x_{2}} y \(x_{3}} permanecerán en el modelo. En general, la interpretación de una pendiente en la regresión múltiple puede ser complicada. Las correlaciones entre los predictores pueden cambiar drásticamente los valores de la pendiente de lo que serían en regresiones simples separadas.
Regresión múltiple a mano
llamados coeficientes de regresión. Los valores se asignan a las b’s basándose en el principio de los mínimos cuadrados.¿Qué es el principio de los mínimos cuadrados? En la regresión múltiple, la desviación del valor real de una variable dependiente con respecto a su valor predicho se denomina
para todas las n observaciones se minimice. Es decir, queremos que el siguiente valor sea lo más pequeño posible:Σ [ yi – ( b0 + b1x1i + b2x2i + … + bkxki ]2El análisis de regresión requiere que los valores de b0, b1, … , bk se definan para minimizar
de ecuaciones lineales. Para ilustrar el uso de las ecuaciones normales, analicemos la regresión lineal simple, es decir, la regresión con una variable dependiente (y) y una variable de tipo “y”.
En la próxima lección abordaremos este reto.Comprueba tu comprensiónProblema 1¿Cuál de las siguientes afirmaciones es verdadera?I. Una ecuación de regresión con k variables independientes tiene k coeficientes de regresión.II. Los coeficientes de regresión (bo, b1, b2, etc.) son variables en la ecuación de regresión.III. El principio de mínimos cuadrados exige minimizar la suma de los residuos al cuadrado.(A) Sólo I.(B) Sólo II.(C) Sólo III.(D) Todas las anteriores.(E) Ninguna de las anteriores.SoluciónLa respuesta correcta es (C). El principio de mínimos cuadrados define los coeficientes de regresión que minimizan la suma de los residuos al cuadrado.
Ejemplo de regresión multivariante
Observe que tenemos k variables independientes y una pendiente para cada una. Todavía tenemos un error y un intercepto. De nuevo queremos elegir las estimaciones de a y b para minimizar la suma de errores cuadrados de predicción. La ecuación de predicción es:
En este punto, debería notar que todos los términos del caso de una variable aparecen en el caso de dos variables. En el caso de dos variables, la otra variable X también aparece en la ecuación. Por ejemplo, X2 aparece en la ecuación de b1. Observe que los términos correspondientes a la varianza de ambas variables X aparecen en las pendientes. Observe también que un término correspondiente a la covarianza de X1 y X2 (suma de productos cruzados de desviación) también aparece en la fórmula de la pendiente.
Este gráfico no lo muestra muy bien, pero el problema de regresión puede considerarse como una especie de problema de superficie de respuesta. ¿Cuál es la altura esperada (Z) en cada valor de X e Y? La solución de regresión lineal a este problema en esta dimensionalidad es un plano.
Al igual que en la regresión simple, se considera que la variable dependiente tiene una parte lineal y un error. En la regresión múltiple, la parte lineal tiene más de una variable X asociada. Cuando hacemos una regresión múltiple, podemos calcular la proporción de la varianza debida a la regresión. Esta proporción se llama R-cuadrado. Utilizamos una R mayúscula para mostrar que es una R múltiple en lugar de una sola variable r. También podemos calcular la correlación entre Y e Y’ y elevarla al cuadrado. Si lo hacemos, también encontraremos el R-cuadrado.
Supuestos de regresión múltiple
Como su nombre indica, la regresión múltiple es una técnica estadística que se aplica a conjuntos de datos dedicados a extraer una relación entre una respuesta o variable dependiente y múltiples variables independientes. De la definición se desprende que en el estudio de un evento o fenómeno habrá varios factores que causen su aparición. La regresión múltiple funciona considerando los valores de las múltiples variables independientes disponibles y prediciendo el valor de una variable dependiente. Ejemplo: Un investigador decide estudiar el rendimiento de los alumnos de una escuela durante un periodo de tiempo. Observa que, a medida que las clases se imparten en línea, el rendimiento de los alumnos empieza a disminuir también. Los parámetros de la variable dependiente “disminución del rendimiento” son diversas variables independientes como “falta de atención, mayor adicción a Internet, descuido de los estudios” y mucho más.
En el caso de la regresión lineal, aunque se utiliza habitualmente, se limita a una sola variable independiente y a una variable dependiente. Además, la regresión lineal se limita al conjunto de datos de entrenamiento y no predice una regresión no lineal. Por las mismas limitaciones y para cubrirlas, utilizamos la regresión múltiple. Se centra en superar una limitación particular y es permitir analizar más de una variable independiente.