Cómo hallar la media de un conjunto de datos con frecuencia
La línea horizontal roja de los dos gráficos anteriores indica la “media” o el valor medio de cada conjunto de datos (10 en ambos casos). Las flechas rosas del segundo gráfico indican la dispersión o variación de los valores de los datos con respecto al valor medio. Esto está representado por el valor de la desviación estándar de 2,83 en el caso de DataSet2. Dado que el DataSet1 tiene todos los valores iguales (como 10 cada uno) y no hay variaciones, el valor stddev es cero, y por lo tanto no hay flechas rosas aplicables.
El valor stddev tiene algunas características significativas y útiles que son extremadamente útiles en el análisis de datos. Para una distribución normal, los valores de los datos se distribuyen simétricamente a ambos lados de la media. Para cualquier conjunto de datos con distribución normal, al trazar el gráfico con el stddev en el eje horizontal y el número de valores de datos en el eje vertical, se obtiene el siguiente gráfico.
Trazar y calcular el área no siempre es conveniente, ya que diferentes conjuntos de datos tendrán diferentes valores de media y stddev. Para facilitar un método estándar uniforme para facilitar los cálculos y la aplicabilidad a los problemas del mundo real, se introdujo la conversión estándar a valores Z, que forman parte de la Tabla de Distribución Normal.
Cómo hallar la media de un conjunto de datos estadísticos
Una tabla normal estándar, también llamada tabla normal unitaria o tabla Z,[1] es una tabla matemática para los valores de Φ, que son los valores de la función de distribución acumulativa de la distribución normal. Se utiliza para encontrar la probabilidad de que un estadístico se observe por debajo, por encima o entre los valores de la distribución normal estándar y, por extensión, de cualquier distribución normal. Dado que no se pueden imprimir tablas de probabilidad para cada distribución normal, ya que hay una variedad infinita de distribuciones normales, es una práctica común convertir una normal en una normal estándar y luego utilizar la tabla normal estándar para encontrar las probabilidades[2].
Las distribuciones normales son distribuciones simétricas en forma de campana que son útiles para describir datos del mundo real. La distribución normal estándar, representada por la letra Z, es la distribución normal que tiene una media de 0 y una desviación estándar de 1.
Ejemplo: Para hallar 0,69, uno miraría hacia abajo en las filas para encontrar 0,6 y luego a través de las columnas hasta 0,09, lo que daría una probabilidad de 0,25490 para una tabla acumulativa de la media o 0,75490 para una tabla acumulativa.
Media de una tabla de frecuencias agrupadas
Cuando se dan datos agrupados, no se puede calcular la media con exactitud porque no se sabe cuáles son los valores exactamente (sólo se sabe que están entre ciertos valores). Sin embargo, calculamos una estimación de la media con la fórmula ∑fx / ∑f , donde f es la frecuencia y x es el punto medio del grupo (∑ significa ‘la suma de’).
En este ejemplo, los datos están agrupados. No podrías encontrar la media de la “manera normal” (sumando los números y dividiendo por el número de números) porque no sabes cuáles son los valores. Por ejemplo, sabes que tres personas tienen una altura entre 121 y 130 cm, pero no sabes cuáles son las alturas exactamente. Así que estimamos la media, utilizando “∑fx / ∑f”.
Si tienes n números en un grupo, la mediana es el (n + 1)/2º valor. Por ejemplo, hay 7 números en el ejemplo anterior, así que sustituye n por 7 y la mediana es el (7 + 1)/2º valor = 4º valor. El cuarto valor es 6.
Cómo encontrar la media de un conjunto de datos en Excel
Si los datos están equilibrados (no hay valores perdidos) verás la etiqueta “Medias” en la parte superior de esta tabla que muestra las medias de las celdas, las medias de las filas, las medias de las columnas y la media general. Puede calcular fácilmente los valores usted mismo.
Si los datos están desequilibrados (hay valores que faltan), esta tabla está etiquetada como “Medias predichas (Medias LS)” para las medias de las celdas, filas, columnas y la media general. Estas medias predichas, también conocidas como “LSmeans”, pueden no coincidir con las que usted calcule a mano.
Hay dos maneras de calcular la media de las filas. Una forma sería sumar los cinco valores y dividirlos por cinco. Ese valor (4,4) no es el que informa Prism. Prism promedia los tres valores de la primera columna (4), luego promedia los dos valores de la segunda columna (5), y finalmente promedia esos dos valores, informando 4.5. Esta es la media de LS.
Prism también informa de la SD de cada celda, lo cual es sencillo. También informa de la DE de cada fila y columna, y de la DE de toda la tabla (la gran DE). Estas se calculan promediando primero las réplicas en cada celda y luego calculando la SD de las medias de esas celdas. Si una fila tiene tres columnas de conjunto de datos, cada una con cinco subcolumnas para las réplicas, la n para calcular la SD es 3, no 15.