Un estudio estadístico se desarrolla normalmente en varias etapas:
—recogida de los datos;
—clasificación de los datos en una tabla;
—representación del conjunto o serie de datos en una gráfica o diagrama estadístico;
—caracterización de la serie de datos usando varios parámetros.
Aquí definiremos varios de estos parámetros, como varianza, desviación típica, cuartiles… y utilizaremos el diagrama de caja, un método de representación que nos permite comparar de un vistazo dos conjuntos de datos.
I. Calcular la varianza y la desviación típica
Sea la serie de datos estadísticos de tamaño o dimensión n siguiente:

La media de X es:

.
Llamamos varianza del conjunto de datos X, al número:

También podemos escribir esta expresión como:

.
La desviación típica es el número:

.
Cuando, en vez de tener un valor discreto

, lo que tenemos es un intervalo, las fórmulas son las mismas, pero sustituimos

por el valor central del intervalo, o marca de clase.
Ejemplo:
Estudiamos la edad, X, de los empleados de una empresa. Obtenemos estos valores:

La media de X es:


.
La varianza es:


.
Y la desviación típica es:

.
Nota:
La varianza y la desviación típica miden cómo se distribuyen los valores de X con relación a la media. Son parámetros o medidas de dispersión (mientras que la media y la mediana son parámetros o medidas de centralización, que especifican los valores más representativos de un conjunto de datos).
También podemos hallar la varianza usando la siguiente fórmula:

.
II. Calcular la mediana de un conjunto o serie de datos
La mediana, que representamos por Me, es el número que divide a la serie de datos ordenada por valores crecientes en dos grupos con el mismo peso o cantidad de valores.
Para calcularla, escribimos la lista de todos los valores de la serie ordenados en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Ahora podemos distinguir dos situaciones:
—si la población total n es un número impar, la mediana es el término que ocupa el lugar

;
—si la población total n es un número par, la mediana es el valor central del intervalo formado por los términos que ocupan las posiciones

y

.
Cuando los datos de la serie vienen agrupados en clases o intervalos, podemos determinar gráficamente la mediana, usando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si fuera necesario.
Ejemplo:
Retomamos el ejemplo anterior. Estudiamos X, la edad de los empleados de una empresa. Tenemos:

Hemos incorporado en la tercera columna de la tabla las frecuencias absolutas acumuladas. En esa columna podemos ver que hay 1.050 empleados menores de 35 años y 1.800 menores de 40 años.
La mediana Me, que corresponderá a la frecuencia absoluta acumulada de 1.500, pertenece al intervalo 35 ≤ x < 40.
Tenemos:

Fijémonos en los puntos A(35, 1.050) y B(40, 1.800) que corresponden a los extremos de dicho intervalo .
Buscamos Me, que es la coordenada x o abscisa del punto M situado sobre el segmento AB para el que la coordenada y u ordenada toma el valor 1.500.

y

son vectores que tienen la misma dirección.
Por tanto:

, o

.
III. Hallar los cuartiles de un conjunto de datos
Sea la serie de datos estadísticos X de tamaño n.
El primer cuartil o cuartil inferior, Q1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
El tercer cuartil o cuartil superior, Q3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
El intervalo intercuartiles es el intervalo

.
La diferencia

es la amplitud o rango del intervalo intercuartiles.
Podemos hallar los cuartiles Q1 y Q3 de una forma similar a como hallamos la mediana.
Escribimos una lista con todos los valores de la serie en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Podemos distinguir dos situaciones:
—si

es un número entero p, Q1 es el valor de número de orden p y Q3 es el valor de número de orden 3p;
—si

no es un número entero, Q1 es el valor cuyo número de orden sea una unidad superior a

y Q3 es el valor cuyo número de orden sea una unidad superior a

.
Si la serie viene agrupada en clases o intervalos, podemos determinar gráficamente los cuartiles utilizando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si es necesario.
Ejemplo:
Continuamos con el mismo ejemplo: estamos estudiando la edad X de los empleados de una empresa. Teníamos:

El 25% de 3.000 es 750. Usando las frecuencias absolutas acumuladas, podemos ver que Q1 pertenece al intervalo 30 ≤ x < 35. Obtenemos la gráfica siguiente:

Representemos los puntos A(30, 450) y B(35, 1.050).
Buscamos Q1, que es la coordenada x del punto M sobre la recta AB, cuya coordenada y toma el valor 750.

y

tienen la misma dirección.
Por tanto:

, de donde

.
El 75% de 3.000 es 2.250. Utilizando las frecuencias absolutas acumuladas, podemos ver que 2.250 empleados son menores de 45 años. Por tanto, Q3 es igual a 45.
IV. Parámetros de un conjunto de datos tras una transformación afín (de la forma y = ax + b)
Sea la serie de datos estadísticos de tamaño n:

Se considera la serie de datos estadísticos

, es decir, la serie:

en la que

.
Usando nuestra notación, tenemos que:

;

;

.
Si

son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de X y si

son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de Y, tenemos:

;
si a > 0,

;

;
si a < 0,

;

.
V. Dibujar un diagrama de caja
Para dibujar un diagrama de caja :
—marcamos los valores de la serie estadística sobre un eje horizontal o vertical;
—se coloca el mínimo y el máximo valor de la serie sobre el eje, así como los cuartiles inferior (1er cuartil) y superior (3er cuartil), y la mediana;
—construimos un rectángulo (caja) paralelo al eje, de longitud igual a la amplitud del intervalo intercuartiles, y anchura arbitraria.
Al diagrama de caja se le llama a veces “diagrama de bigotes” o “diagrama de patas”.
Ejemplo:
Retomemos de nuevo el ejemplo en el que estudiábamos la edad de los empleados de una empresa.
El máximo es 55 y el mínimo es 20. La mediana es 38, el cuartil inferior es 32,5 y el cuartil superior es 45. Obtenemos el diagrama de caja siguiente:

Recuerda
Si X es una serie de datos estadísticos:
—La varianza es el número:

.
—La desviación típica es la raíz cuadrada de la varianza:

.
—El cuartil inferior, representado por Q1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
—El cuartil superior, representado por Q3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
—El intervalo intercuartiles es el intervalo

.
Estadística
Calcular frecuencias acumuladas
Calcular frecuencias relativas acumuladas
Calcular frecuencias relativas
Calcular la media de una serie de datos
Calcular la media y el recorrido de una serie de datos
Calcular la mediana de una serie de datos
Estadística conceptos
Estadística
Frecuencia y muestreo
Representar datos estadísticos
Media mediana moda y distribución de una serie de datos
La estadística es una disciplina de las matemáticas que se encarga de recopilar, organizar, analizar e interpretar datos con el objetivo de obtener información significativa. Es una herramienta esencial en la toma de decisiones, la investigación y el estudio de fenómenos en diversas áreas. A continuación, profundizaremos en algunos conceptos clave de la estadística:
- Población: Es el conjunto total de elementos que estamos estudiando y sobre los cuales queremos obtener información. Por ejemplo, si investigamos la altura de todos los árboles en un bosque, la población sería el conjunto de todos los árboles.
- Muestra: Es un subconjunto representativo de la población. En muchas ocasiones, es más práctico o viable recopilar datos de una muestra en lugar de toda la población. La muestra debe ser seleccionada cuidadosamente para que refleje de manera precisa las características de la población.
- Variable: Es una característica o atributo que se mide en cada elemento de la población o muestra. Las variables pueden ser cuantitativas (valores numéricos) o cualitativas (categorías o etiquetas).
- Datos: Son los valores obtenidos al medir o registrar las variables en cada elemento de la muestra o población. Los datos pueden ser numéricos o cualitativos.
- Estadísticos descriptivos: Son técnicas utilizadas para resumir y describir los datos de manera concisa. Incluyen medidas de tendencia central, como la media, la mediana y la moda, así como medidas de dispersión, como la desviación estándar y el rango.
- Distribución de frecuencias: Es una tabla que muestra la cantidad de veces que aparece cada valor o intervalo de valores en un conjunto de datos. Esto nos permite visualizar cómo están distribuidos los datos.
- Probabilidad: Es una rama de la estadística que se ocupa de medir la posibilidad de que ocurra un evento particular. Se utiliza en situaciones de incertidumbre y es fundamental en el estudio de la inferencia estadística.
- Inferencia estadística: Es el proceso de hacer predicciones o tomar decisiones sobre la población basándonos en información obtenida de la muestra. La inferencia estadística es útil cuando no es posible estudiar toda la población y se necesita generalizar los resultados de la muestra.
- Regresión y correlación: Son técnicas estadísticas que se utilizan para estudiar la relación entre dos o más variables y para hacer predicciones basadas en esas relaciones.
La estadística es una herramienta esencial en una amplia gama de campos, como la ciencia, la economía, la sociología, la medicina, la educación y muchos otros. Su aplicación nos permite obtener conocimientos significativos y tomar decisiones informadas a partir de los datos.