Medidas de tendencia central
Las medidas de tendencia central son conceptos importantes en estadística que nos ayudan a encontrar el valor central o típico en un conjunto de datos. Estas medidas nos dan una idea de dónde se encuentran la mayoría de los valores en un conjunto de datos. Se utilizan ampliamente para resumir datos y son útiles en una variedad de campos, incluyendo economía, educación y atención médica.
Las tres principales medidas de tendencia central son la media, la mediana y la moda. Cada medida tiene diferentes propósitos y puede ser más apropiada para ciertos tipos de datos que para otros.
Media
La media es la medida de tendencia central más utilizada. A menudo se denomina simplemente "el promedio." La media se calcula sumando todos los números en un conjunto de datos y luego dividiendo por la cantidad de valores en el conjunto de datos. Esto es especialmente útil al tratar con datos sin valores extremos (valores atípicos).
Media = (suma de todos los valores en el conjunto de datos) / (cantidad de valores en el conjunto de datos)
Consideremos un ejemplo:
Imagina que tenemos el siguiente conjunto de datos que muestra las calificaciones de los estudiantes en una prueba de matemáticas:
Calificaciones: 78, 85, 90, 95, 100
Para calcular la media de las calificaciones, primero sumamos todas las calificaciones:
Total = 78 + 85 + 90 + 95 + 100 = 448
A continuación, dividimos el total por la cantidad de calificaciones presentes. En este caso, hay 5 calificaciones:
Media = 448 / 5 = 89.6
La calificación promedio para este grupo de estudiantes es 89.6.
Ejemplo visual
En este ejemplo visual, cada círculo de color representa una de las calificaciones. La línea discontinua representa la media, que es la posición promedio de todos los puntos de datos.
Mediana
La mediana es el número medio en una lista ordenada, ascendente o descendente, de números. Si el número total de valores es impar, la mediana es el número del medio. Si es par, es el promedio de los dos números del medio. La mediana es útil para determinar el centro de un conjunto de datos cuando se trata con valores atípicos o datos sesgados.
Consideremos el mismo conjunto de calificaciones:
Calificaciones: 78, 85, 90, 95, 100
Para encontrar la mediana, ordenamos los números y encontramos la calificación del medio:
En orden: 78, 85, 90, 95, 100 Mediana = 90 (tercer número en un conjunto de cinco)
Si añadimos una calificación más, digamos 82, el nuevo conjunto de datos será:
Calificaciones: 78, 82, 85, 90, 95, 100
Como tenemos seis números, tomamos el promedio de los dos números del medio, 85 y 90:
Mediana = (85 + 90) / 2 = 87.5
Ejemplo visual
Aquí, la línea discontinua representa la posición de la mediana, y la muestra como la línea central que divide todos los datos.
Moda
La moda es el valor que aparece con más frecuencia en un conjunto de datos. Un conjunto de datos puede tener una moda, más de una moda o no tener moda. La moda es particularmente útil en datos cualitativos, donde observamos las frecuencias de las categorías.
Veamos un ejemplo:
Datos: 5, 8, 9, 8, 10, 15, 8, 22
Aquí, el número 8 aparece con más frecuencia. Entonces, la moda de este conjunto de datos es 8.
Agreguemos algunos números más para hacerlo más complicado:
Datos: 5, 8, 9, 8, 10, 9, 15, 8, 9, 22
En este nuevo conjunto de datos, los números 8 y 9 aparecen con mayor frecuencia. Esto significa que el conjunto de datos es bimodal, con dos modas: 8 y 9.
Ejemplo visual
En la visualización, los círculos más grandes representan las modas del conjunto de datos. Estos son los valores que aparecen con más frecuencia dentro del conjunto.
En el análisis estadístico, es importante entender cuándo usar cada medida de tendencia central. Cada medida revela diferentes aspectos de los datos. Elegir la medida correcta puede depender de la naturaleza de los datos que se analizan y de los conocimientos específicos que se necesitan.
Comparación entre media, mediana y moda
Cada medida de tendencia central tiene sus propias fortalezas y debilidades:
- Media: Mejor para datos sin valores atípicos y proporciona un promedio verdadero. Sin embargo, puede verse muy afectada por valores atípicos.
- Mediana: Ideal para distribuciones sesgadas o datos ordinales, ya que no se ve afectada por valores extremos.
- Moda: Útil para identificar los ítems que ocurren con más frecuencia en datos categóricos y puede ayudar a entender la forma de la distribución de los datos.
Consideremos un ejemplo de valores atípicos:
Considera el siguiente conjunto de datos:
Datos: 2, 4, 4, 4, 5, 7, 9, 70
La mayoría de los números van del 2 al 9, pero hay una excepción (70) que es mucho mayor que los otros números.
Cálculo de la Media:
Media = (2 + 4 + 4 + 4 + 5 + 7 + 9 + 70) / 8 = 13.1
El promedio es 13.1, lo cual no refleja el valor típico en el conjunto de datos debido al valor atípico de 70.
Para calcular la mediana, primero ordenamos los datos:
2, 4, 4, 4, 5, 7, 9, 70 Como hay 8 valores, la mediana es (4 + 5) / 2 = 4.5
La media de 4.5 representa mejor el valor central de estos datos, que no se ve afectado por los valores atípicos.
Moda:
El valor que aparece con más frecuencia es 4.
En este caso, la moda es útil para indicar la ocurrencia más común.
Elegir la mejor solución
Elegir la medida de tendencia central correcta depende de la naturaleza de los datos y de las preguntas específicas que desees responder:
- Si no hay valores atípicos: La media puede ser una buena opción.
- Si los datos están sesgados: La mediana suele ser más precisa.
- Si los datos son categóricos o discretos y contienen puntos de datos repetidos: La moda puede proporcionar información importante.
En resumen, la media, la mediana y la moda son herramientas poderosas para resumir datos. Cada una tiene sus propias fortalezas que la hacen apropiada para diferentes situaciones. Al entender estas diferencias y practicar con los datos, puedes decidir qué medida usar para un análisis de datos más robusto.