CONCEPTOS ESENCIALES DE ESTADÍSTICA PARA INICIAR EN DATA SCIENCE
Introducción a los conceptos fundamentales de estadística en data science
La estadística constituye la base indispensable para cualquier persona que desee incursionar en el campo del data science. En un mundo donde los datos generan valor en todas las industrias tecnológicas, comprender cómo resumir, interpretar y extraer conclusiones de conjuntos de datos permite tomar decisiones informadas y construir modelos robustos. Este tutorial presenta los conceptos clave de estadística descriptiva, que ayudan a organizar y visualizar información, junto con elementos introductorios de estadística inferencial, esenciales para generalizar resultados en proyectos reales de programación y análisis de datos.
En el contexto actual de 2026, donde el machine learning y la inteligencia artificial dependen cada vez más de interpretaciones estadísticas sólidas, dominar estos fundamentos evita errores comunes como el sobreajuste o la mala interpretación de outliers. A lo largo de este artículo, se explorarán definiciones precisas, ejemplos prácticos y código en Python para ilustrar cada concepto, facilitando su aplicación inmediata en entornos de desarrollo.
Qué es la estadística
La estadística se define como el conjunto de métodos que permiten recolectar, analizar, interpretar y presentar datos de manera numérica o gráfica. Su objetivo principal radica en transformar información cruda en conocimiento accionable.
Se divide en dos ramas principales: la estadística descriptiva, que resume las características de un conjunto de datos, y la estadística inferencial, que permite hacer predicciones o generalizaciones sobre una población a partir de una muestra.
En data science, la estadística descriptiva se utiliza diariamente para explorar datos iniciales, mientras que la inferencial soporta pruebas de hipótesis y validación de modelos. En 2026, con el auge de big data, estas técnicas se integran con herramientas como Pandas y NumPy para procesar volúmenes masivos de información.
Conceptos básicos: sujeto, población, muestra, parámetros y estadísticos
Un sujeto representa la unidad individual de observación, como una persona, un dispositivo o un registro en una base de datos.
La población engloba el conjunto completo de sujetos de interés. Por ejemplo, todos los usuarios de una plataforma web.
Dado que analizar una población completa resulta costoso o imposible, se recurre a una muestra, que es un subconjunto representativo de la población. La selección adecuada de muestras evita sesgos que afectan los resultados en proyectos de data science.
Los parámetros describen características numéricas de la población, como su media o desviación estándar. Por el contrario, los estadísticos son valores calculados a partir de la muestra, como la media muestral.
En práctica, los estadísticos estiman parámetros poblacionales. Aquí un ejemplo en Python para calcular una media muestral:
import numpy as np
datos_muestra = np.array([45, 52, 38, 61, 49, 55])
media_muestral = np.mean(datos_muestra)
print(f"Media muestral: {media_muestral}")
Media muestral: 50.0
Este cálculo simple ilustra cómo un estadístico resume una muestra.
Tipos de datos: cuantitativos y cualitativos
Los datos se clasifican en cuantitativos, que expresan cantidades numéricas, y cualitativos, que representan categorías.
Los datos cuantitativos se subdividen en discretos, contables como el número de visitas a un sitio web, y continuos, medibles como el tiempo de carga de una página.
Los datos cualitativos, también llamados categóricos, incluyen nombres, etiquetas o grupos. En data science, los datos cualitativos requieren codificación especial para algoritmos, como one-hot encoding.
En entornos modernos, bibliotecas como Pandas manejan ambos tipos eficientemente:
import pandas as pd
df = pd.DataFrame({
'edad': [25, 30, 35, 40], # cuantitativo continuo
'genero': ['M', 'F', 'M', 'F'] # cualitativo
})
print(df.dtypes)
edad int64
genero object
dtype: object
Escalas de medición
Las escalas determinan operaciones válidas sobre los datos.
La escala nominal aplica a datos cualitativos sin orden, como colores o tipos de navegador.
La escala ordinal implica orden, como niveles de satisfacción en una encuesta.
La escala de intervalo permite diferencias significativas pero no ratios, como temperaturas en Celsius.
La escala de razón posee punto cero absoluto, permitiendo ratios, como edades o ingresos.
En data science, elegir la escala correcta guía la selección de algoritmos. Por ejemplo, variables ordinales influyen en modelos de regresión ordinal.
Medidas de tendencia central: media, mediana y moda
La media aritmética calcula el promedio sumando valores y dividiendo por el conteo. Sensible a valores extremos.
La mediana identifica el valor central en datos ordenados, resistente a outliers.
La moda representa el valor más frecuente, aplicable a datos categóricos.
En presencia de distribuciones asimétricas, comunes en datos web como tiempos de sesión, la mediana proporciona robustez frente a outliers.
Ejemplo completo en Python:
import numpy as np
from scipy import stats
datos = np.array([10, 12, 12, 15, 100]) # con outlier
print(f"Media: {np.mean(datos)}")
print(f"Mediana: {np.median(datos)}")
print(f"Moda: {stats.mode(datos).mode}")
Media: 29.8
Mediana: 12.0
Moda: 12
Observamos cómo el outlier infla la media, mientras la mediana permanece estable.
Medidas de dispersión: desviación estándar y varianza
La varianza mide el promedio de cuadrados de desviaciones respecto a la media.
La desviación estándar, raíz cuadrada de la varianza, expresa dispersión en unidades originales.
Valores bajos indican datos concentrados alrededor de la media; valores altos sugieren mayor variabilidad.
En data science, la desviación estándar evalúa riesgo en predicciones financieras o estabilidad de métricas de rendimiento.
Cálculo en código:
import numpy as np
datos = np.array([2, 4, 4, 4, 5, 5, 7, 9])
print(f"Varianza: {np.var(datos)}")
print(f"Desviación estándar: {np.std(datos)}")
Varianza: 4.0
Desviación estándar: 2.0
Outliers y su detección
Los outliers son puntos que se desvían significativamente del patrón general. Pueden originarse en errores de medición o fenómenos reales.
Su presencia distorsiona medias y varianzas. Técnicas comunes de detección incluyen el rango intercuartílico (IQR).
Método IQR: valores por debajo de Q1 - 1.5IQR o por encima de Q3 + 1.5IQR se consideran outliers.
En proyectos actuales, bibliotecas como Scikit-learn integran detección automática.
Ejemplo práctico:
import numpy as np
def detectar_outliers_iqr(datos):
q1 = np.percentile(datos, 25)
q3 = np.percentile(datos, 75)
iqr = q3 - q1
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr
return datos[(datos < limite_inferior) | (datos > limite_superior)]
datos = np.array([1, 2, 2, 3, 4, 5, 100])
outliers = detectar_outliers_iqr(datos)
print(f"Outliers detectados: {outliers}")
Outliers detectados: [100]
Visualizaciones clave: histogramas, diagramas de caja y gráficos de barras
Los histogramas muestran distribución de datos numéricos agrupados en intervalos, revelando formas como normal o sesgada.
Los diagramas de caja (boxplots) resumen cuartiles, mediana y outliers visualmente.
Los gráficos de barras representan frecuencias de categorías.
En 2026, herramientas como Matplotlib y Seaborn facilitan estas visualizaciones en pipelines de exploración.
Ejemplo de boxplot:
import matplotlib.pyplot as plt
import seaborn as sns
datos = [1, 2, 3, 4, 5, 6, 7, 8, 9, 50]
sns.boxplot(datos)
plt.title("Diagrama de caja con outlier")
plt.show()
Este código genera un gráfico donde el outlier aparece como punto aislado.
Asociación entre variables cuantitativas
La correlación mide la relación lineal entre dos variables cuantitativas, con valores entre -1 y 1.
Una correlación cercana a 1 indica relación positiva fuerte; cercana a -1, negativa fuerte; cercana a 0, ausencia de relación lineal.
En data science, la correlación guía selección de características antes de entrenar modelos.
Cálculo de correlación de Pearson:
import numpy as np
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])
correlacion = np.corrcoef(x, y)[0, 1]
print(f"Correlación: {correlacion}")
Correlación: 1.0
Aquí observamos correlación perfecta positiva.
Distribución normal y teorema del límite central
La distribución normal, o gaussiana, presenta forma de campana simétrica alrededor de la media.
En ella, aproximadamente el 68% de datos cae dentro de una desviación estándar, 95% dentro de dos y 99.7% dentro de tres.
El teorema del límite central establece que la distribución de medias muestrales tiende a normal independientemente de la distribución original, siempre que el tamaño muestral sea suficiente (generalmente mayor a 30).
Este teorema justifica el uso de pruebas paramétricas en data science actual.
Simulación rápida:
import numpy as np
import matplotlib.pyplot as plt
medias = [np.mean(np.random.uniform(0, 1, 1000)) for _ in range(10000)]
plt.hist(medias, bins=50)
plt.title("Distribución de medias muestrales (TLC)")
plt.show()
El histograma resultante aproxima una normal.
Introducción a conceptos inferenciales básicos
La estadística inferencial permite estimar parámetros poblacionales y probar hipótesis.
Conceptos clave incluyen intervalos de confianza, que proporcionan rangos probables para parámetros, y valores p, que miden evidencia contra una hipótesis nula.
En machine learning moderno, estos elementos validan significancia de coeficientes en regresiones.
Ejemplo de intervalo de confianza para media:
import scipy.stats as stats
import numpy as np
datos = np.random.normal(50, 10, 100)
media = np.mean(datos)
error = stats.sem(datos)
intervalo = stats.t.interval(0.95, len(datos)-1, loc=media, scale=error)
print(f"Intervalo 95%: {intervalo}")
Intervalo 95%: (47.892, 52.108) # valores aproximados
Conclusiones
Dominar estos conceptos de estadística proporciona una base sólida para avanzar en data science y programación relacionada con datos. Desde resumir información con medidas descriptivas hasta interpretar distribuciones y correlaciones, estas herramientas permiten analizar datos de manera rigurosa y evitar interpretaciones erróneas.
En el panorama tecnológico de 2026, donde los modelos predictivos y el análisis en tiempo real dominan, aplicar correctamente media, mediana, desviación estándar y detección de outliers marca la diferencia entre proyectos exitosos y fallidos. La integración con Python facilita su implementación diaria.
Continuar explorando estadística inferencial avanzada, como pruebas de hipótesis detalladas y regresión, complementa estos fundamentos y abre puertas a técnicas de machine learning más complejas. La práctica constante con datasets reales consolida este conocimiento esencial.