Clase 182 — Intervalos de confianza
Parte: 3 — Estadística Inferencial y Causal · Fuente: ISLP, cap. 5 + Bruce & Bruce, cap. 2 Confidence Intervals. ⏱️ Duración estimada: 70 min.
🎯 Objetivo
Construir e interpretar correctamente intervalos de confianza para media (t-based, z-based, bootstrap) y proporción (Wald, Wilson, Clopper-Pearson), entendiendo que un IC95 % NO significa "95 % de probabilidad de que el parámetro caiga en el intervalo" sino "si repitiéramos el experimento muchas veces, el 95 % de los intervalos construidos contendrían el parámetro". Saber elegir el método según n y la métrica.
📚 Resultados de aprendizaje
Al finalizar, el estudiante podrá:
- Construir un IC para la media usando la distribución t:
x̄ ± t_{α/2, n-1} · (s/√n)conscipy.stats.t.interval. - Construir un IC para la proporción con tres métodos y entender cuándo cada uno falla (Wald falla con
pcerca de 0/1; Wilson y Clopper-Pearson son robustos). - Usar
scipy.stats.bootstrap(≥ 1.7) para IC sin supuestos paramétricos (anticipa Clase 153). - Interpretar correctamente la frase "intervalo de confianza al 95 %" (es una propiedad del procedimiento, no del intervalo específico).
- Relacionar IC y test de hipótesis: si el IC95 % de la diferencia no incluye 0, el test bilateral al α=5 % rechaza
H₀.
🗺️ Temas
- IC para la media (varianza desconocida): t de Student con
n-1gl. - IC para la media (varianza conocida o n grande): z.
- IC para proporción: Wald (
p̂ ± z·√(p̂(1-p̂)/n)) vs Wilson score (recomendado por Agresti & Coull 1998) vs Clopper-Pearson (exacto, conservador). - IC bootstrap percentil (anticipa Clase 153).
- IC del odds ratio, riesgo relativo (medicina/epidemiología).
- Margen de error (ME =
z·SE) y cómo determinan.
📖 Definiciones y características
- Intervalo de confianza (IC) al
1-α: par(L, U)calculado a partir de la muestra tal que, sobre repeticiones del experimento,P(L ≤ θ ≤ U) = 1-α. El parámetroθes fijo (no aleatorio); lo aleatorio sonLyU. - Cobertura nominal vs real: la cobertura "nominal" es 95 %; la "real" depende del método y la distribución. Wald infla error con
nchico opextrema. - Standard error (SE) de la media:
s / √n. Se reduce con√n— para reducir el SE a la mitad necesitás 4× la muestra. - t-distribution: para IC de la media cuando estimás σ. Tiene colas más anchas que la normal, lo que infla correctamente el IC con n chico.
- Wilson score interval: usa la fórmula
(p̂ + z²/(2n) ± z·√(p̂(1-p̂)/n + z²/(4n²))) / (1 + z²/n). Mantiene cobertura ≈ nominal incluso conp̂cerca de 0 o 1. - Clopper-Pearson: intervalo exacto basado en la distribución binomial. Garantiza cobertura ≥ nominal (puede ser conservador).
- Bootstrap percentile interval: cuantiles
α/2y1-α/2de la distribución bootstrap del estadístico. No requiere supuestos paramétricos. - Margen de error (ME): mitad del ancho del IC. Para
nrequerido al planificar un estudio:n = (z·σ/ME)².
📂 Dataset / recursos
seaborn.load_dataset('tips'): IC de la propina media.- Encuesta sintética: simular
n=500respuestas binarias conp=0.03(proporción chica → Wald falla). - Librerías:
scipy.stats,statsmodels.stats.proportion,pingouin.
🧪 Ejercicios
- IC t para la media: con
tips.total_bill, calculá el IC95 % conscipy.stats.t.interval(0.95, n-1, loc=mean, scale=sem). Verificá contrapingouin.compute_bootci. - IC para proporción extrema: con
rng.binomial(1, 0.03, 100)(proporción de eventos raros), calculá IC constatsmodels.stats.proportion.proportion_confint(count, n, method='normal')(Wald),'wilson'y'beta'(Clopper-Pearson). Observá cómo Wald da límite inferior negativo (¡imposible!) y los otros dos no. - Cobertura empírica: simulá 5 000 muestras de tamaño 30 de
N(50, 10). Para cada una, construí IC95 % t. Contá qué % contieneμ=50. Debería ser ≈ 95 %. - Bootstrap IC: con
tips.total_bill, aplicáscipy.stats.bootstrap((tips.total_bill,), statistic=np.mean, n_resamples=10_000, method='percentile'). Compará con el IC t. - Sample size: querés estimar una proporción con margen de error de ±2 %, asumiendo
p̂ ≈ 0.5(peor caso). Calculá elnrequerido para 95 % de confianza.
📝 Homework verificable
Diseñar un estudio para estimar la proporción de clientes satisfechos en una tienda:
- Determinar
nrequerido para margen de error ±3 % con 95 % de confianza asumiendop̂ ≈ 0.5. - Simular el experimento con esa
nyp_verdadera=0.78. - Construir los 3 IC (Wald, Wilson, Clopper-Pearson) y comparar anchos.
- En 3 líneas: justificar cuál reportarías y por qué.
Criterio de aceptación: n ≈ 1068. Los 3 IC contienen 0.78. La justificación debe mencionar que Wilson tiene buen comportamiento general (cobertura ≈ nominal con menos ancho que Clopper-Pearson) y es el recomendado actual.
⚠️ Errores comunes
| Síntoma / mensaje | Causa y cómo arreglar |
|---|---|
"Hay 95 % de probabilidad de que μ esté entre 18.5 y 21.3" |
Interpretación frecuentista incorrecta. Fix: "Estoy 95 % confiado de que el procedimiento captura μ" o pasar a interpretación bayesiana (Clase 158, donde sí podés decir "P(μ ∈ [L,U] |
| Wald da IC con límite negativo para proporción | Pasa con p̂ cerca de 0/1 o n chico. Fix: Wilson o Clopper-Pearson. |
| IC del 95 % se interpreta como "el dato cae ahí el 95 % de las veces" | No, eso sería un intervalo de predicción (mucho más ancho). El IC es para el parámetro, no para observaciones futuras. |
| Construyo IC asumiendo normalidad con n=8 y datos asimétricos | t.interval requiere normalidad o n grande. Fix: bootstrap (Clase 153). |
| Comparo dos IC: "se solapan, no hay diferencia" | Solapamiento de ICs no implica p > 0.05. Pueden solaparse y aún así rechazar la igualdad. Fix: testear la diferencia directamente (IC de μ_a - μ_b). |
❓ Preguntas frecuentes
❓ ¿Por qué a veces uso z y a veces t?
z cuando conocés σ poblacional (raro) o n ≥ 30 (TCL hace que la diferencia sea trivial). t cuando estimás σ con la muestra y n es chico. En la práctica moderna, siempre t (con n grande coincide con z, así que no perdés nada).
❓ ¿Wilson o Clopper-Pearson para proporciones?
Wilson por default (Agresti & Coull 1998, Brown et al. 2001 lo recomiendan). Clopper-Pearson si necesitás garantizar cobertura ≥ nominal (FDA, ensayos clínicos).
❓ ¿Bootstrap siempre es mejor?
No siempre. Si tus supuestos paramétricos se cumplen, t-based es más eficiente (intervalos un poco más cortos). Bootstrap brilla con n chico no normal, estadísticos no estándar (mediana, percentil, R²), o estimadores complejos donde no hay fórmula cerrada.
❓ ¿IC95 % es siempre simétrico?
Para la media t-based, sí. Para proporciones y bootstrap, no — sobre todo cerca de los bordes. Eso es una característica, no un bug: refleja la asimetría real de la distribución muestral.
❓ ¿Cómo le explico el IC al cliente sin entrar en frecuentismo?
"Si repitiéramos el experimento muchas veces con muestras del mismo tamaño, el 95 % de los rangos que produciríamos contendrían el valor real. Este rango es uno de esos 95 % en promedio." O directamente: "el valor real está plausiblemente entre L y U; rangos más angostos requieren más datos".
🔗 Referencias
- ISLP, cap. 5 — Resampling Methods.
- Bruce & Bruce, cap. 2 — Confidence Intervals.
- Agresti, A. & Coull, B. (1998), Approximate is Better than 'Exact' for Interval Estimation of Binomial Proportions, American Statistician.
- Brown, Cai & DasGupta (2001), Interval Estimation for a Binomial Proportion, Statistical Science — review de métodos.
statsmodels.stats.proportion.proportion_confint.scipy.stats.bootstrap— API moderna.
📥 Material descargable
- 📄 Guía explicativa (PDF) — versión imprimible con todo el contenido de la clase.
- 🎞️ Presentación (PPTX) — deck PowerPoint listo para proyectar en clase.
- 🧮 Notebook ejecutable (.ipynb) — abrilo desde el laboratorio del programa o desde Jupyter.