Python Data Science Program
📓 Abrir notebook en GitHub

Clase 182 — Intervalos de confianza

Parte: 3 — Estadística Inferencial y Causal · Fuente: ISLP, cap. 5 + Bruce & Bruce, cap. 2 Confidence Intervals. ⏱️ Duración estimada: 70 min.

🎯 Objetivo

Construir e interpretar correctamente intervalos de confianza para media (t-based, z-based, bootstrap) y proporción (Wald, Wilson, Clopper-Pearson), entendiendo que un IC95 % NO significa "95 % de probabilidad de que el parámetro caiga en el intervalo" sino "si repitiéramos el experimento muchas veces, el 95 % de los intervalos construidos contendrían el parámetro". Saber elegir el método según n y la métrica.

📚 Resultados de aprendizaje

Al finalizar, el estudiante podrá:

🗺️ Temas

📖 Definiciones y características

📂 Dataset / recursos

🧪 Ejercicios

  1. IC t para la media: con tips.total_bill, calculá el IC95 % con scipy.stats.t.interval(0.95, n-1, loc=mean, scale=sem). Verificá contra pingouin.compute_bootci.
  2. IC para proporción extrema: con rng.binomial(1, 0.03, 100) (proporción de eventos raros), calculá IC con statsmodels.stats.proportion.proportion_confint(count, n, method='normal') (Wald), 'wilson' y 'beta' (Clopper-Pearson). Observá cómo Wald da límite inferior negativo (¡imposible!) y los otros dos no.
  3. Cobertura empírica: simulá 5 000 muestras de tamaño 30 de N(50, 10). Para cada una, construí IC95 % t. Contá qué % contiene μ=50. Debería ser ≈ 95 %.
  4. Bootstrap IC: con tips.total_bill, aplicá scipy.stats.bootstrap((tips.total_bill,), statistic=np.mean, n_resamples=10_000, method='percentile'). Compará con el IC t.
  5. Sample size: querés estimar una proporción con margen de error de ±2 %, asumiendo p̂ ≈ 0.5 (peor caso). Calculá el n requerido para 95 % de confianza.

📝 Homework verificable

Diseñar un estudio para estimar la proporción de clientes satisfechos en una tienda:

  1. Determinar n requerido para margen de error ±3 % con 95 % de confianza asumiendo p̂ ≈ 0.5.
  2. Simular el experimento con esa n y p_verdadera=0.78.
  3. Construir los 3 IC (Wald, Wilson, Clopper-Pearson) y comparar anchos.
  4. En 3 líneas: justificar cuál reportarías y por qué.

Criterio de aceptación: n ≈ 1068. Los 3 IC contienen 0.78. La justificación debe mencionar que Wilson tiene buen comportamiento general (cobertura ≈ nominal con menos ancho que Clopper-Pearson) y es el recomendado actual.

⚠️ Errores comunes

Síntoma / mensaje Causa y cómo arreglar
"Hay 95 % de probabilidad de que μ esté entre 18.5 y 21.3" Interpretación frecuentista incorrecta. Fix: "Estoy 95 % confiado de que el procedimiento captura μ" o pasar a interpretación bayesiana (Clase 158, donde sí podés decir "P(μ ∈ [L,U]
Wald da IC con límite negativo para proporción Pasa con cerca de 0/1 o n chico. Fix: Wilson o Clopper-Pearson.
IC del 95 % se interpreta como "el dato cae ahí el 95 % de las veces" No, eso sería un intervalo de predicción (mucho más ancho). El IC es para el parámetro, no para observaciones futuras.
Construyo IC asumiendo normalidad con n=8 y datos asimétricos t.interval requiere normalidad o n grande. Fix: bootstrap (Clase 153).
Comparo dos IC: "se solapan, no hay diferencia" Solapamiento de ICs no implica p > 0.05. Pueden solaparse y aún así rechazar la igualdad. Fix: testear la diferencia directamente (IC de μ_a - μ_b).

❓ Preguntas frecuentes

❓ ¿Por qué a veces uso z y a veces t?

z cuando conocés σ poblacional (raro) o n ≥ 30 (TCL hace que la diferencia sea trivial). t cuando estimás σ con la muestra y n es chico. En la práctica moderna, siempre t (con n grande coincide con z, así que no perdés nada).

❓ ¿Wilson o Clopper-Pearson para proporciones?

Wilson por default (Agresti & Coull 1998, Brown et al. 2001 lo recomiendan). Clopper-Pearson si necesitás garantizar cobertura ≥ nominal (FDA, ensayos clínicos).

❓ ¿Bootstrap siempre es mejor?

No siempre. Si tus supuestos paramétricos se cumplen, t-based es más eficiente (intervalos un poco más cortos). Bootstrap brilla con n chico no normal, estadísticos no estándar (mediana, percentil, R²), o estimadores complejos donde no hay fórmula cerrada.

❓ ¿IC95 % es siempre simétrico?

Para la media t-based, sí. Para proporciones y bootstrap, no — sobre todo cerca de los bordes. Eso es una característica, no un bug: refleja la asimetría real de la distribución muestral.

❓ ¿Cómo le explico el IC al cliente sin entrar en frecuentismo?

"Si repitiéramos el experimento muchas veces con muestras del mismo tamaño, el 95 % de los rangos que produciríamos contendrían el valor real. Este rango es uno de esos 95 % en promedio." O directamente: "el valor real está plausiblemente entre L y U; rangos más angostos requieren más datos".

🔗 Referencias

📥 Material descargable

➡️ Siguiente clase

Clase 183 — Bootstrap y permutation tests