Comparación del comportamiento de diversos estimadores basados en núcleos
Fecha
2004-11
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
Este trabajo está dirigido a profundizar y difundir métodos no paramétricos para la estimación de funciones de densidad (métodos de suavizado). Estos métodos hacen pre-supuestos mínimos sobre las densidades que gobiernan las frecuencias observadas de las variables estadísticas.
En los análisis paramétricos se comienza haciendo supuestos rígidos sobre la estructura básica de los datos. Luego se estiman de la manera más eficiente posible los parámetros que definen la estructura. A posteriori se decide si los supuestos iniciales son aceptables. Esta lógica de pensamiento conlleva, muchas veces, círculos viciosos que oscurecen la objetividad del análisis.
Los métodos de suavizado, en cambio, comienzan aceptando su subjetividad y buscan desprenderse de ella a través de métodos de prueba y error tomando como base resultados matemáticos asintóticos. Los fundamentos de los métodos de suavizado son antiguos pero sólo lograron el estado actual de desarrollo gracias a los avances de la ciencia de la computación y los estudios por simulación han permitido evaluar sus comportamientos.
Los métodos paramétricos y no paramétricos, en principio antagónicos, suelen ser usados en forma simultánea en el análisis de conjuntos de datos. Los métodos no paramétricos pueden ayudar en el inicio de la investigación a descubrir la estructura probabilística que gobierna los datos de modo que los supuestos del análisis paramétrico estén bien fundamentados. Después de realizados los análisis, suelen ser utilizados nuevamente para el estudio de los residuos, buscando validar la elección del modelo.
Entre los métodos de estimación de funciones de densidad de probabilidad se encuentran aquellos estimadores basados en núcleos. Estos estimadores logran funciones de densidad suavizadas que se construyen en cada punto del eje real de acuerdo con los valores muestrales más cercanos al mismo que constituyen un entorno denominado “ventana”. Estos valores son ponderados de modo que, por ejemplo, los vecinos más cercanos tengan mayor peso que los más alejados dentro de una ventana de datos. Se pueden utilizar diversas funciones de ponderación (llamadas K o “Kernel”) que son justamente los núcleos en que se basan los estimadores. Las propiedades de las curvas de estimación dependen de la elección del núcleo y del ancho de la ventana. La combinación de la función de ponderación, el ancho de la ventana, el tamaño de muestra y la forma de la densidad verdadera (más o menos “rugosa”, con más o menos modos, etc) hacen a la bondad de la estimación resultante.
Lo que se ensaya en este trabajo es una evaluación de la bondad de la estimación de dos funciones de densidad, una unimodal y otro bimodal, cuando se utilizan distintos núcleos para los estimadores y diferentes tamaños de muestra. El ancho de ventana utilizado es el que asintóticamente se considera óptimo. Justamente el motivo de realizar un estudio de simulación es verificar hasta qué punto los resultados asintóticos tienen vigencia cuando la muestra es de tamaño chico o moderado.
Palabras clave
estimadores, métodos no paramétricos, pre-supuestos