Modelos PCA a partir de conjuntos de datos con información faltante. ¿Se afectan sus propiedades?

Quaglino, Marta BeatrizVitelleschi, María Susana2013-05-022013-05-021905-07-021852-4222http://hdl.handle.net/2133/2345En este trabajo se aborda la problemática de la construcción de modelos PCA (Principal Component Analysis) a partir de conjuntos de datos con información faltante. Se trabaja sobre tres situaciones diferentes con relación a la matriz de datos originales. En cada situación se generaron pérdidas a través de mecanismos aleatorios y no aleatorios, en diferentes porcentajes en una sola variable por vez, seleccionada mediante dos criterios: la que más contribuye y menos contribuye en la formación de la primera componente principal. A partir de cada conjunto de datos incompletos se construye el modelo PCA utilizando: Casos Completos, Nonlinear Iterative Partial Least Squares (NIPALS) y Expectation Maximization (EM). Se comparan los resultados con los obtenidos a través del conjunto de datos originales. Se definen una serie de medidas para estudiar cómo se afectan los resultados según la dimensión de la matriz de datos, el porcentaje y el mecanismo de pérdida, con relación a: bondad del ajuste, bondad de predicción, vectores cargas, ortonormalidad de la matriz de cargas y ortogonalidad de la matriz de “scores”.This paper deals with the issue of building PCA (Principal Component Analysis) models from data sets with missing information. This Thesis worked on three different situations related to the original data set. In each situation, losses were generated through random and not random mechanisms, in different percentages in one variable at a time, selected by two criteria: the one that contributes the most and the one that contributes the least to the formation of the first principal component. With each set of incomplete data is built the PCA model using: Complete Cases, NIPALS algorithm and EM algorithm. The results are compared to those obtained from the original data set. It is examined how they are affected depending on the size of the data matrix data, the percentage of missing information and the missing data mechanism, in relation to: the goodness of fit, the goodness of prediction, loading vectors, the orthonormality of the loading matrix and the orthogonality of the score matrix. Measures are defined to study how these aspects are affected.esopenAccessMecanismos de PérdidasAlgoritmo NIPALSAlgoritmo EMMissing Data MechanismsNIPALS algorithmEM algorithmModelos PCA a partir de conjuntos de datos con información faltante. ¿Se afectan sus propiedades?article