Influencia de la selección de componentes principales en el aprendizaje computacional

Loading...
Thumbnail Image

Identifiers

Publication date

Reading date

Collaborators

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Google Scholar

Share

Research Projects

Organizational Units

Journal Issue

Department/Institute

Abstract

El uso de técnicas de reducción de dimensionalidad, como el Análisis de Componentes Principales (PCA), supone una herramienta útil para optimizar el entrenamiento de modelos de aprendizaje automático, especialmente en entornos con limitaciones computacionales. Los conjuntos de datos de alta dimensión, como los de imágenes, contienen mucha información redundante, lo que puede afectar negativamente al rendimiento y eficiencia de los modelos de redes neuronales. En este proyecto se ha desarrollado un estudio comparativo sobre la influencia del número de componentes seleccionados mediante PCA en el rendimiento de una red neuronal multicapa. Para ello, se han utilizado tres conjuntos de datos conocidos en el ámbito de la clasificación de imágenes: MNIST, Fashion MNIST y Digits. El entrenamiento del modelo se ha realizado en Google Colab utilizando Python y bibliotecas como TensorFlow, Keras y Scikit-learn. Se han aplicado varios criterios automáticos para determinar el número óptimo de componentes principales: el criterio de Kaiser, el umbral de varianza explicada (95 por ciento) y el análisis paralelo de Horn. Además, se han evaluado configuraciones con la mitad de las características y con la totalidad de los datos originales. Cada configuración se ha entrenado y evaluado de forma sistemática para comparar su precisión en el conjunto de prueba. Los resultados obtenidos muestran que es posible reducir de manera significativa el número de variables de entrada sin comprometer la precisión del modelo. En algunos casos, la reducción incluso mejora el rendimiento gracias a la eliminación de ruido. Esto demuestra que una buena selección del número de componentes puede aumentar la eficiencia del modelo sin afectar negativamente su capacidad predictiva.
The use of dimensionality reduction techniques, such as Principal Component Analysis (PCA), is a valuable tool for optimizing the training of machine learning models, particularly in resource-constrained environments. High-dimensional datasets, such as image data, often contain redundant information, which can negatively impact the performance and efficiency of neural networks. This project presents a comparative study on the influence of the number of principal components selected via PCA on the performance of a multilayer neural network. Three well-known image classification datasets were used: MNIST, Fashion MNIST, and Digits. The models were trained using Google Colab with Python and libraries such as TensorFlow, Keras, and Scikit-learn. Several automatic criteria were applied to determine the optimal number of principal components: the Kaiser criterion, the explained variance threshold (95 per cent), and Horn’s parallel analysis. In addition, configurations using half the number of original features and all original features were also evaluated. Each configuration was systematically trained and tested to compare its accuracy on the test set. The results show that it is possible to significantly reduce the number of input variables without compromising model accuracy. In some cases, dimensionality reduction even improved performance by removing noise and redundancy. These findings demonstrate that selecting an appropriate number of components can lead to more efficient models without sacrificing predictive power.

Description

Bibliographic citation

Endorsement

Review

Supplemented By

Referenced by

Creative Commons license

Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International