Repositorio UMSNH

Selección de prototipos utilizando muestreos basados en distancia

Mostrar el registro sencillo del ítem

dc.rights.license http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor Ortiz Béjar, Jesús
dc.contributor.advisor Ortiz Béjar, José
dc.contributor.author Solórzano Rodríguez, Arturo Amanenchekua
dc.date.accessioned 2023-05-19T13:50:55Z
dc.date.available 2023-05-19T13:50:55Z
dc.date.issued 2022-08
dc.identifier.uri http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/12207
dc.description Facultad de Ciencias Físico Matemáticas. Licenciatura en Ciencias Fisico Matemáticas es_MX
dc.description.abstract Statistics is a science that consists of methods, procedures, and formulas that allow information to be collected and then analyzed and relevant conclusions drawn from it that allow predictions to be made as well as decisions to be made. This data analysis is carried out through different sample methods. The proposed methods allow identifying the behavior of a population through a reduced number of its elements; various methods allow this task to be carried out; these are the well-known classification methods as well as the proven, which are distinguished by their characteristics. In this work, a numerical theoretical analysis has been carried out that consists of a comparison of the performance of different sampling methods that consist of: 1. The ability to copy the distribution of categories present in a data set. 2. The performance of using the sample for a classification task, this by using the KNN method. For the study, the methods are applied to various data sets, both real and synthetic. To validate the results, the cross-validation method K-Folds is used, dividing the data set into K subsets that allow their study and later the study of the entire data set. The results obtained show that the performance of the Condensed Nearest Neighbor (CNN) prototype selection method is inferior to that performed by sampling methods under study: Random, Farthest First Traversal (FFT), Kmeans++ (KMPP), and Density-Nets. (DNet). This will allow the identification of more efficient statistical methods, and applications to data sets in which the amount of data to be treated are considerably large. en
dc.description.abstract La estadística es una ciencia que consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes que permitan realizar predicciones, así como tomar decisiones. Este estudio evalúa distintos métodos de muestreo con el objetivo de medir la capacidad de capturar el comportamiento de una población por medio de una reducida cantidad de sus elementos. En este trabajo se ha realizado un análisis teórico numérico que consiste en una comparación del desempeño de distintos métodos de muestreo que consisten en: 1. La capacidad de copiar la distribución de las categorías presentes en un conjunto de datos. 2. El desempeño de utilizar la muestra para una tarea de clasificación, esto mediante el uso del método KNN. Para el estudio se aplican los métodos a diversos conjuntos de datos, tanto reales como sintéticos. Para validar los resultados se utiliza el método de validación cruzada de K-Folds, el cual consiste en la división del conjunto de datos en K subconjuntos que permitan su estudio individual y posteriormente el estudio del conjunto de datos total. Los resultados obtenidos muestran que el desempeño del método de selección de prototipos Condensed Nearest Neighbor (CNN) es inferior al realizado por métodos de muestreo bajo estudio: Aleatorio (Random), Farthest First Traversal (FFT), K-means++ (KMPP) y Density-Nets (DNet). Lo anterior permitirá la identificación de métodos estadísticos más eficientes, aplicaciones a conjuntos de datos en los cuales la cantidad de datos a tratar sea considerablemente grande. es_MX
dc.language.iso spa es_MX
dc.publisher Universidad Michoacana de San Nicolás de Hidalgo es_MX
dc.rights info:eu-repo/semantics/openAccess
dc.subject info:eu-repo/classification/cti/1
dc.subject FISMAT-L-2022-0848 es_MX
dc.subject K-Folds es_MX
dc.subject Métodos de muestreo es_MX
dc.subject Condensed Nearest Neighbor (CNN) es_MX
dc.title Selección de prototipos utilizando muestreos basados en distancia es_MX
dc.type info:eu-repo/semantics/bachelorThesis es_MX
dc.creator.id 0
dc.advisor.id 0|0
dc.advisor.role asesorTesis|asesorTesis


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas