Exploratory data analysis in the context of data mining and resampling

Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not...

Full description

Autores:
Ho Yu, Chong
Tipo de recurso:
Fecha de publicación:
2010
Institución:
Universidad de San Buenaventura
Repositorio:
Repositorio USB
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.usb.edu.co:10819/6448
Acceso en línea:
http://hdl.handle.net/10819/6448
Palabra clave:
Exploratory data analysis
Data mining
Resampling
Cross-validation
Data visualization
Clustering
Classification trees
Neural networks
Análisis exploratorio de datos
Minería de datos
Remuestreo
Validación cruzada
Visualización de datos
Agrupación
Árboles de clasificación
Redes neuronales
Analysis of data
Statistics
Análisis de datos
Estadística
Rights
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
id SANBUENAV2_bc0f898b21c6151051a31137996a1654
oai_identifier_str oai:bibliotecadigital.usb.edu.co:10819/6448
network_acronym_str SANBUENAV2
network_name_str Repositorio USB
repository_id_str
dc.title.spa.fl_str_mv Exploratory data analysis in the context of data mining and resampling
dc.title.alternative.spa.fl_str_mv Análisis exploratorio de datos en el contexto de minería de datos y remuestreo.
title Exploratory data analysis in the context of data mining and resampling
spellingShingle Exploratory data analysis in the context of data mining and resampling
Exploratory data analysis
Data mining
Resampling
Cross-validation
Data visualization
Clustering
Classification trees
Neural networks
Análisis exploratorio de datos
Minería de datos
Remuestreo
Validación cruzada
Visualización de datos
Agrupación
Árboles de clasificación
Redes neuronales
Analysis of data
Statistics
Análisis de datos
Estadística
title_short Exploratory data analysis in the context of data mining and resampling
title_full Exploratory data analysis in the context of data mining and resampling
title_fullStr Exploratory data analysis in the context of data mining and resampling
title_full_unstemmed Exploratory data analysis in the context of data mining and resampling
title_sort Exploratory data analysis in the context of data mining and resampling
dc.creator.fl_str_mv Ho Yu, Chong
dc.contributor.author.none.fl_str_mv Ho Yu, Chong
dc.subject.spa.fl_str_mv Exploratory data analysis
Data mining
Resampling
Cross-validation
Data visualization
Clustering
Classification trees
Neural networks
Análisis exploratorio de datos
Minería de datos
Remuestreo
Validación cruzada
Visualización de datos
Agrupación
Árboles de clasificación
Redes neuronales
topic Exploratory data analysis
Data mining
Resampling
Cross-validation
Data visualization
Clustering
Classification trees
Neural networks
Análisis exploratorio de datos
Minería de datos
Remuestreo
Validación cruzada
Visualización de datos
Agrupación
Árboles de clasificación
Redes neuronales
Analysis of data
Statistics
Análisis de datos
Estadística
dc.subject.lemb.spa.fl_str_mv Analysis of data
Statistics
Análisis de datos
Estadística
description Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not to start the analysis with a strong preconception only, and thus modeling is still legitimate in EDA. In addition, the nature of EDA has been changing due to the emergence of new methods and convergence between EDA and other methodologies, such as data mining and resampling. Therefore, conventional conceptual frameworks of EDA might no longer be capable of coping with this trend. In this article, EDA is introduced in the context of data mining and resampling with an emphasis on three goals: cluster detection, variable selection, and pattern recognition. TwoStep clustering, classification trees, and neural networks, which are powerful techniques to accomplish the preceding goals, respectively, are illustrated with concrete examples.
publishDate 2010
dc.date.issued.none.fl_str_mv 2010
dc.date.accessioned.none.fl_str_mv 2018-11-07T13:48:55Z
dc.date.available.none.fl_str_mv 2018-11-07T13:48:55Z
dc.date.submitted.none.fl_str_mv 2018-11-06
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.spa.spa.fl_str_mv Artículo
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.identifier.citation.spa.fl_str_mv Ho Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.819
dc.identifier.issn.none.fl_str_mv 2011-7922
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10819/6448
identifier_str_mv Ho Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.819
2011-7922
url http://hdl.handle.net/10819/6448
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.uri.spa.fl_str_mv http://dx.doi.org/10.21500/20112084.819
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.cc.spa.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
dc.format.spa.fl_str_mv pdf
dc.format.extent.spa.fl_str_mv 14 páginas
dc.format.medium.spa.fl_str_mv Recurso en linea
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Editorial Bonaventuriana
dc.publisher.faculty.spa.fl_str_mv Psicología
dc.publisher.sede.spa.fl_str_mv Medellín
dc.source.spa.fl_str_mv International Journal of Psychological Research
institution Universidad de San Buenaventura
dc.source.instname.spa.fl_str_mv Universidad de San Buenaventura - Medellín
dc.source.reponame.spa.fl_str_mv Biblioteca Digital Universidad de San Buenaventura
bitstream.url.fl_str_mv https://bibliotecadigital.usb.edu.co/bitstreams/a6648c04-21ff-4628-be34-f33fe01a060a/download
https://bibliotecadigital.usb.edu.co/bitstreams/3b0efa58-7874-42a0-8449-c57f0c5b7fc0/download
https://bibliotecadigital.usb.edu.co/bitstreams/f745b6fe-08b0-4aa0-b1bc-c58bcc326a02/download
https://bibliotecadigital.usb.edu.co/bitstreams/aedda59e-665f-47d7-88de-cb8f20e96b7b/download
bitstream.checksum.fl_str_mv 0c7b7184e7583ec671a5d9e43f0939c0
239a30cd1ad5793ce4485f7148396fff
73c8a9510c79c838b15e3cef1ec5eeae
2157177afe1e1bbadf7d9e4540cd9e9b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de San Buenaventura Colombia
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1837099236753145856
spelling Comunidad Científica y AcadémicaHo Yu, Chonga62626cc-043e-41c9-924b-2372f52ad474-12018-11-07T13:48:55Z2018-11-07T13:48:55Z20102018-11-06Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not to start the analysis with a strong preconception only, and thus modeling is still legitimate in EDA. In addition, the nature of EDA has been changing due to the emergence of new methods and convergence between EDA and other methodologies, such as data mining and resampling. Therefore, conventional conceptual frameworks of EDA might no longer be capable of coping with this trend. In this article, EDA is introduced in the context of data mining and resampling with an emphasis on three goals: cluster detection, variable selection, and pattern recognition. TwoStep clustering, classification trees, and neural networks, which are powerful techniques to accomplish the preceding goals, respectively, are illustrated with concrete examples.En la actualidad, existen bastantes conceptos erróneos generalizados sobre el análisis de datos exploratorios (EDA). Una de estas percepciones erróneas es que se dice que EDA se opone al modelado estadístico. En realidad, la esencia de EDA no consiste en dejar de lado todos los modelos y preconceptos; más bien, se insta a los investigadores a no comenzar el análisis solo con una fuerte preconcepción, por lo que el modelado sigue siendo legítimo en EDA. Además, la naturaleza de EDA ha ido cambiando debido a la aparición de nuevos métodos y la convergencia entre EDA y otras metodologías, como la extracción de datos y el remuestreo. Por lo tanto, los marcos conceptuales convencionales de EDA podrían ya no ser capaces de hacer frente a esta tendencia. En este artículo, la EDA se introduce en el contexto de la extracción y remuestreo de datos con un énfasis en tres objetivos: detección de conglomerados, selección de variables y reconocimiento de patrones. La agrupación de dos pasos, los árboles de clasificación y las redes neuronales, que son técnicas poderosas para lograr los objetivos anteriores, respectivamente, se ilustran con ejemplos concretos.pdf14 páginasRecurso en lineaapplication/pdfHo Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.8192011-7922http://hdl.handle.net/10819/6448spaEditorial BonaventurianaPsicologíaMedellínhttp://dx.doi.org/10.21500/20112084.819Atribución-NoComercial-SinDerivadas 2.5 ColombiaPor medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.http://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2International Journal of Psychological ResearchUniversidad de San Buenaventura - MedellínBiblioteca Digital Universidad de San BuenaventuraExploratory data analysisData miningResamplingCross-validationData visualizationClusteringClassification treesNeural networksAnálisis exploratorio de datosMinería de datosRemuestreoValidación cruzadaVisualización de datosAgrupaciónÁrboles de clasificaciónRedes neuronalesAnalysis of dataStatisticsAnálisis de datosEstadísticaExploratory data analysis in the context of data mining and resamplingAnálisis exploratorio de datos en el contexto de minería de datos y remuestreo.Artículo de revistaArtículoinfo:eu-repo/semantics/articlehttp://purl.org/coar/resource_type/c_2df8fbb1PublicationLICENSElicense.txtlicense.txttext/plain; charset=utf-82071https://bibliotecadigital.usb.edu.co/bitstreams/a6648c04-21ff-4628-be34-f33fe01a060a/download0c7b7184e7583ec671a5d9e43f0939c0MD52ORIGINALExploratory_Analysis_Context_Chong_2010.pdfExploratory_Analysis_Context_Chong_2010.pdfapplication/pdf379362https://bibliotecadigital.usb.edu.co/bitstreams/3b0efa58-7874-42a0-8449-c57f0c5b7fc0/download239a30cd1ad5793ce4485f7148396fffMD51TEXTExploratory_Analysis_Context_Chong_2010.pdf.txtExploratory_Analysis_Context_Chong_2010.pdf.txtExtracted texttext/plain67609https://bibliotecadigital.usb.edu.co/bitstreams/f745b6fe-08b0-4aa0-b1bc-c58bcc326a02/download73c8a9510c79c838b15e3cef1ec5eeaeMD53THUMBNAILExploratory_Analysis_Context_Chong_2010.pdf.jpgExploratory_Analysis_Context_Chong_2010.pdf.jpgGenerated Thumbnailimage/jpeg12703https://bibliotecadigital.usb.edu.co/bitstreams/aedda59e-665f-47d7-88de-cb8f20e96b7b/download2157177afe1e1bbadf7d9e4540cd9e9bMD5410819/6448oai:bibliotecadigital.usb.edu.co:10819/64482023-04-12 16:39:36.031http://creativecommons.org/licenses/by-nc-nd/2.5/co/https://bibliotecadigital.usb.edu.coRepositorio Institucional Universidad de San Buenaventura Colombiabdigital@metabiblioteca.comPGNlbnRlcj4KPGgzPkJJQkxJT1RFQ0EgRElHSVRBTCBVTklWRVJTSURBRCBERSBTQU4gQlVFTkFWRU5UVVJBIC0gQ09MT01CSUE8L2gzPgo8cD4KVMOpcm1pbm9zIGRlIGxhIGxpY2VuY2lhIGdlbmVyYWwgcGFyYSBwdWJsaWNhY2nDs24gZGUgb2JyYXMgZW4gZWwgcmVwb3NpdG9yaW8gaW5zdGl0dWNpb25hbDwvcD48L2NlbnRlcj4KPFAgQUxJR049Y2VudGVyPgpQb3IgbWVkaW8gZGUgZXN0ZSBmb3JtYXRvIG1hbmlmaWVzdG8gbWkgdm9sdW50YWQgZGUgQVVUT1JJWkFSIGEgbGEgVW5pdmVyc2lkYWQgZGUgU2FuIEJ1ZW5hdmVudHVyYSwgU2VkZSBCb2dvdMOhIHkgPEJSPlNlY2Npb25hbGVzIE1lZGVsbMOtbiwgQ2FsaSB5IENhcnRhZ2VuYSwgbGEgZGlmdXNpw7NuIGVuIHRleHRvIGNvbXBsZXRvIGRlIG1hbmVyYSBncmF0dWl0YSB5IHBvciB0aWVtcG8gaW5kZWZpbmlkbyBlbiBsYTxCUj4gQmlibGlvdGVjYSBEaWdpdGFsIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIGVsIGRvY3VtZW50byBhY2Fkw6ltaWNvIC0gaW52ZXN0aWdhdGl2byBvYmpldG8gZGUgbGEgcHJlc2VudGUgPEJSPmF1dG9yaXphY2nDs24sIGNvbiBmaW5lcyBlc3RyaWN0YW1lbnRlIGVkdWNhdGl2b3MsIGNpZW50w63CrWZpY29zIHkgY3VsdHVyYWxlcywgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDxCUj4gMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvczxCUj4gZGUgYXV0b3IuIDxCUj4gCiAKQ29tbyBhdXRvciBtYW5pZmllc3RvIHF1ZSBlbCBwcmVzZW50ZSBkb2N1bWVudG8gYWNhZMOpbWljbyAtIGludmVzdGlnYXRpdm8gZXMgb3JpZ2luYWwgeSBzZSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gPEJSPiB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgbWkgZXhjbHVzaXZhIGF1dG9yw63CrWEgeSBwb3NlbyBsYSB0aXR1bGFyaWRhZCA8QlI+IHNvYnJlIGxhIG1pc21hLiBMYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIG5vIHNlcsOhIHJlc3BvbnNhYmxlIGRlIG5pbmd1bmEgdXRpbGl6YWNpw7NuIGluZGViaWRhIGRlbCBkb2N1bWVudG8gPEJSPnBvciBwYXJ0ZSBkZSB0ZXJjZXJvcyB5IHNlcsOhIGV4Y2x1c2l2YW1lbnRlIG1pIHJlc3BvbnNhYmlsaWRhZCBhdGVuZGVyIHBlcnNvbmFsbWVudGUgY3VhbHF1aWVyIHJlY2xhbWFjacOzbiBxdWUgcHVlZGE8QlI+IHByZXNlbnRhcnNlIGEgbGEgVW5pdmVyc2lkYWQuIDxCUj4KIApBdXRvcml6byBhIGxhIEJpYmxpb3RlY2EgRGlnaXRhbCBkZSBsYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIGNvbnZlcnRpciBlbCBkb2N1bWVudG8gYWwgZm9ybWF0byBxdWUgZWwgPEJSPnJlcG9zaXRvcmlvIGxvIHJlcXVpZXJhIChpbXByZXNvLCBkaWdpdGFsLCBlbGVjdHLDs25pY28gbyBjdWFscXVpZXIgb3RybyBjb25vY2lkbyBvIHBvciBjb25vY2VyKSBvIGNvbiBmaW5lcyBkZTxCUj4gcHJlc2VydmFjacOzbiBkaWdpdGFsLiA8QlI+CiAKRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGVuZ28gZGUgcHVibGljYXIgcG9zdGVyaW9ybWVudGUgbGEgb2JyYSwgZW4gZm9ybWEgdG90YWwgbyA8QlI+cGFyY2lhbCwgcG9yIGxvIGN1YWwgcG9kcsOpLCBkYW5kbyBhdmlzbyBwb3IgZXNjcml0byBjb24gbm8gbWVub3MgZGUgdW4gbWVzIGRlIGFudGVsYWNpw7NuLCBzb2xpY2l0YXIgcXVlIGVsIDxCUj5kb2N1bWVudG8gZGVqZSBkZSBlc3RhciBkaXNwb25pYmxlIHBhcmEgZWwgcMO6YmxpY28gZW4gbGEgQmlibGlvdGVjYSBEaWdpdGFsIGRlIGxhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIDxCUj4gYXPDrcKtIG1pc21vLCBjdWFuZG8gc2UgcmVxdWllcmEgcG9yIHJhem9uZXMgbGVnYWxlcyB5L28gcmVnbGFzIGRlbCBlZGl0b3IgZGUgdW5hIHJldmlzdGEuIDxCUj48L1A+Cg==