Exploratory data analysis in the context of data mining and resampling
Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not...
- Autores:
-
Ho Yu, Chong
- Tipo de recurso:
- Fecha de publicación:
- 2010
- Institución:
- Universidad de San Buenaventura
- Repositorio:
- Repositorio USB
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.usb.edu.co:10819/6448
- Acceso en línea:
- http://hdl.handle.net/10819/6448
- Palabra clave:
- Exploratory data analysis
Data mining
Resampling
Cross-validation
Data visualization
Clustering
Classification trees
Neural networks
Análisis exploratorio de datos
Minería de datos
Remuestreo
Validación cruzada
Visualización de datos
Agrupación
Árboles de clasificación
Redes neuronales
Analysis of data
Statistics
Análisis de datos
Estadística
- Rights
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia
id |
SANBUENAV2_bc0f898b21c6151051a31137996a1654 |
---|---|
oai_identifier_str |
oai:bibliotecadigital.usb.edu.co:10819/6448 |
network_acronym_str |
SANBUENAV2 |
network_name_str |
Repositorio USB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Exploratory data analysis in the context of data mining and resampling |
dc.title.alternative.spa.fl_str_mv |
Análisis exploratorio de datos en el contexto de minería de datos y remuestreo. |
title |
Exploratory data analysis in the context of data mining and resampling |
spellingShingle |
Exploratory data analysis in the context of data mining and resampling Exploratory data analysis Data mining Resampling Cross-validation Data visualization Clustering Classification trees Neural networks Análisis exploratorio de datos Minería de datos Remuestreo Validación cruzada Visualización de datos Agrupación Árboles de clasificación Redes neuronales Analysis of data Statistics Análisis de datos Estadística |
title_short |
Exploratory data analysis in the context of data mining and resampling |
title_full |
Exploratory data analysis in the context of data mining and resampling |
title_fullStr |
Exploratory data analysis in the context of data mining and resampling |
title_full_unstemmed |
Exploratory data analysis in the context of data mining and resampling |
title_sort |
Exploratory data analysis in the context of data mining and resampling |
dc.creator.fl_str_mv |
Ho Yu, Chong |
dc.contributor.author.none.fl_str_mv |
Ho Yu, Chong |
dc.subject.spa.fl_str_mv |
Exploratory data analysis Data mining Resampling Cross-validation Data visualization Clustering Classification trees Neural networks Análisis exploratorio de datos Minería de datos Remuestreo Validación cruzada Visualización de datos Agrupación Árboles de clasificación Redes neuronales |
topic |
Exploratory data analysis Data mining Resampling Cross-validation Data visualization Clustering Classification trees Neural networks Análisis exploratorio de datos Minería de datos Remuestreo Validación cruzada Visualización de datos Agrupación Árboles de clasificación Redes neuronales Analysis of data Statistics Análisis de datos Estadística |
dc.subject.lemb.spa.fl_str_mv |
Analysis of data Statistics Análisis de datos Estadística |
description |
Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not to start the analysis with a strong preconception only, and thus modeling is still legitimate in EDA. In addition, the nature of EDA has been changing due to the emergence of new methods and convergence between EDA and other methodologies, such as data mining and resampling. Therefore, conventional conceptual frameworks of EDA might no longer be capable of coping with this trend. In this article, EDA is introduced in the context of data mining and resampling with an emphasis on three goals: cluster detection, variable selection, and pattern recognition. TwoStep clustering, classification trees, and neural networks, which are powerful techniques to accomplish the preceding goals, respectively, are illustrated with concrete examples. |
publishDate |
2010 |
dc.date.issued.none.fl_str_mv |
2010 |
dc.date.accessioned.none.fl_str_mv |
2018-11-07T13:48:55Z |
dc.date.available.none.fl_str_mv |
2018-11-07T13:48:55Z |
dc.date.submitted.none.fl_str_mv |
2018-11-06 |
dc.type.spa.fl_str_mv |
Artículo de revista |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.spa.spa.fl_str_mv |
Artículo |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/article |
dc.identifier.citation.spa.fl_str_mv |
Ho Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.819 |
dc.identifier.issn.none.fl_str_mv |
2011-7922 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10819/6448 |
identifier_str_mv |
Ho Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.819 2011-7922 |
url |
http://hdl.handle.net/10819/6448 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.uri.spa.fl_str_mv |
http://dx.doi.org/10.21500/20112084.819 |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.cc.spa.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
rights_invalid_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://purl.org/coar/access_right/c_abf2 |
dc.format.spa.fl_str_mv |
pdf |
dc.format.extent.spa.fl_str_mv |
14 páginas |
dc.format.medium.spa.fl_str_mv |
Recurso en linea |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Editorial Bonaventuriana |
dc.publisher.faculty.spa.fl_str_mv |
Psicología |
dc.publisher.sede.spa.fl_str_mv |
Medellín |
dc.source.spa.fl_str_mv |
International Journal of Psychological Research |
institution |
Universidad de San Buenaventura |
dc.source.instname.spa.fl_str_mv |
Universidad de San Buenaventura - Medellín |
dc.source.reponame.spa.fl_str_mv |
Biblioteca Digital Universidad de San Buenaventura |
bitstream.url.fl_str_mv |
https://bibliotecadigital.usb.edu.co/bitstreams/a6648c04-21ff-4628-be34-f33fe01a060a/download https://bibliotecadigital.usb.edu.co/bitstreams/3b0efa58-7874-42a0-8449-c57f0c5b7fc0/download https://bibliotecadigital.usb.edu.co/bitstreams/f745b6fe-08b0-4aa0-b1bc-c58bcc326a02/download https://bibliotecadigital.usb.edu.co/bitstreams/aedda59e-665f-47d7-88de-cb8f20e96b7b/download |
bitstream.checksum.fl_str_mv |
0c7b7184e7583ec671a5d9e43f0939c0 239a30cd1ad5793ce4485f7148396fff 73c8a9510c79c838b15e3cef1ec5eeae 2157177afe1e1bbadf7d9e4540cd9e9b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de San Buenaventura Colombia |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1837099236753145856 |
spelling |
Comunidad Científica y AcadémicaHo Yu, Chonga62626cc-043e-41c9-924b-2372f52ad474-12018-11-07T13:48:55Z2018-11-07T13:48:55Z20102018-11-06Today there are quite a few widespread misconceptions of exploratory data analysis (EDA). One of these misperceptions is that EDA is said to be opposed to statistical modeling. Actually, the essence of EDA is not about putting aside all modeling and preconceptions; rather, researchers are urged not to start the analysis with a strong preconception only, and thus modeling is still legitimate in EDA. In addition, the nature of EDA has been changing due to the emergence of new methods and convergence between EDA and other methodologies, such as data mining and resampling. Therefore, conventional conceptual frameworks of EDA might no longer be capable of coping with this trend. In this article, EDA is introduced in the context of data mining and resampling with an emphasis on three goals: cluster detection, variable selection, and pattern recognition. TwoStep clustering, classification trees, and neural networks, which are powerful techniques to accomplish the preceding goals, respectively, are illustrated with concrete examples.En la actualidad, existen bastantes conceptos erróneos generalizados sobre el análisis de datos exploratorios (EDA). Una de estas percepciones erróneas es que se dice que EDA se opone al modelado estadístico. En realidad, la esencia de EDA no consiste en dejar de lado todos los modelos y preconceptos; más bien, se insta a los investigadores a no comenzar el análisis solo con una fuerte preconcepción, por lo que el modelado sigue siendo legítimo en EDA. Además, la naturaleza de EDA ha ido cambiando debido a la aparición de nuevos métodos y la convergencia entre EDA y otras metodologías, como la extracción de datos y el remuestreo. Por lo tanto, los marcos conceptuales convencionales de EDA podrían ya no ser capaces de hacer frente a esta tendencia. En este artículo, la EDA se introduce en el contexto de la extracción y remuestreo de datos con un énfasis en tres objetivos: detección de conglomerados, selección de variables y reconocimiento de patrones. La agrupación de dos pasos, los árboles de clasificación y las redes neuronales, que son técnicas poderosas para lograr los objetivos anteriores, respectivamente, se ilustran con ejemplos concretos.pdf14 páginasRecurso en lineaapplication/pdfHo Yu, C. (2010). Exploratory data analysis in the context of data mining and resampling. International Journal of Psychological Research, 3(1), 9–22. https://doi.org/10.21500/20112084.8192011-7922http://hdl.handle.net/10819/6448spaEditorial BonaventurianaPsicologíaMedellínhttp://dx.doi.org/10.21500/20112084.819Atribución-NoComercial-SinDerivadas 2.5 ColombiaPor medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.http://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2International Journal of Psychological ResearchUniversidad de San Buenaventura - MedellínBiblioteca Digital Universidad de San BuenaventuraExploratory data analysisData miningResamplingCross-validationData visualizationClusteringClassification treesNeural networksAnálisis exploratorio de datosMinería de datosRemuestreoValidación cruzadaVisualización de datosAgrupaciónÁrboles de clasificaciónRedes neuronalesAnalysis of dataStatisticsAnálisis de datosEstadísticaExploratory data analysis in the context of data mining and resamplingAnálisis exploratorio de datos en el contexto de minería de datos y remuestreo.Artículo de revistaArtículoinfo:eu-repo/semantics/articlehttp://purl.org/coar/resource_type/c_2df8fbb1PublicationLICENSElicense.txtlicense.txttext/plain; charset=utf-82071https://bibliotecadigital.usb.edu.co/bitstreams/a6648c04-21ff-4628-be34-f33fe01a060a/download0c7b7184e7583ec671a5d9e43f0939c0MD52ORIGINALExploratory_Analysis_Context_Chong_2010.pdfExploratory_Analysis_Context_Chong_2010.pdfapplication/pdf379362https://bibliotecadigital.usb.edu.co/bitstreams/3b0efa58-7874-42a0-8449-c57f0c5b7fc0/download239a30cd1ad5793ce4485f7148396fffMD51TEXTExploratory_Analysis_Context_Chong_2010.pdf.txtExploratory_Analysis_Context_Chong_2010.pdf.txtExtracted texttext/plain67609https://bibliotecadigital.usb.edu.co/bitstreams/f745b6fe-08b0-4aa0-b1bc-c58bcc326a02/download73c8a9510c79c838b15e3cef1ec5eeaeMD53THUMBNAILExploratory_Analysis_Context_Chong_2010.pdf.jpgExploratory_Analysis_Context_Chong_2010.pdf.jpgGenerated Thumbnailimage/jpeg12703https://bibliotecadigital.usb.edu.co/bitstreams/aedda59e-665f-47d7-88de-cb8f20e96b7b/download2157177afe1e1bbadf7d9e4540cd9e9bMD5410819/6448oai:bibliotecadigital.usb.edu.co:10819/64482023-04-12 16:39:36.031http://creativecommons.org/licenses/by-nc-nd/2.5/co/https://bibliotecadigital.usb.edu.coRepositorio Institucional Universidad de San Buenaventura Colombiabdigital@metabiblioteca.comPGNlbnRlcj4KPGgzPkJJQkxJT1RFQ0EgRElHSVRBTCBVTklWRVJTSURBRCBERSBTQU4gQlVFTkFWRU5UVVJBIC0gQ09MT01CSUE8L2gzPgo8cD4KVMOpcm1pbm9zIGRlIGxhIGxpY2VuY2lhIGdlbmVyYWwgcGFyYSBwdWJsaWNhY2nDs24gZGUgb2JyYXMgZW4gZWwgcmVwb3NpdG9yaW8gaW5zdGl0dWNpb25hbDwvcD48L2NlbnRlcj4KPFAgQUxJR049Y2VudGVyPgpQb3IgbWVkaW8gZGUgZXN0ZSBmb3JtYXRvIG1hbmlmaWVzdG8gbWkgdm9sdW50YWQgZGUgQVVUT1JJWkFSIGEgbGEgVW5pdmVyc2lkYWQgZGUgU2FuIEJ1ZW5hdmVudHVyYSwgU2VkZSBCb2dvdMOhIHkgPEJSPlNlY2Npb25hbGVzIE1lZGVsbMOtbiwgQ2FsaSB5IENhcnRhZ2VuYSwgbGEgZGlmdXNpw7NuIGVuIHRleHRvIGNvbXBsZXRvIGRlIG1hbmVyYSBncmF0dWl0YSB5IHBvciB0aWVtcG8gaW5kZWZpbmlkbyBlbiBsYTxCUj4gQmlibGlvdGVjYSBEaWdpdGFsIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIGVsIGRvY3VtZW50byBhY2Fkw6ltaWNvIC0gaW52ZXN0aWdhdGl2byBvYmpldG8gZGUgbGEgcHJlc2VudGUgPEJSPmF1dG9yaXphY2nDs24sIGNvbiBmaW5lcyBlc3RyaWN0YW1lbnRlIGVkdWNhdGl2b3MsIGNpZW50w63CrWZpY29zIHkgY3VsdHVyYWxlcywgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDxCUj4gMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvczxCUj4gZGUgYXV0b3IuIDxCUj4gCiAKQ29tbyBhdXRvciBtYW5pZmllc3RvIHF1ZSBlbCBwcmVzZW50ZSBkb2N1bWVudG8gYWNhZMOpbWljbyAtIGludmVzdGlnYXRpdm8gZXMgb3JpZ2luYWwgeSBzZSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gPEJSPiB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgbWkgZXhjbHVzaXZhIGF1dG9yw63CrWEgeSBwb3NlbyBsYSB0aXR1bGFyaWRhZCA8QlI+IHNvYnJlIGxhIG1pc21hLiBMYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIG5vIHNlcsOhIHJlc3BvbnNhYmxlIGRlIG5pbmd1bmEgdXRpbGl6YWNpw7NuIGluZGViaWRhIGRlbCBkb2N1bWVudG8gPEJSPnBvciBwYXJ0ZSBkZSB0ZXJjZXJvcyB5IHNlcsOhIGV4Y2x1c2l2YW1lbnRlIG1pIHJlc3BvbnNhYmlsaWRhZCBhdGVuZGVyIHBlcnNvbmFsbWVudGUgY3VhbHF1aWVyIHJlY2xhbWFjacOzbiBxdWUgcHVlZGE8QlI+IHByZXNlbnRhcnNlIGEgbGEgVW5pdmVyc2lkYWQuIDxCUj4KIApBdXRvcml6byBhIGxhIEJpYmxpb3RlY2EgRGlnaXRhbCBkZSBsYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIGNvbnZlcnRpciBlbCBkb2N1bWVudG8gYWwgZm9ybWF0byBxdWUgZWwgPEJSPnJlcG9zaXRvcmlvIGxvIHJlcXVpZXJhIChpbXByZXNvLCBkaWdpdGFsLCBlbGVjdHLDs25pY28gbyBjdWFscXVpZXIgb3RybyBjb25vY2lkbyBvIHBvciBjb25vY2VyKSBvIGNvbiBmaW5lcyBkZTxCUj4gcHJlc2VydmFjacOzbiBkaWdpdGFsLiA8QlI+CiAKRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGVuZ28gZGUgcHVibGljYXIgcG9zdGVyaW9ybWVudGUgbGEgb2JyYSwgZW4gZm9ybWEgdG90YWwgbyA8QlI+cGFyY2lhbCwgcG9yIGxvIGN1YWwgcG9kcsOpLCBkYW5kbyBhdmlzbyBwb3IgZXNjcml0byBjb24gbm8gbWVub3MgZGUgdW4gbWVzIGRlIGFudGVsYWNpw7NuLCBzb2xpY2l0YXIgcXVlIGVsIDxCUj5kb2N1bWVudG8gZGVqZSBkZSBlc3RhciBkaXNwb25pYmxlIHBhcmEgZWwgcMO6YmxpY28gZW4gbGEgQmlibGlvdGVjYSBEaWdpdGFsIGRlIGxhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIDxCUj4gYXPDrcKtIG1pc21vLCBjdWFuZG8gc2UgcmVxdWllcmEgcG9yIHJhem9uZXMgbGVnYWxlcyB5L28gcmVnbGFzIGRlbCBlZGl0b3IgZGUgdW5hIHJldmlzdGEuIDxCUj48L1A+Cg== |