A framework for analyzing the relationship between size and complexity of data sets
DOI:
https://doi.org/10.5335/rbca.v13i2.10898Keywords:
Bagging, Boosting, Complexity Measures, Dataset SizeAbstract
In the Pattern Recognition field, a classification problem is complex when the samples of different classes are highly similar. Consequently, the literature proposed a variety of complexity descriptors, considering the importance of complexity as a promising factor to obtain accuracy. However, the sensitivity of these descriptors regarding the variation in the size of the training sets is not known. In this work, the goal is to analyze this behavior. For that reason, a variety of descriptors were estimated in 20,800 subsets created from: i) 26 classification problems, ii) 2 generators, and iii) 4 sizes. The results proved that the descriptors' sensitivity to size is a reality, being less noticeable in F1, F2, L2, N4, L3, T1, D2, and D3. The metrics F3, F4, N1, N2 and N3 are more influenced by variations in the number of instances present in the set.
Downloads
Downloads
Published
Issue
Section
License

Todos os artigos estão licenciados com a licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional. Autores que publicam nesta revista concordam com os seguintes termos:
a) Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
b) Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
c) Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).