Avaliação da performance de índices de similaridade aplicados ao agrupamento de objetos textuais

Authors

  • Alfredo Silveira Araújo Neto Techway Informática Ltda. Av. Dom Luis, 500 - Sala 1709 Fortaleza - Ceará - Brasil
  • Marcos Negreiros Universidade Estadual do Ceará Mestrado Profissional em Computação Av. Paranjana, 1700 - Campus do Itaperi Fortaleza - Ceará - Brasil

DOI:

https://doi.org/10.5335/rbca.v9i4.7082

Keywords:

Análise de agrupamentos, Agrupamento de documentos, Índices de similaridade

Abstract

A captura e o armazenamento de dados em formato digital têm permitido às organizações o acúmulo de um volume de informações extremamente elevado, constituído em maior proporção por dados em formato não estruturado, representados por textos. Neste contexto, as atividades de análise de agrupamentos ou classificação não supervisionada de objetos, se constituem como uma das técnicas de mineração de informações mais frequentemente empregadas no intuito de proporcionar a organização do volume progressivamente crescente de elementos textuais, por meio da disposição dos documentos em grupos de itens semelhantes com base em um índice de similaridade. Neste sentido, este estudo avalia os índices de similaridade distância Euclidiana, distância do coseno, distância de Hamming, coeficiente de Jaccard estendido e coeficiente de correlação de Pearson, sob a perspectiva de seis índices de validação de agrupamentos, observando que a distância do coseno representa, conforme a presente análise, o índice de similaridade mais apropriado ao agrupamento de objetos textuais, convertidos em formato estruturado por intermédio de técnicas de mineração de textos.

Downloads

Download data is not yet available.

Published

2017-12-13

Issue

Section

Original Paper

How to Cite

[1]
2017. Avaliação da performance de índices de similaridade aplicados ao agrupamento de objetos textuais. Brazilian Journal of Applied Computing. 9, 4 (Dec. 2017), 43–59. DOI:https://doi.org/10.5335/rbca.v9i4.7082.