Redblock: a tool for online deduplication on large datasets

Autores

DOI:

https://doi.org/10.5335/rbca.v9i2.7143

Palavras-chave:

Integração de Dados, Deduplicação Online, Blocagem.

Resumo

Online data deduplication aims to identify records that represent the same purpose on a continuous data flow environment. It must be able to process a range of information with high effectiveness and no delays. The purpose of this paper is to introduce a developed tool entitled Redblock, for real-time data deduplication, using a distributed platform for online processing combined with an Inverted Index. During the experimental evaluation, Redblock managed to provide good preliminary results in terms of efficiency and effectiveness in a database.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Luan Félix Pimentel, Universidade Federal da Fronteira Sul
    Acadêmico do curso de Ciência da Computação da Universidade Federal da Fronteira Sul (UFFS), Campus Chapecó/SC, atua como Lead Growth Engineer pela Emergent Research, situada na Irlanda. Foi contemplado com bolsa pela CAPES e a Higher Education Authority para intercâmbio pelo programa Ciência sem Fronteiras (Nº138/2013) na University of Limerick, também na Irlanda. Trabalhou como pesquisador assistente do The Irish Software Research Centre (LERO) exercendo atividades voltadas para a área de Engenharia de Software e editoração multimídia (2014). Durante o mesmo período contribuiu como voluntário da HOPE IN MOTION, organização sem fins lucrativos na Irlanda, onde prestou assistência educacional e cuidados a idosos e crianças com necessidades especiais. Atualmente é presidente do centro acadêmico do curso de Ciência da Computação da UFFS, membro diretor da empresa júnior FronteiraTec e membro fundador do GEPES (Grupo de Estudos e Pesquisa em Engenharia de Software), além de ser bolsista de iniciação científica e tecnológica em sua universidade
  • Guilherme Dal Bianco, Universidade Federal da Fronteira Sul
    Guilherme Dal Bianco is an adjunct professor of computer science at the Federal University of Fronteira Sul (UFFS), Brazil. His research interests include data matching, data integration and Big Data.

Downloads

Publicado

28-07-2017

Edição

Seção

Artigos selecionados em Conferências - XIII ERBD (2017)

Como Citar

[1]
2017. Redblock: a tool for online deduplication on large datasets. Revista Brasileira de Computação Aplicada. 9, 2 (jul. 2017), 125–134. DOI:https://doi.org/10.5335/rbca.v9i2.7143.