Redblock: a tool for online deduplication on large datasets

Authors

DOI:

https://doi.org/10.5335/rbca.v9i2.7143

Keywords:

Integração de Dados, Deduplicação Online, Blocagem.

Abstract

Online data deduplication aims to identify records that represent the same purpose on a continuous data flow environment. It must be able to process a range of information with high effectiveness and no delays. The purpose of this paper is to introduce a developed tool entitled Redblock, for real-time data deduplication, using a distributed platform for online processing combined with an Inverted Index. During the experimental evaluation, Redblock managed to provide good preliminary results in terms of efficiency and effectiveness in a database.

Downloads

Download data is not yet available.

Author Biographies

  • Luan Félix Pimentel, Universidade Federal da Fronteira Sul
    Acadêmico do curso de Ciência da Computação da Universidade Federal da Fronteira Sul (UFFS), Campus Chapecó/SC. Foi contemplado com bolsa pela CAPES e a Higher Education Authority para intercâmbio pelo programa Ciência sem Fronteiras (Nº138/2013) na University of Limerick, também na Irlanda. Trabalhou como pesquisador assistente do The Irish Software Research Centre (LERO) exercendo atividades voltadas para a área de Engenharia de Software e editoração multimídia (2014). Durante o mesmo período contribuiu como voluntário da HOPE IN MOTION, organização sem fins lucrativos na Irlanda, onde prestou assistência educacional e cuidados a idosos e crianças com necessidades especiais. Atualmente é membro diretor da empresa júnior FronteiraTec e membro fundador do GEPES (Grupo de Estudos e Pesquisa em Engenharia de Software), além de ser bolsista de iniciação científica e tecnológica em sua universidade.
  • Guilherme Dal Bianco, Universidade Federal da Fronteira Sul
    Guilherme Dal Bianco is an adjunct professor of computer science at the Federal University of Fronteira Sul (UFFS), Brazil. His research interests include data matching, data integration and Big Data.

Downloads

Published

2017-07-28

Issue

Section

Artigos selecionados em Conferências - XIII ERBD (2017)

How to Cite

[1]
2017. Redblock: a tool for online deduplication on large datasets. Brazilian Journal of Applied Computing. 9, 2 (Jul. 2017), 125–134. DOI:https://doi.org/10.5335/rbca.v9i2.7143.