Authorship attribution of comments in Portuguese extracted from Reddit
DOI:
https://doi.org/10.5335/rbca.v15i2.14045Palavras-chave:
Atribuição Autoral, Processamento de Língua Natural, Aprendizado de Máquina, Redes Sociais, Mineração de TextoResumo
Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis ​​para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.
Downloads
Downloads
Publicado
Edição
Seção
Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Todos os artigos estão licenciados com a licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional. Autores que publicam nesta revista concordam com os seguintes termos:
a) Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
b) Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
c) Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).