Authorship attribution of comments in Portuguese extracted from Reddit

Autores

DOI:

https://doi.org/10.5335/rbca.v15i2.14045

Palavras-chave:

Atribuição Autoral, Processamento de Língua Natural, Aprendizado de Máquina, Redes Sociais, Mineração de Texto

Resumo

Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis ​​para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Luciano Antonio Digiampietri, Universidade de São Paulo

    Luciano Antonio Digiampietri é professor associado na USP. Possui graduação em Ciência da Computação pela Universidade Estadual de Campinas (2002) e doutorado em Ciência da Computação pela Universidade Estadual de Campinas (2007). É professor pesquisador no Bacharelado Sistemas de Informação (desde 2008) e no Programa de Pós-Graduação em Sistemas de Informação (desde 2010) da Escola de Artes, Ciências e Humanidades da Universidade de São Paulo (EACH-USP). Tem experiência na área de Ciência da Computação, com ênfase em Biologia Computacional, Bancos de Dados, Inteligência Artificial e Gerenciamento de Processos Científicos, atuando principalmente nos seguintes temas: workflows científicos, bioinformática, proveniência de dados, composição automática de serviços, rastreabilidade de experimentos, governo eletrônico e algoritmos

Downloads

Publicado

27-07-2023

Edição

Seção

Artigo Original

Como Citar

[1]
2023. Authorship attribution of comments in Portuguese extracted from Reddit. Revista Brasileira de Computação Aplicada. 15, 2 (jul. 2023), 1–10. DOI:https://doi.org/10.5335/rbca.v15i2.14045.