Evaluating a typology of signals for automatic detection of complementarity

Jackson Wilke da Cruz Souza; Ariani Di Felippo

doi:10.14393/DL52-v16n4a2022-10

Autores

Jackson Wilke da Cruz Souza Universidade Federal de Alfenas https://orcid.org/0000-0003-1881-6780
Ariani Di Felippo Universidade Federal de São Carlos https://orcid.org/0000-0002-4566-9352

DOI:

https://doi.org/10.14393/DL52-v16n4a2022-10

Palavras-chave:

Cross-Document Structure Theory, Sumarização automática, Complementaridade, Corpus multidocumento, Sinal textual

Resumo

Em uma coleção de notícias sobre um mesmo evento, duas sentenças de textos distintos podem expressar diferentes fenômenos multidocumento (redundância, complementaridade e contradição). A Cross-Document Structure Theory (CST) provê rótulos para representar esses fenômenos. A identificação automática dos fenômenos multidocumento e das relações CST correspondentes é central à Sumarização Automática Mutidocumento, pois ajuda a máquina a entender o conteúdo textual. Neste artigo, avaliou-se uma tipologia de sinais (textuais) para a detecção automática das relações CST de complementaridade (Historical background, Follow-up e Elaboration) em um corpus multidocumento de notícias em Português do Brasil. Utilizando algoritmos de diferentes paradigmas de Aprendizado de Máquina, obtiveram-se classificadores que atingiram alto índice de acurácia geral (superior a 90%), indicando o potencial dos sinais.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

Jackson Wilke da Cruz Souza, Universidade Federal de Alfenas

PhD in Linguistics (UFSCar), professor in Instituto de Ciências Sociais Aplicadas from Universidade Federal de Alfenas (UNIFAL-MG).
Ariani Di Felippo, Universidade Federal de São Carlos

PhD in Linguistics (UNESP), professor in Departamento de Letras from Universidade Federal de São Carlos (UFSCar).

Referências

ALEIXO, P.; PARDO, T.A.S. Finding Related Sentences in Multiple Documents for Multidocument Discourse Parsing of Brazilian Portuguese Texts. In: Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web. 2008. p. 298-303. DOI https://doi.org/10.1145/1809980.1810055 DOI: https://doi.org/10.1145/1809980.1810055

BELTRAME, W.; CURY, D.; MENEZES, C. S. Fique Sabendo: um Sistema de Disseminação Seletiva da Informação para Apoio à Aprendizagem. In: Brazilian symposium on Computers in Education. Rio de Janeiro – Brazil. 2012. 10p.

CARDOSO, P. C. F.; MAZIERO, E. G.; JORGE, M. L. C.; SENO, E. M. R.; DI-FELIPPO, A.; RINO, L. H. M.; NUNES, M. G. V.; PARDO, T. A. S. CSTNews: a discourse-annotated corpus for Single and Multi-Document Summarization of news texts in Brazilian Portuguese. In: Proceedings of the 3rd RST Brazilian Meeting. Cuiabá – Brazil. 2011. p. 88-105.

DAS, D.; TABOADA, M. RST signalling corpus: a corpus of signals of coherence relations. Language Resources and Evaluation, v. 52, n. 1, p. 149–184, 2018. DOI https://doi.org/10.1007/s10579-017-9383-x DOI: https://doi.org/10.1007/s10579-017-9383-x

INAM, S.; SHOAIB, M.; MAJEED, F.; SHAERJEEL, M. I. Ontology based query reformulation using rhetorical relations. International Journal of Computer Sciences IJCS, Vol 9, Issue 4. p. 261-268, 2012.

JURAFSKY, D; MARTIN, J. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3ª Edition (Draft), 2021. Available at: https://web.stanford.edu/~jurafsky/slp3/. Access in: 08 Sept. 2021.

KUMAR, Y. J.; SALIM, N.; RAZA, B. Cross-document structural relationship identification using supervised machine learning. Applied Soft Computing, v. 12, n. 10, p. 3124-3131, 2012. DOI https://doi.org/10.1016/j.asoc.2012.06.017 DOI: https://doi.org/10.1016/j.asoc.2012.06.017

MANI, I. Automatic summarization. Vol. 3. John Benjamins Publishing. 2001. DOI https://doi.org/10.1075/nlp.3 DOI: https://doi.org/10.1075/nlp.3

MANN, W. C.; THOMPSON, S. A. Rhetorical structure theory: A theory of text organization. University of Southern California, Information Sciences Institute, 1987. DOI https://doi.org/10.1515/text.1.1988.8.3.243 DOI: https://doi.org/10.1515/text.1.1988.8.3.243

MAZIERO, E. G.; JORGE, M. L. C.; PARDO, T. A. S. Identifying multi-document relations. In: Proceedings of the International Workshop on Natural Language Processing and Cognitive Science. Funchal, Madeira/Funchal. 2010. p. 60-69. DOI: https://doi.org/10.5220/0003028800600069

MAZIERO, E.; PARDO, T. A. CSTParser–a multi-document discourse parser. In: Proceedings of the PROPOR. Coimbra – Portugal. 2012. p. 1-3.

MAZIERO, E. G. Identificação automática de relações multidocumento. Master’s dissertation (Masters in Computer Science and Computational Mathematics) - Institute of Mathematical and Computer Sciences, University of São Paulo, São Carlos, 2012.

MAZIERO, E. G.; JORGE, M. L. R. C.; PARDO, T. A. S. Revisiting Cross-document Structure Theory for multi-document discourse parsing. Information Processing & Management, v. 50, n. 2. p. 297-314, 2014. DOI https://doi.org/10.1016/j.ipm.2013.12.003 DOI: https://doi.org/10.1016/j.ipm.2013.12.003

MITCHELL, T. M. Does machine learning really work? AI magazine, v. 18, n. 3, p. 11. 1997.

MURAKAMI, K.; NICHOLS, E.; MIZUNO, J.; WATANABE, Y.; GOTO, H.; OHKI, M. Automatic classification of semantic relations between facts and opinions. In: Proceedings of 2nd workshop on NLP challenges in the information explosion Era NLPIX. Beijing – China. 2010. p. 21–30.

NENKOVA, A.; MCKEOWN, K. Automatic summarization. Foundations and Trends in Information Retrieval, 5(2-3), p. 103–233, 2011. DOI https://doi.org/10.1561/1500000015 DOI: https://doi.org/10.1561/1500000015

RADEV, D. R. A. Common theory of information fusion from multiple text sources step one: cross-document structure. In: Proceedings of the 1st SIGdial Workshop on Discourse and Dialogue. Volume 10. 2000. p. 74-83. DOI https://doi.org/10.3115/1117736.1117745 DOI: https://doi.org/10.3115/1117736.1117745

SHALEV-SHWARTZ, S.; BEN-DAVID, S. Understanding Machine Learning: From Theory to Algorithms. New York: Cambridge University Press, 2014. DOI https://doi.org/10.1017/CBO9781107298019 DOI: https://doi.org/10.1017/CBO9781107298019

SOUZA, J. W. C. Descrição linguística da complementaridade para a sumarização automática multidocumento. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos. 2015. p. 102.

SOUZA, J. W. C.; DI-FELIPPO, A. Caracterização da complementaridade temporal: subsídios para sumarização automática multidocumento. Alfa: Revista de Linguística (São José do Rio Preto), v. 62, p. 125-150, 2018. DOI https://doi.org/10.1590/1981-5794-1804-6 DOI: https://doi.org/10.1590/1981-5794-1804-6

SOUZA, J. W. C. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. 2019. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, p. 117. 2019.

SOUZA, J. W. C. O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento. Revista de Estudos da Linguagem, v. 29, n. 2, 2021. DOI https://doi.org/10.17851/2237-2083.29.2.1059-1087 DOI: https://doi.org/10.17851/2237-2083.29.2.1059-1087

TABOADA, M.; DAS, D. Annotation upon annotation: adding signalling information to a corpus of discourse relations. Dialogue and Discourse. v. 4, n. 2, p. 249-281, 2013. DOI https://doi.org/10.5087/dad.2013.211 DOI: https://doi.org/10.5087/dad.2013.211

WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. 2nd edition. Morgan Kaufmann, San Francisco. 2005.

ZAHRI, N. A. H. B.; FUKUMOTO, F. Multi-document Summarization using link analysis based on rhetorical relations between sentences. In: CICling Lectures Notes in Computer Science. 2011. p. 328-338. DOI https://doi.org/10.1007/978-3-642-19437-5_27 DOI: https://doi.org/10.1007/978-3-642-19437-5_27

ZHANG, Z.; BLAIR-GOLDENSOHN, S.; RADEV, D. R. Towards CST-enhanced summarization. In: Proceedings of the 18th National Conference on Artificial Intelligence (AAAI-2002), Edmonton – Canada. 2002. p. 439-446.

ZHANG, Z.; OTTERBACHER, J.; RADEV, D. R. Learning cross-document structural relationships using boosting. In: Proceedings of 12th ICIKM. New Orleans, USA. 2003. p. 124–130. DOI https://doi.org/10.1145/956863.956887 DOI: https://doi.org/10.1145/956863.956887