Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox

Autores

DOI:

https://doi.org/10.14393/DL51-v16n3a2022-10

Palavras-chave:

Dados orais, Sociolinguística, ELAN, LancsBox, Bancos de dados linguísticos

Resumo

Objetiva-se com este trabalho demonstrar como as ferramentas de transcrição de dados ELAN 5.9 (2020) e de análise de corpora LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) têm contribuído para a transcrição de entrevistas sociolinguísticas realizadas no escopo do Grupo de Estudos em Linguagem, Interação e Sociedade (GELINS) da Universidade Federal de Sergipe, bem como para extração automatizada de fenômenos linguísticos variáveis. Para tanto, apresenta-se as normas pelas quais as entrevistas são transcritas, formas de utilizar o ELAN 5.9 (2020) para transcrição, e por fim, a maneira de fazer a etiquetagem morfológica dos dados e buscas por fenômenos variáveis nos dados de fala utilizando-se a ferramenta LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020). As duas ferramentas têm se mostrado eficientes para uma transcrição alinhada com áudio, para anotação morfológica e buscas automáticas em grandes volumes de textos orais.  Este texto contribui para exploração de ferramentas que permitam uma transcrição mais rápida e acurada de dados orais bem como buscas mais automatizadas de grandes volumes de dados.

Downloads

Não há dados estatísticos.

Biografia do Autor

Marta Deysiane Alves Faria Sousa, Universidade Federal de Sergipe

Possui graduação em Letras pela Universidade Federal de Viçosa (2010) e mestrado em Letras pelo Programa de Pós-Graduação em Letras pela mesma universidade, sendo bolsista CAPES (2013). Doutoranda do Programa de Pós-Graduação em Letras da UFS.

Victor Renê Andrade Souza, Universidade Federal de Sergipe

Mestrando em Estudos Linguísticos pelo Programa de Pós-graduação em Letras da Universidade Federal de Sergipe (PPGL/UFS).

Referências

ALENCAR, L. F. Aelius 0.9.7 User's Manual. 2013. Disponível em: http://aelius.sourceforge.net/manual.html. Acesso em: 25 fev. 2020.

ANTHONY, L. AntConc v. 3.5.9 [Computer Software]. Tokyo, Japan: Waseda University. Disponível em: https://www.laurenceanthony.net/software. Acesso em: 20 ago 2020.

BERBER SARDINHA, T. Linguística de Corpus. Barueri: Manolo, 2004.

BREZINA, V.; WEILL-TESSIER, P.; MCENERY, A. (2020). #LancsBox v. 5.1.2 [software]. Disponível em: http://corpora.lancs.ac.uk/lancsbox. Acesso em: 20 ago. 2020.

CARDOSO, P. B. O paradoxo entre a transparência dos dados e a privacidade dos informantes na gestão de dados linguísticos. Revista da ABRALIN, v. 19, n. 2, p. 1-9, 24 ago. 2020. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/1631. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/rabralin.v19i2.1631

CIANCONI, R. B. Banco de dados de acesso público. Ciência Da Informação, v. 16, n 1, p. 53-59, 1987. Disponível em: https://revista.ibict.br/ciinf/article/view/271. Acesso em: 08 jul. 2022. DOI

ELAN (Version 5.9) [Computer software]. (2020). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Disponível em: https://archive.mpi.nl/tla/ELAN.

FREITAG, R. M. Ko; MARTINS, M. A.; TAVARES, M. A. Bancos de dados sociolinguísticos do português brasileiro e os estudos de terceira onda: potencialidades e limitações. Alfa: Revista de Linguística, v. 56, n. 3, 2012. Disponível em: https://www.scielo.br/j/alfa/a/J6ZcH9z3RPYz5ZGxnQkZJkr/abstract/?lang=pt. Acesso em: 12 jan. 2021. DOI https://doi.org/10.1590/S1981-57942012000300009

FREITAG, R. M. Ko. Banco de dados falares sergipanos. Working Papers em Linguística, v. 14, n. 2, p. 156-164, 2013. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2013v14n2p156. Acesso em: 05 jul. 2021. DOI https://doi.org/10.5007/1984-8420.2013v14n2p156

FREITAG, R. M. Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS

FREITAG, R. M. Ko.; PINHEIRO, B. F. M.; SILVA, L. S. Análise variacionista de pausas preenchidas em fronteiras de constituintes. In: FREITAG, R. M. KO.; LUCENTE, L. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher, 2017. DOI https://doi.org/10.5151/9788580392593-07

FREITAG, R. M. K. Projeto de pesquisa: A língua do universitário: fala, leitura e escrita para o letramento acadêmico. 2018. Disponível em: https://url.gratis/5V6QBR. Acesso em: 20 abr. 2020.

FREITAG, R. M. K.; MARTINS, M. A. R.; ARAÚJO, A.; BATTISTI, E.; COELHO, I. M. W. DA S.; SOUSA, M. D. A. F.; SILVA, R. G. DA; LIMA-LOPES, R. E. DE. Desafios da gestão de dados linguísticos e a Ciência Aberta. Cadernos de Linguística, v. 2, n. 1, p. 01-19, abr. 2021. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/307. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/2675-4916.2021.v2.n1.id307

GONÇALVES, S. C. L.; TENANI, L. E. Problemas teórico-metodológicos na elaboração de um sistema de transcrição de dados interacionais: o caso do projeto ALIP (Amostra Lingüística do Interior Paulista). Gragoatá, n. 25, p. 165-183, 2008. Disponível em: https://periodicos.uff.br/gragoata/article/view/33148. Acesso em: 05 jul. 2021.

KILGARRIFF, A.; BAISA, V.; BUŠTA, J.; JAKUBÍČEK, M.; KOVÁŘ, V.; MICHELFEIT, J.; RYCHLÝ, P.; SUCHOMEL, V. The Sketch Engine: ten years on. Lexicography, v.1, p. 7-36, 2014. DOI https://doi.org/10.1007/s40607-014-0009-9

NAGY, N.; MEYERHOFF, M. Extending ELAN into variationist sociolinguistics. Linguistics Vanguard, v. 1, n. 1, 2015, p. 271-281. Disponível em: https://doi.org/10.1515/lingvan-2015-0012. Acesso em: 20 jul. 2021. DOI https://doi.org/10.1515/lingvan-2015-0012

NOVAIS, V. S. Variação na concordância verbal de terceira pessoa do plural na fala de universitários sergipanos. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2021.

OTHERO, G. A.; AYRES, M. R. Anotação morfológica automática de corpus de língua falada: desafios ao Aelius. Texto Livre: linguagem e tecnologia, v. 7, n. 2, p.44-60, 2014. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/textolivre/article/view/6123/5959. Acesso em: 01 jul. 2019. DOI https://doi.org/10.17851/1983-3652.7.2.44-60

OUSHIRO, L. Transcrição de entrevistas sociolinguísticas com o ELAN. In: FREITAG, Raquel Meister Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS-9cap

PAIVA, M. C. Transcrição de dados lingüísticos. In: MOLLICA, M. C.; BRAGA, M. L. (org.). Introdução à Sociolingüística: o tratamento da variação. São Paulo: Contexto, 2003. p. 135-146.

RODRIGUES, F. G. C. Variação na regência de complementos locativos verbos de movimento na fala de universitários da UFS. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2019.

ROSENFELDER, I. A short introduction to transcribing with elan. University of Pennsylvania, 2011. Disponível em: https://www.ling.upenn.edu/~wlabov/L560/ELAN_introduction.pdf. Acesso em: 20 jul. 2021.

SCHMID, H. Improvements in Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop. 1995, Dublin. Proceedings […]. Dublin, 1994.

SIQUEIRA, M. Análise contrastiva da estrutura do sintagma nominal possessivizado no português brasileiro. Matraga, v. 28, n. 52, 2021. Disponível em: https://www.e-publicacoes.uerj.br/index.php/matraga/article/view/53146. Acesso em: 02 jul. 2021. DOI https://doi.org/10.12957/matraga.2021.53146

STARTING with #LancsBox v. 3.0. 2017. 1 vídeo (6min 54s). Publicado pelo canal de Vaclav Brezina. Disponível em: https://www.youtube.com/watch?v=7SFJMFUP83Y. Acesso em: 20 jul. 2021.

TACCHETTI, M. User's Guide for ELAN Linguistic Annotator. 2017. Disponível em: https://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf. Acesso em: 20 jul. 2021.

#LancsBox 5.1 manual. Lancaster University. Disponível em: http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_5.1_manual.pdf. Acesso em: 20 jul. 2021.

Downloads

Publicado

18-07-2022

Como Citar

SOUSA, M. D. A. F.; SOUZA, V. R. A. Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox. Domínios de Lingu@gem, [S. l.], v. 16, n. 3, p. 1173–1202, 2022. DOI: 10.14393/DL51-v16n3a2022-10. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447. Acesso em: 14 ago. 2022.