Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox

Autores/as

DOI:

https://doi.org/10.14393/DL51-v16n3a2022-10

Palabras clave:

Dados orais, Sociolinguística, ELAN, LancsBox, Bancos de dados linguísticos

Resumen

Objetiva-se com este trabalho demonstrar como as ferramentas de transcrição de dados ELAN 5.9 (2020) e de análise de corpora LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) têm contribuído para a transcrição de entrevistas sociolinguísticas realizadas no escopo do Grupo de Estudos em Linguagem, Interação e Sociedade (GELINS) da Universidade Federal de Sergipe, bem como para extração automatizada de fenômenos linguísticos variáveis. Para tanto, apresenta-se as normas pelas quais as entrevistas são transcritas, formas de utilizar o ELAN 5.9 (2020) para transcrição, e por fim, a maneira de fazer a etiquetagem morfológica dos dados e buscas por fenômenos variáveis nos dados de fala utilizando-se a ferramenta LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020). As duas ferramentas têm se mostrado eficientes para uma transcrição alinhada com áudio, para anotação morfológica e buscas automáticas em grandes volumes de textos orais.  Este texto contribui para exploração de ferramentas que permitam uma transcrição mais rápida e acurada de dados orais bem como buscas mais automatizadas de grandes volumes de dados.

Descargas

Los datos de descargas todavía no están disponibles.

Métricas

Cargando métricas ...

Biografía del autor/a

Marta Deysiane Alves Faria Sousa, Universidade Federal de Sergipe

Possui graduação em Letras pela Universidade Federal de Viçosa (2010) e mestrado em Letras pelo Programa de Pós-Graduação em Letras pela mesma universidade, sendo bolsista CAPES (2013). Doutoranda do Programa de Pós-Graduação em Letras da UFS.

Victor Renê Andrade Souza, Universidade Federal de Sergipe

Mestrando em Estudos Linguísticos pelo Programa de Pós-graduação em Letras da Universidade Federal de Sergipe (PPGL/UFS).

Citas

ALENCAR, L. F. Aelius 0.9.7 User's Manual. 2013. Disponível em: http://aelius.sourceforge.net/manual.html. Acesso em: 25 fev. 2020.

ANTHONY, L. AntConc v. 3.5.9 [Computer Software]. Tokyo, Japan: Waseda University. Disponível em: https://www.laurenceanthony.net/software. Acesso em: 20 ago 2020.

BERBER SARDINHA, T. Linguística de Corpus. Barueri: Manolo, 2004.

BREZINA, V.; WEILL-TESSIER, P.; MCENERY, A. (2020). #LancsBox v. 5.1.2 [software]. Disponível em: http://corpora.lancs.ac.uk/lancsbox. Acesso em: 20 ago. 2020.

CARDOSO, P. B. O paradoxo entre a transparência dos dados e a privacidade dos informantes na gestão de dados linguísticos. Revista da ABRALIN, v. 19, n. 2, p. 1-9, 24 ago. 2020. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/1631. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/rabralin.v19i2.1631

CIANCONI, R. B. Banco de dados de acesso público. Ciência Da Informação, v. 16, n 1, p. 53-59, 1987. Disponível em: https://revista.ibict.br/ciinf/article/view/271. Acesso em: 08 jul. 2022. DOI

ELAN (Version 5.9) [Computer software]. (2020). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Disponível em: https://archive.mpi.nl/tla/ELAN.

FREITAG, R. M. Ko; MARTINS, M. A.; TAVARES, M. A. Bancos de dados sociolinguísticos do português brasileiro e os estudos de terceira onda: potencialidades e limitações. Alfa: Revista de Linguística, v. 56, n. 3, 2012. Disponível em: https://www.scielo.br/j/alfa/a/J6ZcH9z3RPYz5ZGxnQkZJkr/abstract/?lang=pt. Acesso em: 12 jan. 2021. DOI https://doi.org/10.1590/S1981-57942012000300009

FREITAG, R. M. Ko. Banco de dados falares sergipanos. Working Papers em Linguística, v. 14, n. 2, p. 156-164, 2013. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2013v14n2p156. Acesso em: 05 jul. 2021. DOI https://doi.org/10.5007/1984-8420.2013v14n2p156

FREITAG, R. M. Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS

FREITAG, R. M. Ko.; PINHEIRO, B. F. M.; SILVA, L. S. Análise variacionista de pausas preenchidas em fronteiras de constituintes. In: FREITAG, R. M. KO.; LUCENTE, L. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher, 2017. DOI https://doi.org/10.5151/9788580392593-07

FREITAG, R. M. K. Projeto de pesquisa: A língua do universitário: fala, leitura e escrita para o letramento acadêmico. 2018. Disponível em: https://url.gratis/5V6QBR. Acesso em: 20 abr. 2020.

FREITAG, R. M. K.; MARTINS, M. A. R.; ARAÚJO, A.; BATTISTI, E.; COELHO, I. M. W. DA S.; SOUSA, M. D. A. F.; SILVA, R. G. DA; LIMA-LOPES, R. E. DE. Desafios da gestão de dados linguísticos e a Ciência Aberta. Cadernos de Linguística, v. 2, n. 1, p. 01-19, abr. 2021. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/307. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/2675-4916.2021.v2.n1.id307

GONÇALVES, S. C. L.; TENANI, L. E. Problemas teórico-metodológicos na elaboração de um sistema de transcrição de dados interacionais: o caso do projeto ALIP (Amostra Lingüística do Interior Paulista). Gragoatá, n. 25, p. 165-183, 2008. Disponível em: https://periodicos.uff.br/gragoata/article/view/33148. Acesso em: 05 jul. 2021.

KILGARRIFF, A.; BAISA, V.; BUŠTA, J.; JAKUBÍČEK, M.; KOVÁŘ, V.; MICHELFEIT, J.; RYCHLÝ, P.; SUCHOMEL, V. The Sketch Engine: ten years on. Lexicography, v.1, p. 7-36, 2014. DOI https://doi.org/10.1007/s40607-014-0009-9

NAGY, N.; MEYERHOFF, M. Extending ELAN into variationist sociolinguistics. Linguistics Vanguard, v. 1, n. 1, 2015, p. 271-281. Disponível em: https://doi.org/10.1515/lingvan-2015-0012. Acesso em: 20 jul. 2021. DOI https://doi.org/10.1515/lingvan-2015-0012

NOVAIS, V. S. Variação na concordância verbal de terceira pessoa do plural na fala de universitários sergipanos. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2021.

OTHERO, G. A.; AYRES, M. R. Anotação morfológica automática de corpus de língua falada: desafios ao Aelius. Texto Livre: linguagem e tecnologia, v. 7, n. 2, p.44-60, 2014. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/textolivre/article/view/6123/5959. Acesso em: 01 jul. 2019. DOI https://doi.org/10.17851/1983-3652.7.2.44-60

OUSHIRO, L. Transcrição de entrevistas sociolinguísticas com o ELAN. In: FREITAG, Raquel Meister Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS-9cap

PAIVA, M. C. Transcrição de dados lingüísticos. In: MOLLICA, M. C.; BRAGA, M. L. (org.). Introdução à Sociolingüística: o tratamento da variação. São Paulo: Contexto, 2003. p. 135-146.

RODRIGUES, F. G. C. Variação na regência de complementos locativos verbos de movimento na fala de universitários da UFS. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2019.

ROSENFELDER, I. A short introduction to transcribing with elan. University of Pennsylvania, 2011. Disponível em: https://www.ling.upenn.edu/~wlabov/L560/ELAN_introduction.pdf. Acesso em: 20 jul. 2021.

SCHMID, H. Improvements in Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop. 1995, Dublin. Proceedings […]. Dublin, 1994.

SIQUEIRA, M. Análise contrastiva da estrutura do sintagma nominal possessivizado no português brasileiro. Matraga, v. 28, n. 52, 2021. Disponível em: https://www.e-publicacoes.uerj.br/index.php/matraga/article/view/53146. Acesso em: 02 jul. 2021. DOI https://doi.org/10.12957/matraga.2021.53146

STARTING with #LancsBox v. 3.0. 2017. 1 vídeo (6min 54s). Publicado pelo canal de Vaclav Brezina. Disponível em: https://www.youtube.com/watch?v=7SFJMFUP83Y. Acesso em: 20 jul. 2021.

TACCHETTI, M. User's Guide for ELAN Linguistic Annotator. 2017. Disponível em: https://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf. Acesso em: 20 jul. 2021.

#LancsBox 5.1 manual. Lancaster University. Disponível em: http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_5.1_manual.pdf. Acesso em: 20 jul. 2021.

Publicado

2022-07-18

Cómo citar

SOUSA, M. D. A. F.; SOUZA, V. R. A. Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox. Domínios de Lingu@gem, Uberlândia, v. 16, n. 3, p. 1173–1202, 2022. DOI: 10.14393/DL51-v16n3a2022-10. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447. Acesso em: 23 nov. 2024.