Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox
DOI:
https://doi.org/10.14393/DL51-v16n3a2022-10Palavras-chave:
Dados orais, Sociolinguística, ELAN, LancsBox, Bancos de dados linguísticosResumo
Objetiva-se com este trabalho demonstrar como as ferramentas de transcrição de dados ELAN 5.9 (2020) e de análise de corpora LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) têm contribuído para a transcrição de entrevistas sociolinguísticas realizadas no escopo do Grupo de Estudos em Linguagem, Interação e Sociedade (GELINS) da Universidade Federal de Sergipe, bem como para extração automatizada de fenômenos linguísticos variáveis. Para tanto, apresenta-se as normas pelas quais as entrevistas são transcritas, formas de utilizar o ELAN 5.9 (2020) para transcrição, e por fim, a maneira de fazer a etiquetagem morfológica dos dados e buscas por fenômenos variáveis nos dados de fala utilizando-se a ferramenta LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020). As duas ferramentas têm se mostrado eficientes para uma transcrição alinhada com áudio, para anotação morfológica e buscas automáticas em grandes volumes de textos orais. Este texto contribui para exploração de ferramentas que permitam uma transcrição mais rápida e acurada de dados orais bem como buscas mais automatizadas de grandes volumes de dados.
Downloads
Métricas
Referências
ALENCAR, L. F. Aelius 0.9.7 User's Manual. 2013. Disponível em: http://aelius.sourceforge.net/manual.html. Acesso em: 25 fev. 2020.
ANTHONY, L. AntConc v. 3.5.9 [Computer Software]. Tokyo, Japan: Waseda University. Disponível em: https://www.laurenceanthony.net/software. Acesso em: 20 ago 2020.
BERBER SARDINHA, T. Linguística de Corpus. Barueri: Manolo, 2004.
BREZINA, V.; WEILL-TESSIER, P.; MCENERY, A. (2020). #LancsBox v. 5.1.2 [software]. Disponível em: http://corpora.lancs.ac.uk/lancsbox. Acesso em: 20 ago. 2020.
CARDOSO, P. B. O paradoxo entre a transparência dos dados e a privacidade dos informantes na gestão de dados linguísticos. Revista da ABRALIN, v. 19, n. 2, p. 1-9, 24 ago. 2020. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/1631. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/rabralin.v19i2.1631
CIANCONI, R. B. Banco de dados de acesso público. Ciência Da Informação, v. 16, n 1, p. 53-59, 1987. Disponível em: https://revista.ibict.br/ciinf/article/view/271. Acesso em: 08 jul. 2022. DOI
ELAN (Version 5.9) [Computer software]. (2020). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Disponível em: https://archive.mpi.nl/tla/ELAN.
FREITAG, R. M. Ko; MARTINS, M. A.; TAVARES, M. A. Bancos de dados sociolinguísticos do português brasileiro e os estudos de terceira onda: potencialidades e limitações. Alfa: Revista de Linguística, v. 56, n. 3, 2012. Disponível em: https://www.scielo.br/j/alfa/a/J6ZcH9z3RPYz5ZGxnQkZJkr/abstract/?lang=pt. Acesso em: 12 jan. 2021. DOI https://doi.org/10.1590/S1981-57942012000300009
FREITAG, R. M. Ko. Banco de dados falares sergipanos. Working Papers em Linguística, v. 14, n. 2, p. 156-164, 2013. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2013v14n2p156. Acesso em: 05 jul. 2021. DOI https://doi.org/10.5007/1984-8420.2013v14n2p156
FREITAG, R. M. Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS
FREITAG, R. M. Ko.; PINHEIRO, B. F. M.; SILVA, L. S. Análise variacionista de pausas preenchidas em fronteiras de constituintes. In: FREITAG, R. M. KO.; LUCENTE, L. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher, 2017. DOI https://doi.org/10.5151/9788580392593-07
FREITAG, R. M. K. Projeto de pesquisa: A língua do universitário: fala, leitura e escrita para o letramento acadêmico. 2018. Disponível em: https://url.gratis/5V6QBR. Acesso em: 20 abr. 2020.
FREITAG, R. M. K.; MARTINS, M. A. R.; ARAÚJO, A.; BATTISTI, E.; COELHO, I. M. W. DA S.; SOUSA, M. D. A. F.; SILVA, R. G. DA; LIMA-LOPES, R. E. DE. Desafios da gestão de dados linguísticos e a Ciência Aberta. Cadernos de Linguística, v. 2, n. 1, p. 01-19, abr. 2021. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/307. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/2675-4916.2021.v2.n1.id307
GONÇALVES, S. C. L.; TENANI, L. E. Problemas teórico-metodológicos na elaboração de um sistema de transcrição de dados interacionais: o caso do projeto ALIP (Amostra Lingüística do Interior Paulista). Gragoatá, n. 25, p. 165-183, 2008. Disponível em: https://periodicos.uff.br/gragoata/article/view/33148. Acesso em: 05 jul. 2021.
KILGARRIFF, A.; BAISA, V.; BUŠTA, J.; JAKUBÍČEK, M.; KOVÁŘ, V.; MICHELFEIT, J.; RYCHLÝ, P.; SUCHOMEL, V. The Sketch Engine: ten years on. Lexicography, v.1, p. 7-36, 2014. DOI https://doi.org/10.1007/s40607-014-0009-9
NAGY, N.; MEYERHOFF, M. Extending ELAN into variationist sociolinguistics. Linguistics Vanguard, v. 1, n. 1, 2015, p. 271-281. Disponível em: https://doi.org/10.1515/lingvan-2015-0012. Acesso em: 20 jul. 2021. DOI https://doi.org/10.1515/lingvan-2015-0012
NOVAIS, V. S. Variação na concordância verbal de terceira pessoa do plural na fala de universitários sergipanos. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2021.
OTHERO, G. A.; AYRES, M. R. Anotação morfológica automática de corpus de língua falada: desafios ao Aelius. Texto Livre: linguagem e tecnologia, v. 7, n. 2, p.44-60, 2014. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/textolivre/article/view/6123/5959. Acesso em: 01 jul. 2019. DOI https://doi.org/10.17851/1983-3652.7.2.44-60
OUSHIRO, L. Transcrição de entrevistas sociolinguísticas com o ELAN. In: FREITAG, Raquel Meister Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS-9cap
PAIVA, M. C. Transcrição de dados lingüísticos. In: MOLLICA, M. C.; BRAGA, M. L. (org.). Introdução à Sociolingüística: o tratamento da variação. São Paulo: Contexto, 2003. p. 135-146.
RODRIGUES, F. G. C. Variação na regência de complementos locativos verbos de movimento na fala de universitários da UFS. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2019.
ROSENFELDER, I. A short introduction to transcribing with elan. University of Pennsylvania, 2011. Disponível em: https://www.ling.upenn.edu/~wlabov/L560/ELAN_introduction.pdf. Acesso em: 20 jul. 2021.
SCHMID, H. Improvements in Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop. 1995, Dublin. Proceedings […]. Dublin, 1994.
SIQUEIRA, M. Análise contrastiva da estrutura do sintagma nominal possessivizado no português brasileiro. Matraga, v. 28, n. 52, 2021. Disponível em: https://www.e-publicacoes.uerj.br/index.php/matraga/article/view/53146. Acesso em: 02 jul. 2021. DOI https://doi.org/10.12957/matraga.2021.53146
STARTING with #LancsBox v. 3.0. 2017. 1 vídeo (6min 54s). Publicado pelo canal de Vaclav Brezina. Disponível em: https://www.youtube.com/watch?v=7SFJMFUP83Y. Acesso em: 20 jul. 2021.
TACCHETTI, M. User's Guide for ELAN Linguistic Annotator. 2017. Disponível em: https://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf. Acesso em: 20 jul. 2021.
#LancsBox 5.1 manual. Lancaster University. Disponível em: http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_5.1_manual.pdf. Acesso em: 20 jul. 2021.
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos da licença Creative Commons
CC BY-NC-ND 4.0: o artigo pode ser copiado e redistribuído em qualquer suporte ou formato; os créditos devem ser dados ao autor original e mudanças no texto devem ser indicadas; o artigo não pode ser usado para fins comerciais; caso o artigo seja remixado, transformado ou algo novo for criado a partir dele, o mesmo não pode ser distribuído.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.