Corpus lexicográfico y visión por computadora: una metodología basada en IA para la recolección y anotación semiautomática a gran escala de signos y el análisis de la variación léxica (regionalismos) en la Lengua de Señas Brasileña

uma metodologia baseada em IA para a coleta e anotação semiautomática de sinais em larga escala e a análise de variações lexicais (regionalismos) em Libras

Autores/as

DOI:

https://doi.org/10.14393/DLv20a2026-4

Palabras clave:

Libras, Variación Léxica, Sociolingüística Computacional, Visión por Computadora, Corpus Lexicográfico

Resumen

El estudio cuantitativo de la variación léxica (regionalismos) en  Libras se ve metodológicamente obstaculizado por la ausencia de corpus lexicográficos a gran escala, anotados cherológicamente. Las metodologías tradicionales de anotación manual, como ELAN, son inviables para la construcción de corpus masivos (decenas de miles de horas), y la praxis del glosado conceptual (traducción) resulta en la pérdida de información articulatoria (significante), haciendo imposible el estudio de variantes cherológicas sutiles. Este artículo propone una arquitectura metodológica interdisciplinaria que resuelve este doble cuello de botella articulando Lingüística de Corpus, Visión por Computadora y Sociolingüística Computacional. El objetivo es detallar una cadena técnica y éticamente robusta para la recolección y anotación semiautomática a gran escala, enfocada específicamente en el descubrimiento y análisis de la variación sociolingüística. La metodología inicia con una revisión sistemática (PRISMA) que mapea el estado del arte (2018-2025), identificando la brecha central: la IA se enfoca casi exclusivamente en el reconocimiento (SLR) y la traducción (SLT), tratando la variación lingüística como ruido en lugar de objeto de estudio. La arquitectura propuesta emplea una cadena de dos fases. La Fase 1  utiliza la estimación de pose (MediaPipe optimizado), siguiendo la optimización de dos Santos et al. (2025), para convertir videos (recogidos "in-the-wild") en representaciones vectoriales (series temporales de puntos de referencia), reemplazando el glosado por una "transcripción cherológica" cuantificable. La Fase 2  utiliza modelos Transformer, entrenados sobre un corpus inicial, para generar sugerencias de etiquetas léxicas. Estas sugerencias son sometidas a una interfaz de validación con intervención humana, donde lingüistas Sordos validan o corrigen las anotaciones, con el modelo siendo reentrenado iterativamente. Como resultado, la metodología produce una base de datos relacional masiva que vincula formas articulatorias (vectores) con metadatos sociolingüísticos. Este corpus permite un análisis sociolingüístico computacional mediante técnicas de agrupamiento no supervisado, facilitando el descubrimiento de patrones y la identificación de variantes regionales, que se correlacionan posteriormente con datos geográficos para mapear la variación, posibilitando la creación de atlas lingüísticos cuantitativos para Libras. La conclusión es que esta arquitectura supera los cuellos de botella de la lexicografía tradicional y ofrece una vía viable para documentar la variación. El artículo discute críticamente los fundamentos éticos, posicionando la "Investigación dirigida por Sordos" como un pilar metodológico central para mitigar sesgos algorítmicos (como el tecno-ablismo) y asegurar que la tecnología funcione como herramienta de documentación y empoderamiento, no para la sustitución ni la erosión de los derechos lingüísticos.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • Bruno Jose Betti Galasso, Universidade Federal de São Paulo

    Doutor em Educação pela Universidade de São Paulo com bolsa-sanduíche na Universidade do Minho (Portugal), concedida pelo programa Eramus Mundus External Cooperation (Emundus15). Professor associado da Universidade Federal de São Paulo (UNIFESP).  

Referencias

BRAGG, D. et al. Sign language recognition, generation, and translation: An interdisciplinary perspective. In: THE 21ST INTERNATIONAL ACM SIGACCESS CONFERENCE ON COMPUTERS AND ACCESSIBILITY, 2019. p. 16-31. DOI https://doi.org/10.1145/3308561.3353774

CAMGÖZ, N. C. et al. Sign language transformers: Joint end-to-end sign language recognition and translation. In: PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020. p. 10023-10033. Disponível em: https://arxiv.org/abs/2003.13830. Acesso em: 30 jan. 2025.

CAO, Z. et al. OpenPose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, v. 43, n. 1, p. 172-186, 2021. DOI https://doi.org/10.1109/TPAMI.2019.2929257

DE MEULDER, M. The legal recognition of sign languages. Sign Language Studies, v. 15, n. 4, p. 498-506, 2015. DOI https://doi.org/10.1353/sls.2015.0018

DESAI, S. et al. Artificial intelligence in sign language research: Systematic review and future directions. ACM Computing Surveys, v. 56, n. 3, 2024.

DOS SANTOS, D. L. V. et al. Proper body landmark subset enables more accurate and 5X faster recognition of isolated signs in LIBRAS. arXiv preprint arXiv:2510.24887, 2025. Disponível em: https://arxiv.org/abs/2510.24887. Acesso em: 30 jan. 2025.

GRIEVE, J.; SPEELMAN, D.; GEERAERTS, D. A statistical method for the identification and aggregation of regional linguistic variation. Language Variation and Change, v. 23, n. 2, p. 193-221, 2011. DOI https://doi.org/10.1017/S095439451100007X

HIROOKA, K. et al. Stack Transformer based spatial-temporal attention model for dynamic sign language and fingerspelling recognition. arXiv preprint arXiv:2503.16855, 2025.

HOVY, D.; JOHANNSEN, A. Computational sociolinguistics. In: PROCEEDINGS OF THE 15TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EACL), 2017.

IEEE. IEEE P7000 series - Padrões éticos para sistemas autônomos e inteligentes. Disponível em: https://standards.ieee.org/. Acesso em: 10 jan. 2025.

LUGARESI, C. et al. MediaPipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172, 2019. Disponível em: https://arxiv.org/abs/1906.08172. Acesso em: 30 jan. 2025.

MACHADO, V. L. V. Análise da variação lexical em Libras. Repositório UFSC, 2018. Disponível em: https://repositorio.ufsc.br/. Acesso em: 15 jan. 2025.

MERCANOGLU, O.; KELES, H. AUTSL: A large scale multi-modal Turkish sign language dataset and baseline methods. arXiv preprint arXiv:2001.08078, 2020.

NIST. Artificial Intelligence Risk Management Framework (AI RMF 1.0). Disponível em: https://www.nist.gov/itl/ai-risk-management-framework. Acesso em: 10 jan. 2025. DOI https://doi.org/10.6028/NIST.AI.100-1.jpn

OLIVEIRA, L. A.; SILVA, M. P. S. C.; CAMPELO, W. N. M. Variações linguísticas na Libras: particularidades entre as formas de comunicação/sinalização. Revista Cocar, v. 4, 2020.

QUADROS, R. M. Língua de sinais brasileira: estudos linguísticos. Porto Alegre: Artmed, 2016.

QUADROS, R. M.; CRUZ, C. R. Língua de sinais: instrumentos de avaliação. Porto Alegre: Artmed, 2011.

QUADROS, R. M.; KARNOPP, L. B. Língua de Sinais Brasileira: estudos linguísticos. Porto Alegre: Artmed, 2004. DOI https://doi.org/10.18309/anp.v1i16.560

REZENDE, T. M.; ALMEIDA, S. G. M.; GUIMARÃES, F. G. Development and validation of a Brazilian sign language database for human gesture recognition. Research on Biomedical Engineering, v. 37, n. 4, p. 583-595, 2021. DOI

SANTOS, J. B. A variação lexical em Libras em três municípios do Estado de Alagoas. Dissertação (Mestrado em Linguística e Literatura) – Universidade Federal de Alagoas, Maceió, 2020.

SILVA, K. A. A transcrição de textos do Corpus de Libras. In: ANAIS DO VIII SIMPÓSIO INTERNACIONAL DE ESTUDOS DE GÊNEROS TEXTUAIS, 2015.

Publicado

2026-02-02

Número

Sección

Lexicografia e Inteligência Artificial

Cómo citar

GALASSO, Bruno Jose Betti. Corpus lexicográfico y visión por computadora: una metodología basada en IA para la recolección y anotación semiautomática a gran escala de signos y el análisis de la variación léxica (regionalismos) en la Lengua de Señas Brasileña: uma metodologia baseada em IA para a coleta e anotação semiautomática de sinais em larga escala e a análise de variações lexicais (regionalismos) em Libras. Domínios de Lingu@gem, Uberlândia, v. 20, p. e020004, 2026. DOI: 10.14393/DLv20a2026-4. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/80463. Acesso em: 2 feb. 2026.