Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC

Autores

  • Cristiane Namiuti-Temponi Universidade Estadual do Sudoeste da Bahia
  • Aline Silva Costa Universidade Estadual do Sudoeste da Bahia

DOI:

https://doi.org/10.14393/LL60-v30n2a2014-5

Palavras-chave:

Corpus. XML. XPath. Penn TreeBank

Resumo

Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus. Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas. Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML. As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank. O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora. A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus. 

Downloads

Não há dados estatísticos.

Biografia do Autor

Cristiane Namiuti-Temponi, Universidade Estadual do Sudoeste da Bahia

xperiência na área de Lingüística, com ênfase em Lingüística Histórica e metodologias automáticas de busca de dados em textos escritos, atuando principalmente nos seguintes temas: interpolação, clítico, mudança linguística, história do português e linguistica de corpus. Possui graduação em Linguística pela Universidade Estadual de Campinas (2001), doutorado (2008) e Pós-Doutorado (2010), em Lingüística, pela mesma instituição.

Aline Silva Costa, Universidade Estadual do Sudoeste da Bahia

Aline Silva Costa é estudante de pós-graduação em Lingüística na Universidade Estadual do Sudoeste da Bahia (UESB) sob a orientação e co-orientação dos Professores: Cristiane Namiuti-Temponi e Jorge Viana Santos. Possui graduação em Ciência da Computação pela UESB (2004) e especialização em Administração de Sistemas de Informação pela Universidade Federal de Lavras (2005). Atualmente é professora efetiva do Instituto Federal de Educação, Ciência e Tecnologia da Bahia. Tem experiência na área de Ciência da Computação, com ênfase em Metodologia e Técnicas da Computação.

Downloads

Publicado

2014-12-18

Como Citar

NAMIUTI-TEMPONI, C.; COSTA, A. S. Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC. Letras & Letras, Uberlândia, v. 30, n. 2, p. 82–103, 2014. DOI: 10.14393/LL60-v30n2a2014-5. Disponível em: https://seer.ufu.br/index.php/letraseletras/article/view/27855. Acesso em: 8 out. 2024.