Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC
DOI:
https://doi.org/10.14393/LL60-v30n2a2014-5Palavras-chave:
Corpus. XML. XPath. Penn TreeBankResumo
Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus. Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas. Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML. As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank. O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora. A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus.Â
Downloads
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Autores que publicam nesta revista concordam com os seguintes termos:
Autores mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License que permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.