Projeto Carabela: Inteligência artificial para revelar os segredos da história da Espanha

Projeto Carabela: Inteligência artificial para revelar os segredos da história da Espanha


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Inteligência Artificial (IA) e Aprendizado de Máquina (ML) a serviço de historiadores, junto com algoritmos que localizam documentos de grande interesse para a história da Espanha. Atrás disso está Projeto Carabela, um projeto desenvolvido nos últimos dois anos por pesquisadores da Universidade Politécnica de Valência (UPV) e do Centro de Arqueologia Subaquática do Instituto Andaluz de Patrimônio Histórico.

Dentro desta estrutura, eles desenvolveram e aplicaram novas técnicas de AI / ML que permitem o acesso ao conteúdo de mais de 130.000 imagens do Arquivo Geral das Índias e do Arquivo Histórico Provincial de Cádiz. O projeto recebeu apoio do programa Auxílio a Equipes de Pesquisa Científica da Fundação BBVA, na área de Humanidades Digitais.

“Com essas técnicas podemos rastrear qualquer documento gráfico com a mesma velocidade de um buscador na web, identificando palavras específicas, combinações de palavras, frases, etc…. Tudo isso graças a modelos estatísticos que treinamos a partir de exemplos e que hoje são os grandes aliados para o estudo dessas coleções na história da Espanha. E os mesmos métodos também podem ser aplicados a muitos outros documentos históricos ”, destaca Enrique Vidal, pesquisador do Centro de Reconhecimento de Padrões e Tecnologias da Linguagem Humana (PRHLT) da UPV.

Arquivo Geral das Índias

o fundos do Arquivo Geral das Índias São de excepcional interesse para o estudo da história da Espanha na América –desde o sul dos Estados Unidos à Terra do Fogo- e nas Filipinas durante os séculos XV a XIX.

Se trata de manuscritos relacionados com viagens e comércio naval espanhol, cuja análise não pode ser feita com as técnicas tradicionais de transcrição OCR - por se tratarem de textos impressos - nem com técnicas específicas para materiais manuscritos, uma vez que os resultados que oferecem quando aplicados a esses textos históricos são muito imprecisos.

“A Carabela nos permitiu ir mais longe, com técnicas de aprendizado de máquina que permitem indexar imagens de textos manuscritos em grandes coleções de documentos históricos cujo estado de conservação e estilos de escrita complicados tornam quase impossível para humanos ler seus documentos”, diz Joan Andreu Sánchez, também pesquisador do PRHLT-UPV.

Essas técnicas são capazes de identificar e discernir os diferentes tipos de letras usadas em cada um dos períodos em que os documentos estão datados e até analisar imagens de qualidade muito baixa.

A chave está no capacidade de seus algoritmos para obter modelos que são 'aprendidos' automaticamente a partir de exemplos.

“Esses modelos requerem uma quantidade relativamente pequena de dados de aprendizagem para obter resultados muito satisfatórios. Esses métodos permitem uma resposta satisfatória aos desafios colocados pelos próprios documentos, como diferenças de grafia, manchas ou qualidade de imagem ”, acrescenta Vidal.

Neste caso, a aprendizagem foi feita com cerca de 500 páginas do Arquivo das Índias, que foram selecionados e transcritos por Carlos Alonso e sua equipe de especialistas do Centro de Arqueologia Subaquática.

Naufrágios e Austrália

Caravel trouxe à luz informações do manuscrito sobre naufrágios que constituem um património arqueológico de primeira grandeza, devido à grande riqueza histórica e cultural do seu conteúdo. “Assim, Carabela também contribui para evitar o saqueio do patrimônio submerso”, explica Joan Andreu Sánchez.

Mas, sem dúvida, uma das descobertas mais surpreendentes nesses fundos ocorreu quando, em busca de termos relacionados à Austrália, como "Incognita Southern Land", um carta do início do século 18 dirigida ao rei Felipe V.

“Nesta carta, escrita pelo jesuíta Andrés Serrano, descobrimos referências muito precisas ao continente meridional que datam de 1705, muito antes de o capitão James Cook chegar às suas costas em 1770. Dados pouco conhecidos sobre a história da Austrália e que agora estamos descobrindo aplicando técnicas de indexação e busca probabilística desenvolvidas em nosso centro ”, explica Enrique Vidal.

LEIA, a Idade de Ouro e Transkribus

Nesta mesma linha de trabalho, a equipa PRHLT tem participado no projecto europeu READ, que estudou e analisou documentos da Idade de Ouro da literatura espanhola, entre eles Manuscritos de Lope de Vega da coleção da Biblioteca Nacional e correspondência dos Irmãos Grimm dos Arquivos do Estado de Marburg.

Também do Arquivo Nacional da Finlândia, do qual cerca de 150.000 páginas foram indexadas, e em projetos futuros pretende-se indexar cerca de 1 milhão de páginas.

Além disso, No âmbito do projeto, Transkribus foi desenvolvido, uma plataforma de software que permite anotar imagens de documentos antigos de grande valor historiográfico.

Transkribus é usado principalmente como uma ferramenta de geração de dados de treinamentojá que as técnicas de reconhecimento de texto manuscrito requerem que os dados sejam aprendidos automaticamente. Em um futuro próximo, ele irá incorporar outros recursos, como o treinamento automático de modelos para outros idiomas.

READ concluiu também com a criação de uma cooperativa europeia da qual a UPV é membro fundador e que disponibiliza o software Transkribus a todos os utilizadores registados.

Atualmente, o Plataforma transkribus Possui mais de 30.000 usuários em todo o mundo, o que o torna uma ferramenta de referência internacional para todos os historiadores.


Vídeo: Aplicações práticas da Inteligência Artificial