Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais

preprint OA: closed
Full text JSON View at publisher
Full text 7,333 characters · extracted from preprint-html · click to expand
Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais | SciELO Preprints window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-3TT8HYRH0Y'); Open Menu Registrar-se Acesso English Español Ir para o conteúdo principal Ir para o menu de navegação principal Ir para o rodapé Preprints Submissão Áreas do Conhecimento Ciências Agrárias Ciências Biológicas Ciências da Saúde Ciências Exatas e da Terra Ciências Humanas Ciências Sociais Aplicadas Engenharias Linguística, letras e artes Educação em Revista Memórias do Instituto Oswaldo Cruz 47º Encontro Anual da ANPOCS 48º Encontro Anual da ANPOCS 49º Encontro Anual da ANPOCS Sobre Sobre o Servidor Declaração de Privacidade Atualizações do Sistema Contato FAQ Ética no SciELO Preprints Avaliação de preprints Anotações em preprints (via Hypothesis) Avalie um preprint Notícias Início / Linguística, letras e artes Preprint / Versão 2 Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais article.authors6a0caa1ba786a Saulo Rogério Pacheco Rocha Universidade Federal de Santa Catarina image/svg+xml https://orcid.org/0000-0003-3715-6706 Writing – Original Draft Preparation DOI: https://doi.org/10.1590/SciELOPreprints.13650 Palavras-chave: Humanidades Digitais, Linguística Histórica, Transcrição OCR, Filologia Resumo Este trabalho apresenta o modelo de Reconhecimento Óptico de Caracteres (OCR) “Early Portuguese Printing” (EPP), desenvolvido na plataforma Transkribus, e discute o potencial, os desafios e a história dessas ferramenta para a pesquisa com documentos históricos brasileiros. O Transkribus, mantido pela cooperativa europeia Read-Coop, permite que pesquisadores treinem modelos de IA especializados nas características de seus próprios corpora . O modelo EPP foi treinado especificamente para a transcrição de impressos em língua portuguesa dos séculos 16 ao 19, utilizando um corpus de gramáticas e obras linguísticas do período. Com um training set de 142.606 palavras (745 páginas), o EPP alcançou uma Taxa de Erro de Caracteres (CER) de apenas 2,58%. Este resultado representa um avanço significativo, pois demonstra a potencialidade de ferramentas do tipo para a formação de corpora quantitativos históricos de maior escala e em menos tempo, mantendo a precisão da transcrição de diacríticos, símbolos tipográficos e caracteres gregos, elementos que frequentemente limitam a eficácia de ferramentas de OCR generalistas. Contudo, além de divulgar o potencial da ferramenta, este trabalho problematiza sua natureza. Por pertencer a uma entidade privada europeia e ser um produto SaaS, o uso do Transkribus levanta questões sobre a centralização de dados e a sustentabilidade de sua aplicação em projetos de pesquisa brasileiros de grande escala, considerando o futuro e o volume de nossos acervos históricos. Downloads Os dados de download ainda não estão disponíveis. PDF Postado 01/12/2025 — Atualizado em 27/01/2026 Versões 27/01/2026 (2) 01/12/2025 (1) Como Citar Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais. (2026). Em SciELO Preprints . https://doi.org/10.1590/SciELOPreprints.13650 (Original work published 2025) Formatos de Citação ACM ACS APA ABNT Chicago Harvard IEEE MLA Turabian Vancouver Baixar Citação Endnote/Zotero/Mendeley (RIS) BibTeX Série Linguística, letras e artes Copyright (c) 2025 Saulo Rogério Pacheco Rocha Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License . .citations-container { overflow-y: auto; overflow-x: hidden; max-height: 1000px; } Plaudit Justificativa da versão Refinamento terminológico nos cabeçalhos das tabelas (Seção 3.1) e na Introdução; Substituição do ponto de código da letra grega epsilon (corrigido para U+03B5), removi a confusão anterior com homoglifo latin small letter open E (U+025B); Reescrita e melhor fundamentação das notas de rodapé 15 e 16; Revisão de alguns erros de digitação. function insertAfter(newNode, referenceNode) { referenceNode.parentNode.insertBefore(newNode, referenceNode.nextSibling); } const publishedBlock = document.getElementsByClassName("item published")[0]; const justificationBlock = document.getElementsByClassName('item versionJustification')[0]; insertAfter(justificationBlock, publishedBlock); Declaração de dados Os dados de pesquisa estão contidos no próprio manuscrito Aviso de preprints Preprints são manuscritos não avaliados por um periódico científico ou já avaliados mas em processo de publicação. .block_announcements_article:not(:last-child) { padding-bottom: 1.5em; border-bottom: 1px solid; } .block_announcements_article { text-align: left; } .block_announcements #show-all{ font-style: italic; } Notícias SciELO Preprints adota obrigatoriedade de declaração de disponibilização de dados de pesquisa 19 agosto 2025 A partir de 1º de setembro de 2025 os manuscritos submetidos ao SciELO Preprints devem incluir uma declaração de disponibilidade de dados informando sobre onde e como os dados da pesquisa que deram origem ao artigo podem ser acessados. Atualização da Política Editorial e FAQ 21 maio 2025 Todos(as) os(as) autores(as) são solicitados(as) a consultarem a nossa Política Editorial e nossas FAQs antes de submeterem o seu manuscrito. Prêmio Ben Barres Spotlight: Inscrições abertas para 2024 20 maio 2024 Prêmios de até US$ 5.000 estão agora disponíveis para pesquisadores de origens sub-representadas ou países com financiamento limitado para apoiar sua pesquisa, carreira e comunidade. Preprints do SciELO Preprints nas ciências da vida ou biomédicas com pelo menos uma revisão disponível no Sciety são elegíveis! Show all announcements ... SciELO - Scientific Electronic Library Online Rua Dr. Diogo de Faria, 1087 – 9º andar – Vila Clementino 04037-003 São Paulo/SP - Brasil E-mail: [email protected] app = {"hypothesisHandlerUrl":"https:\/\/preprints.scielo.org\/index.php\/scielo\/$$$call$$$\/plugins\/generic\/hypothesis\/controllers\/hypothesis\/"}; var pkpUsageStats = pkpUsageStats || {};pkpUsageStats.data = pkpUsageStats.data || {};pkpUsageStats.data.Submission = pkpUsageStats.data.Submission || {};pkpUsageStats.data.Submission[13650] = {"data":{"2025":{"12":"38"},"2026":{"1":"30","2":"36","3":"27","4":"23","5":"23"}},"label":"Todos os downloads","color":"79,181,217","total":177}; var pkpUsageStats = pkpUsageStats || {};pkpUsageStats.locale = pkpUsageStats.locale || {};pkpUsageStats.locale.months = ["Jan","Fev","Mar","Abr","Mai","Jun","Jul","Ago","Set","Out","Nov","Dez"];pkpUsageStats.config = pkpUsageStats.config || {};pkpUsageStats.config.chartType = "bar"; (function (w, d, s, l, i) { w[l] = w[l] || []; var f = d.getElementsByTagName(s)[0], j = d.createElement(s), dl = l != 'dataLayer' ? '&l=' + l : ''; j.async = true; j.src = 'https://www.googletagmanager.com/gtag/js?id=' + i + dl; f.parentNode.insertBefore(j, f); function gtag(){dataLayer.push(arguments)}; gtag('js', new Date()); gtag('config', i); }) (window, document, 'script', 'dataLayer', '3TT8HYRH0Y');

Text is read by the "Ask this paper" AI Q&A widget below. Extraction quality varies by source — PMC NXML preserves structure cleanly, OA-HTML may include some navigation residue, and OA-PDF can have broken hyphenation. The publisher copy (via DOI) is the canonical version.

My notes (saved in your browser only)

Ask this paper AI returns verbatim quotes from the full text · source: preprint-html

Answers must be backed by verbatim quotes from this paper's full text. Hallucinated quotes are dropped automatically; if no verbatim passage answers the question, we say so. How this works

Citation neighborhood (no data yet)

We don't have any in-corpus citations linked to this paper yet. This is a recent paper (2026) — citers typically take a year or two to land, and the OpenAlex reference graph may still be filling in.

Source provenance

europepmc
last seen: 2026-05-20T01:45:00.602351+00:00