The document intelligence layer · v0.7 previewLa capa de inteligencia documental · vista previa v0.7La couche d'intelligence documentaire · aperçu v0.7Die Dokumentenintelligenz-Schicht · Vorschau v0.7
From scanned pages to structured knowledge.
De páginas escaneadas a conocimiento estructurado.
Des pages numérisées au savoir structuré.
Von gescannten Seiten zu strukturiertem Wissen.
archAIc
reads handwritten archives, keeps every possible
interpretation of the text, and resolves them into structured
data anchored to the ink.
lee archivos manuscritos, conserva cada posible
interpretación del texto y las resuelve en datos estructurados
anclados a la tinta.
lit les archives manuscrites, conserve chaque
interprétation possible du texte et les résout en données
structurées ancrées à l'encre.
liest handgeschriebene Archive, bewahrt jede mögliche
Interpretation des Textes und löst sie in strukturierte Daten
auf, die an der Tinte verankert sind.
Example · the lattice, made queryableEjemplo · el grafo, hecho consultableExemple · le graphe, rendu interrogeableBeispiel · der Graph, abfragbar gemacht
The trellis above. Now hover any word.
Toda la información del grafo. Conservada y presentada encima de la imagen.
Le graphe ci-dessus. Survolez n'importe quel mot.
Der Graph oben. Fahren Sie nun über ein beliebiges Wort.
Every node on every path the HTR considered is kept in the
index, weighted by its probability. This is what
no information thrown away looks like once you
can ask it questions: each box sits on an indexed word,
each popover is the slice of graph we kept for it. Search,
curation and extraction all read from this same payload.
Cada nodo de cada ruta que consideró el HTR queda en el
índice, ponderado por su probabilidad. Esto es lo que
significa no tirar información cuando puede
preguntarle: cada recuadro se posa sobre una palabra
indexada, cada popover es la porción de grafo que
guardamos. La búsqueda, la curación y la extracción leen del
mismo payload.
Chaque nœud de chaque chemin envisagé par le HTR demeure
dans l'index, pondéré par sa probabilité. Voilà à quoi
ressemble aucune information écartée dès
lors qu'on peut l'interroger : chaque encadré repose sur
un mot indexé, chaque popover est la portion de graphe
que nous avons conservée. La recherche, la curation et
l'extraction lisent toutes le même payload.
Jeder Knoten auf jedem Pfad, den das HTR in Betracht
gezogen hat, bleibt im Index, gewichtet nach seiner
Wahrscheinlichkeit. So sieht keine weggeworfene
Information aus, sobald Sie sie befragen können:
Jedes Kästchen liegt auf einem indexierten Wort, jedes
Popover ist die Graph-Scheibe, die wir dafür bewahrt
haben. Suche, Kuration und Extraktion lesen alle aus
derselben Datenstruktur.
Pipeline · scan to knowledge graphPipeline · de scan a grafo de conocimientoPipeline · de la numérisation au graphe de connaissancesPipeline · vom Scan zum Wissensgraphen
A folio enters at the left. A curated, exportable corpus comes out the right.
Un folio entra por la izquierda. Un corpus curado y exportable sale por la derecha.
Un folio entre à gauche. Un corpus curé et exportable sort à droite.
Links geht ein Folio hinein. Rechts kommt ein kuratiertes, exportierbares Korpus heraus.
01
Scan
Folio inFolio entranteFolio entrantFolio-Eingang
Any IIIF source or local scan. Every output ties back to a region on the original ink.Cualquier fuente IIIF o escaneo local. Cada salida vuelve a una región sobre la tinta original.Toute source IIIF ou numérisation locale. Chaque sortie renvoie à une région de l'encre originale.Jede IIIF-Quelle oder lokaler Scan. Jede Ausgabe verweist zurück auf eine Region der ursprünglichen Tinte.
→
02
HTR
Word latticeCelosía de palabrasGraphe de motsWort-Graph
HTR-agnostic input: PrIx-native, PAGE-XML, hOCR, custom, all normalised through the TSDO importer.HTR-agnóstico: nativo PrIx, PAGE-XML, hOCR, custom, todo normalizado por el importador TSDO.Entrée agnostique du HTR : natif PrIx, PAGE-XML, hOCR, personnalisé, le tout normalisé par l'importateur TSDO.HTR-agnostischer Eingang: PrIx-nativ, PAGE-XML, hOCR, individuell, alles normalisiert über den TSDO-Importer.
→
03
PrIx
Probabilistic indexÍndice probabilísticoIndex probabilisteProbabilistischer Index
LMDB: FST + bitmap + soft DF. Every hypothesis kept and weighted. Fuzzy, wildcard, proximity, all probability-aware.LMDB: FST + bitmap + soft DF. Cada hipótesis conservada y ponderada. Fuzzy, wildcard, proximidad, todo consciente de probabilidad.LMDB : FST + bitmap + soft DF. Chaque lecture conservée et pondérée. Recherche approchée, wildcard, proximité, le tout sensible à la probabilité.LMDB: FST + Bitmap + Soft DF. Jede Lesung bewahrt und gewichtet. Fuzzy, Wildcard, Nähe — alles wahrscheinlichkeitsbewusst.
Multi-signal boundary detection (passage embeddings, structure, keywords) splits a 1000-page libro into addressable documents.Detección de límites multi-señal (embeddings de pasaje, estructura, palabras clave) parte un libro de 1000 páginas en documentos direccionables.La détection multi-signal des frontières (embeddings de passages, structure, mots-clés) décompose un libro de 1000 pages en documents adressables.Mehrsignalige Grenzerkennung (Passage-Embeddings, Struktur, Schlüsselwörter) zerlegt einen 1000-seitigen Libro in adressierbare Dokumente.
→
05
Extract
Entities & eventsEntidades y eventosEntités et événementsEntitäten & Ereignisse
People, places, events, organisations and relations, typed under CIDOC-CRM, anchored to page coordinates. No anchor, no entry.Personas, lugares, eventos, organizaciones y relaciones, tipados bajo CIDOC-CRM, anclados a coordenadas de página. Sin ancla, no hay entrada.Personnes, lieux, événements, organisations et relations, typés selon CIDOC-CRM, ancrés aux coordonnées de la page. Pas d'ancre, pas d'entrée.Personen, Orte, Ereignisse, Organisationen und Relationen, typisiert nach CIDOC-CRM, verankert in Seitenkoordinaten. Kein Anker, kein Eintrag.
IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. One curated corpus, every channel the institution needs.IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Un corpus curado, cada canal que la institución necesite.IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Un corpus curé, tous les canaux dont l'institution a besoin.IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Ein kuratiertes Korpus, jeder Kanal, den die Institution benötigt.
The shape of the dataLa forma de los datosLa forme des donnéesDie Form der Daten
From one folio, five kinds of data.De un folio, cinco tipos de datos.À partir d'un folio, cinq types de données.Aus einem Folio: fünf Datentypen.
archAIc treats each scanned folio as a vertex in a typed property
graph. Entities lift off the page with bounding boxes and
confidence scores; relations connect them across the corpus.
Nothing is destroyed: every extraction round-trips back to the
actual ink on the page.
archAIc trata cada folio escaneado como un vértice de un grafo
de propiedades tipado. Las entidades despegan de la página con
bounding boxes y scores de confianza; las relaciones las conectan
a través del corpus. Nada se destruye: cada extracción regresa a
la tinta original sobre la página.
archAIc traite chaque folio numérisé comme un sommet dans un
graphe de propriétés typé. Les entités se détachent de la page
avec leurs bounding boxes et scores de confiance ; les relations
les relient à travers le corpus. Rien n'est détruit : chaque
extraction revient à l'encre même de la page.
archAIc behandelt jedes gescannte Folio als Knoten in einem
typisierten Property-Graphen. Entitäten heben sich mit Bounding
Boxes und Konfidenzwerten von der Seite ab; Relationen verbinden
sie über das gesamte Korpus hinweg. Nichts geht verloren: Jede
Extraktion führt zurück zur tatsächlichen Tinte auf der Seite.
FolioFolioFolioFolioSource page · IIIF region · transcriptPágina fuente · región IIIF · transcripciónPage source · région IIIF · transcriptionQuellseite · IIIF-Region · Transkription
PersonPersonaPersonnePersonNames, aliases, dates, role · linked to authority filesNombres, alias, fechas, rol · enlazado a archivos de autoridadNoms, alias, dates, rôle · reliés aux fichiers d'autoritéNamen, Aliase, Daten, Rolle · verknüpft mit Normdateien
PlaceLugarLieuOrtToponyms with historical disambiguation · GeoNames / TGNTopónimos con desambiguación histórica · GeoNames / TGNToponymes avec désambiguïsation historique · GeoNames / TGNToponyme mit historischer Disambiguierung · GeoNames / TGN
You chose the standards. archAIc fills them.
Usted eligió los estándares. archAIc los rellena.
Vous choisissez les normes. archAIc les remplit.
Sie wählen die Standards. archAIc füllt sie.
Every output lands on a named spec, no proprietary pickle. Each
format is reachable through a REST endpoint and (where useful) an
MCP tool, so humans and agents read and write the same shape.
Cada salida aterriza en una especificación nombrada, sin pickle
propietario. Todo formato es alcanzable vía REST y, donde sirve,
vía herramienta MCP; humanos y agentes leen y escriben la misma
forma.
Chaque sortie aboutit à une spécification nommée, sans format
propriétaire. Chaque format est accessible via un endpoint REST
et, lorsque cela est utile, via un outil MCP, afin que humains
et agents lisent et écrivent la même forme.
Jede Ausgabe landet in einer benannten Spezifikation, kein
proprietäres Format. Jedes Format ist über einen REST-Endpoint
und (wo sinnvoll) ein MCP-Tool erreichbar, damit Menschen und
Agenten dieselbe Struktur lesen und schreiben.
Per pagePor páginaPar pagePro Seite
7 formats
Token-level transcripts and visual anchors, one file per scanned folio.Transcripciones token-a-token y anclas visuales, un fichero por folio escaneado.Transcriptions au niveau du token et ancres visuelles, un fichier par folio numérisé.Token-genaue Transkriptionen und visuelle Anker, eine Datei pro gescanntem Folio.
TSDOJSONGET
ALTOXMLGET
hOCRHTMLGET
PAGEXMLGET / PUT
CSVcsvGET
AnnotationPageJSON-LDGETIIIF
Per-page PDFPDF por páginaPDF par pagePDF pro SeitePDFGET
Per DLUPor DLUPar DLUPro DLU
6 formats
Logical-document records: typed entities, events, relations, anchored to source.Registros de documento lógico: entidades, eventos y relaciones tipados, anclados a la fuente.Notices de document logique : entités, événements et relations typés, ancrés à la source.Datensätze logischer Dokumente: typisierte Entitäten, Ereignisse, Relationen, an der Quelle verankert.
Linked ArtJSON-LDGET / PATCHCRM
ISAD-JSONJSONGET / PATCH
EADXMLGET
EAC-CPFXMLGET / PATCH
METSXMLGET
PREMISXMLGET
Per libroPor libroPar libroPro Libro
5 formats
Whole-volume manifests, harvest-ready for any IIIF or archival platform.Manifiestos de volumen, listos para cualquier plataforma IIIF o archivística.Manifestes de volume entier, prêts à la moisson pour toute plateforme IIIF ou archivistique.Manifeste auf Bandebene, erntefertig für jede IIIF- oder Archivplattform.
IIIF Manifest 3.0JSON-LDGETIIIF
navPlace ext.JSON-LDGETIIIF
Content Search 1.0/2.0JSON-LDGETIIIF
AtoM CSVcsvPOST
DIP-zip → OAISzipGET
Cross-cutting & APIsTransversal y APIsTransversal et APIÜbergreifend & APIs
Discoverable, signed, agent-callable across every endpoint.Descubrible, firmado, invocable por agentes en cada endpoint.Découvrable, signé, appelable par agents sur chaque endpoint.Auffindbar, signiert, von Agenten aufrufbar über jeden Endpoint.
OpenAPI
machine-discoverabledescubrible por máquinadécouvrable par machinemaschinell auffindbar
Compliance & governanceCumplimiento y gobernanzaConformité et gouvernanceCompliance & Governance
Human-in-the-loop by construction; air-gappable on request.Human-in-the-loop por construcción; air-gappable cuando hace falta.Human-in-the-loop par construction ; air-gappable sur demande.Human-in-the-loop ab Werk; auf Wunsch air-gappable.
CIDOC-CRM
full ontology · authorities first-classontología completa · autoridades de primera claseontologie complète · autorités de première classevollständige Ontologie · Normdaten als Bürger erster Klasse
air-gappable · Art. 15/17 actuatorair-gappable · actuador Art. 15/17air-gappable · actionneur Art. 15/17air-gappable · Aktor für Art. 15/17
WAI-ARIA
screen-reader · keyboard-navigable UIlector de pantalla · navegable por tecladolecteur d'écran · interface navigable au clavierScreenreader · per Tastatur navigierbare UI
SAML 2.0 + OIDC
SSO · per-resource visibility · quotasSSO · visibilidad por recurso · cuotasSSO · visibilité par ressource · quotasSSO · Sichtbarkeit pro Ressource · Kontingente
MCP · agent-readyMCP · listo para agentesMCP · prêt pour les agentsMCP · bereit für Agenten
The first archive search engine built for autonomous research.
El primer motor de búsqueda de archivos construido para investigación autónoma.
Le premier moteur de recherche d'archives conçu pour la recherche autonome.
Die erste Archivsuche, gebaut für autonome Forschung.
archAIc exposes its full surface through the Model Context
Protocol, an open standard for AI tools. Any MCP-aware agent
gets search, browse, extract, and cite without bespoke glue.
Confidence travels with every result; every claim ends at a
page, line, and bounding box.
archAIc expone toda su superficie a través del Model Context
Protocol, un estándar abierto para herramientas IA. Cualquier
agente MCP recibe búsqueda, navegación, extracción y cita sin
pegamento a medida. La confianza viaja con cada resultado;
cada afirmación termina en una (página, línea, bounding box).
archAIc expose toute sa surface via le Model Context Protocol,
une norme ouverte pour outils d'IA. Tout agent compatible MCP
dispose de la recherche, la navigation, l'extraction et la
citation sans intégration sur mesure. La confiance accompagne
chaque résultat ; chaque affirmation aboutit à une page, une
ligne et une bounding box.
archAIc stellt seine gesamte Oberfläche über das Model Context
Protocol bereit, einen offenen Standard für KI-Werkzeuge.
Jeder MCP-fähige Agent erhält Suche, Navigation, Extraktion und
Zitation ohne maßgeschneiderten Klebecode. Die Konfidenz reist
mit jedem Ergebnis mit; jede Aussage endet auf einer Seite,
einer Zeile und einer Bounding Box.
SearchBuscarRechercherSuchenkeyword, semantic, or hybrid · weighted by PrIx probabilitypor palabra, semántico o híbrido · ponderado por probabilidad PrIxpar mot-clé, sémantique ou hybride · pondérée par la probabilité PrIxper Schlüsselwort, semantisch oder hybrid · gewichtet nach PrIx-Wahrscheinlichkeit
BrowseNavegarNaviguerNavigierencollection → book → page → word, programmaticallycolección → libro → página → palabra, programáticamentecollection → livre → page → mot, par programmationSammlung → Buch → Seite → Wort, programmatisch
ExtractExtraerExtraireExtrahierenentities, events, relations from any DLUentidades, eventos y relaciones de cualquier DLUentités, événements et relations depuis n'importe quelle DLUEntitäten, Ereignisse, Relationen aus jeder DLU
CiteCitarCiterZitierenevery answer traces back to (page, line, region)cada respuesta vuelve a (página, línea, región)chaque réponse remonte à (page, ligne, région)jede Antwort verweist zurück auf (Seite, Zeile, Region)
OAuth 2.1 · API keys per client · full audit trailOAuth 2.1 · claves API por cliente · audit trail completoOAuth 2.1 · clés API par client · piste d'audit complèteOAuth 2.1 · API-Schlüssel pro Client · vollständiger Audit-Trail
Self-hosted or cloudEn sus máquinas o en su nubeSur vos propres machines ou dans le cloudAuf Ihren eigenen Servern oder in der Cloud
Your archive stays your archive.Su archivo sigue siendo su archivo.Vos archives restent vos archives.Ihr Archiv bleibt Ihr Archiv.
Self-hosted or managed in a cloud of your choosing. Models run on
hardware you control; the graph lives in your database; published
endpoints are yours to govern. We help you stand it up and get out
of the way.
Desplegado en sus propias máquinas o gestionado en una nube que usted
elija. Los modelos corren en hardware que usted controla; el grafo
vive en su base de datos; los endpoints publicados son suyos para
gobernar. Le ayudamos a levantarlo y nos quitamos del medio.
Déployé sur vos propres machines ou hébergé dans le cloud de votre
choix. Les modèles tournent sur du matériel que vous contrôlez ; le
graphe vit dans votre base de données ; les endpoints publiés vous
appartiennent. Nous vous aidons à le mettre en place, puis nous
nous effaçons.
Auf Ihren eigenen Servern bereitgestellt oder verwaltet in einer
Cloud Ihrer Wahl. Modelle laufen auf Hardware, die Sie
kontrollieren; der Graph liegt in Ihrer Datenbank; veröffentlichte
Endpoints stehen unter Ihrer Hoheit. Wir helfen Ihnen beim
Aufsetzen und treten dann zur Seite.
The machine does the heavy lifting.La máquina hace el trabajo pesado.La machine fait le gros du travail.Die Maschine erledigt die schwere Arbeit.
The human does the judging.El humano decide.L'humain juge.Der Mensch trifft das Urteil.
Co-creation. Measured. Anchored. Ready to curate.Co-creación. Medida. Anclada. Lista para curar.Co-création. Mesurée. Ancrée. Prête à être curée.Ko-Kreation. Gemessen. Verankert. Bereit zur Kuration.