The document intelligence layer · v0.7 preview La capa de inteligencia documental · vista previa v0.7 La couche d'intelligence documentaire · aperçu v0.7 Die Dokumentenintelligenz-Schicht · Vorschau v0.7

From scanned pages
to structured knowledge.
De páginas escaneadas
a conocimiento estructurado.
Des pages numérisées
au savoir structuré.
Von gescannten Seiten
zu strukturiertem Wissen.

archAIc reads handwritten archives, keeps every possible interpretation of the text, and resolves them into structured data anchored to the ink. lee archivos manuscritos, conserva cada posible interpretación del texto y las resuelve en datos estructurados anclados a la tinta. lit les archives manuscrites, conserve chaque interprétation possible du texte et les résout en données structurées ancrées à l'encre. liest handgeschriebene Archive, bewahrt jede mögliche Interpretation des Textes und löst sie in strukturierte Daten auf, die an der Tinte verankert sind.

Now reading Leyendo ahora Lecture en cours Aktuell in Bearbeitung
MS Add. 12243 · folio 14r folio 14r folio 14r Folio 14r
Extracted today Extraído hoy Extrait aujourd'hui Heute extrahiert
38,412 entitiesentidadesentitésEntitäten · 114,907 relationsrelacionesrelationsRelationen
Scroll Bajar Défiler Scrollen
Example · the lattice, made queryable Ejemplo · el grafo, hecho consultable Exemple · le graphe, rendu interrogeable Beispiel · der Graph, abfragbar gemacht

The trellis above.
Now hover any word.
Toda la información del grafo.
Conservada y presentada encima de la imagen.
Le graphe ci-dessus.
Survolez n'importe quel mot.
Der Graph oben.
Fahren Sie nun über ein beliebiges Wort.

Every node on every path the HTR considered is kept in the index, weighted by its probability. This is what no information thrown away looks like once you can ask it questions: each box sits on an indexed word, each popover is the slice of graph we kept for it. Search, curation and extraction all read from this same payload. Cada nodo de cada ruta que consideró el HTR queda en el índice, ponderado por su probabilidad. Esto es lo que significa no tirar información cuando puede preguntarle: cada recuadro se posa sobre una palabra indexada, cada popover es la porción de grafo que guardamos. La búsqueda, la curación y la extracción leen del mismo payload. Chaque nœud de chaque chemin envisagé par le HTR demeure dans l'index, pondéré par sa probabilité. Voilà à quoi ressemble aucune information écartée dès lors qu'on peut l'interroger : chaque encadré repose sur un mot indexé, chaque popover est la portion de graphe que nous avons conservée. La recherche, la curation et l'extraction lisent toutes le même payload. Jeder Knoten auf jedem Pfad, den das HTR in Betracht gezogen hat, bleibt im Index, gewichtet nach seiner Wahrscheinlichkeit. So sieht keine weggeworfene Information aus, sobald Sie sie befragen können: Jedes Kästchen liegt auf einem indexierten Wort, jedes Popover ist die Graph-Scheibe, die wir dafür bewahrt haben. Suche, Kuration und Extraktion lesen alle aus derselben Datenstruktur.

Pipeline · scan to knowledge graph Pipeline · de scan a grafo de conocimiento Pipeline · de la numérisation au graphe de connaissances Pipeline · vom Scan zum Wissensgraphen

A folio enters at the left.
A curated, exportable corpus comes out the right.
Un folio entra por la izquierda.
Un corpus curado y exportable sale por la derecha.
Un folio entre à gauche.
Un corpus curé et exportable sort à droite.
Links geht ein Folio hinein.
Rechts kommt ein kuratiertes, exportierbares Korpus heraus.

  1. 01
    Scan

    Folio inFolio entranteFolio entrantFolio-Eingang

    Any IIIF source or local scan. Every output ties back to a region on the original ink. Cualquier fuente IIIF o escaneo local. Cada salida vuelve a una región sobre la tinta original. Toute source IIIF ou numérisation locale. Chaque sortie renvoie à une région de l'encre originale. Jede IIIF-Quelle oder lokaler Scan. Jede Ausgabe verweist zurück auf eine Region der ursprünglichen Tinte.

  2. 02
    HTR

    Word latticeCelosía de palabrasGraphe de motsWort-Graph

    HTR-agnostic input: PrIx-native, PAGE-XML, hOCR, custom, all normalised through the TSDO importer. HTR-agnóstico: nativo PrIx, PAGE-XML, hOCR, custom, todo normalizado por el importador TSDO. Entrée agnostique du HTR : natif PrIx, PAGE-XML, hOCR, personnalisé, le tout normalisé par l'importateur TSDO. HTR-agnostischer Eingang: PrIx-nativ, PAGE-XML, hOCR, individuell, alles normalisiert über den TSDO-Importer.

  3. 03
    PrIx

    Probabilistic indexÍndice probabilísticoIndex probabilisteProbabilistischer Index

    LMDB: FST + bitmap + soft DF. Every hypothesis kept and weighted. Fuzzy, wildcard, proximity, all probability-aware. LMDB: FST + bitmap + soft DF. Cada hipótesis conservada y ponderada. Fuzzy, wildcard, proximidad, todo consciente de probabilidad. LMDB : FST + bitmap + soft DF. Chaque lecture conservée et pondérée. Recherche approchée, wildcard, proximité, le tout sensible à la probabilité. LMDB: FST + Bitmap + Soft DF. Jede Lesung bewahrt und gewichtet. Fuzzy, Wildcard, Nähe — alles wahrscheinlichkeitsbewusst.

  4. 04
    DLU

    Logical segmentationSegmentación lógicaSegmentation logiqueLogische Segmentierung

    Multi-signal boundary detection (passage embeddings, structure, keywords) splits a 1000-page libro into addressable documents. Detección de límites multi-señal (embeddings de pasaje, estructura, palabras clave) parte un libro de 1000 páginas en documentos direccionables. La détection multi-signal des frontières (embeddings de passages, structure, mots-clés) décompose un libro de 1000 pages en documents adressables. Mehrsignalige Grenzerkennung (Passage-Embeddings, Struktur, Schlüsselwörter) zerlegt einen 1000-seitigen Libro in adressierbare Dokumente.

  5. 05
    Extract

    Entities & eventsEntidades y eventosEntités et événementsEntitäten & Ereignisse

    People, places, events, organisations and relations, typed under CIDOC-CRM, anchored to page coordinates. No anchor, no entry. Personas, lugares, eventos, organizaciones y relaciones, tipados bajo CIDOC-CRM, anclados a coordenadas de página. Sin ancla, no hay entrada. Personnes, lieux, événements, organisations et relations, typés selon CIDOC-CRM, ancrés aux coordonnées de la page. Pas d'ancre, pas d'entrée. Personen, Orte, Ereignisse, Organisationen und Relationen, typisiert nach CIDOC-CRM, verankert in Seitenkoordinaten. Kein Anker, kein Eintrag.

  6. 06
    Serve

    Graph + endpointsGrafo + endpointsGraphe + endpointsGraph + Endpoints

    IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. One curated corpus, every channel the institution needs. IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Un corpus curado, cada canal que la institución necesite. IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Un corpus curé, tous les canaux dont l'institution a besoin. IIIF, JSON-LD, ISAD-JSON, AtoM, EAC-CPF, OAI-PMH, MCP. Ein kuratiertes Korpus, jeder Kanal, den die Institution benötigt.

The shape of the data La forma de los datos La forme des données Die Form der Daten

From one folio, five kinds of data. De un folio, cinco tipos de datos. À partir d'un folio, cinq types de données. Aus einem Folio: fünf Datentypen.

archAIc treats each scanned folio as a vertex in a typed property graph. Entities lift off the page with bounding boxes and confidence scores; relations connect them across the corpus. Nothing is destroyed: every extraction round-trips back to the actual ink on the page. archAIc trata cada folio escaneado como un vértice de un grafo de propiedades tipado. Las entidades despegan de la página con bounding boxes y scores de confianza; las relaciones las conectan a través del corpus. Nada se destruye: cada extracción regresa a la tinta original sobre la página. archAIc traite chaque folio numérisé comme un sommet dans un graphe de propriétés typé. Les entités se détachent de la page avec leurs bounding boxes et scores de confiance ; les relations les relient à travers le corpus. Rien n'est détruit : chaque extraction revient à l'encre même de la page. archAIc behandelt jedes gescannte Folio als Knoten in einem typisierten Property-Graphen. Entitäten heben sich mit Bounding Boxes und Konfidenzwerten von der Seite ab; Relationen verbinden sie über das gesamte Korpus hinweg. Nichts geht verloren: Jede Extraktion führt zurück zur tatsächlichen Tinte auf der Seite.

  • FolioFolioFolioFolio Source page · IIIF region · transcript Página fuente · región IIIF · transcripción Page source · région IIIF · transcription Quellseite · IIIF-Region · Transkription
  • PersonPersonaPersonnePerson Names, aliases, dates, role · linked to authority files Nombres, alias, fechas, rol · enlazado a archivos de autoridad Noms, alias, dates, rôle · reliés aux fichiers d'autorité Namen, Aliase, Daten, Rolle · verknüpft mit Normdateien
  • PlaceLugarLieuOrt Toponyms with historical disambiguation · GeoNames / TGN Topónimos con desambiguación histórica · GeoNames / TGN Toponymes avec désambiguïsation historique · GeoNames / TGN Toponyme mit historischer Disambiguierung · GeoNames / TGN
  • EventEventoÉvénementEreignis Dated occurrences · participants · location Ocurrencias fechadas · participantes · ubicación Occurrences datées · participants · localisation Datierte Vorgänge · Beteiligte · Ort
  • OrganisationOrganizaciónOrganisationOrganisation Corporate bodies, councils, parishes · EAC-CPF authorities Entidades corporativas, concejos, parroquias · autoridades EAC-CPF Personnes morales, conseils, paroisses · autorités EAC-CPF Körperschaften, Räte, Pfarreien · EAC-CPF-Normdaten
  • RelationRelaciónRelationRelation Typed edges · provenance · confidence Aristas tipadas · proveniencia · confianza Arêtes typées · provenance · confiance Typisierte Kanten · Provenienz · Konfidenz
Outputs · standards · APIs Salidas · estándares · APIs Sorties · normes · API Ausgaben · Standards · APIs

You chose the standards.
archAIc fills them.
Usted eligió los estándares.
archAIc los rellena.
Vous choisissez les normes.
archAIc les remplit.
Sie wählen die Standards.
archAIc füllt sie.

Every output lands on a named spec, no proprietary pickle. Each format is reachable through a REST endpoint and (where useful) an MCP tool, so humans and agents read and write the same shape. Cada salida aterriza en una especificación nombrada, sin pickle propietario. Todo formato es alcanzable vía REST y, donde sirve, vía herramienta MCP; humanos y agentes leen y escriben la misma forma. Chaque sortie aboutit à une spécification nommée, sans format propriétaire. Chaque format est accessible via un endpoint REST et, lorsque cela est utile, via un outil MCP, afin que humains et agents lisent et écrivent la même forme. Jede Ausgabe landet in einer benannten Spezifikation, kein proprietäres Format. Jedes Format ist über einen REST-Endpoint und (wo sinnvoll) ein MCP-Tool erreichbar, damit Menschen und Agenten dieselbe Struktur lesen und schreiben.

Per pagePor páginaPar pagePro Seite
7 formats

Token-level transcripts and visual anchors, one file per scanned folio. Transcripciones token-a-token y anclas visuales, un fichero por folio escaneado. Transcriptions au niveau du token et ancres visuelles, un fichier par folio numérisé. Token-genaue Transkriptionen und visuelle Anker, eine Datei pro gescanntem Folio.

  • TSDOJSONGET
  • ALTOXMLGET
  • hOCRHTMLGET
  • PAGEXMLGET / PUT
  • CSVcsvGET
  • AnnotationPageJSON-LDGETIIIF
  • Per-page PDFPDF por páginaPDF par pagePDF pro SeitePDFGET
Per DLUPor DLUPar DLUPro DLU
6 formats

Logical-document records: typed entities, events, relations, anchored to source. Registros de documento lógico: entidades, eventos y relaciones tipados, anclados a la fuente. Notices de document logique : entités, événements et relations typés, ancrés à la source. Datensätze logischer Dokumente: typisierte Entitäten, Ereignisse, Relationen, an der Quelle verankert.

  • Linked ArtJSON-LDGET / PATCHCRM
  • ISAD-JSONJSONGET / PATCH
  • EADXMLGET
  • EAC-CPFXMLGET / PATCH
  • METSXMLGET
  • PREMISXMLGET
Per libroPor libroPar libroPro Libro
5 formats

Whole-volume manifests, harvest-ready for any IIIF or archival platform. Manifiestos de volumen, listos para cualquier plataforma IIIF o archivística. Manifestes de volume entier, prêts à la moisson pour toute plateforme IIIF ou archivistique. Manifeste auf Bandebene, erntefertig für jede IIIF- oder Archivplattform.

  • IIIF Manifest 3.0JSON-LDGETIIIF
  • navPlace ext.JSON-LDGETIIIF
  • Content Search 1.0/2.0JSON-LDGETIIIF
  • AtoM CSVcsvPOST
  • DIP-zip → OAISzipGET
Cross-cutting & APIs Transversal y APIs Transversal et API Übergreifend & APIs

Discoverable, signed, agent-callable across every endpoint. Descubrible, firmado, invocable por agentes en cada endpoint. Découvrable, signé, appelable par agents sur chaque endpoint. Auffindbar, signiert, von Agenten aufrufbar über jeden Endpoint.

OpenAPI
machine-discoverabledescubrible por máquinadécouvrable par machinemaschinell auffindbar
MCP
search · browse · extract · cite · OAuth 2.1buscar · navegar · extraer · citar · OAuth 2.1rechercher · naviguer · extraire · citer · OAuth 2.1suchen · navigieren · extrahieren · zitieren · OAuth 2.1
Webhooks
HMAC-signed eventseventos firmados HMACévénements signés HMACHMAC-signierte Ereignisse
Change Discovery
ActivityStreams · Europeana / DPLA
Content State 1.0
deep-link any viewer statedeep-link de estado del visordeep-link de tout état du visualiseurDeep-Link auf jeden Viewer-Zustand
OpenTelemetry
metrics · logs · tracesmétricas · logs · trazasmétriques · logs · tracesMetriken · Logs · Traces
Compliance & governance Cumplimiento y gobernanza Conformité et gouvernance Compliance & Governance

Human-in-the-loop by construction; air-gappable on request. Human-in-the-loop por construcción; air-gappable cuando hace falta. Human-in-the-loop par construction ; air-gappable sur demande. Human-in-the-loop ab Werk; auf Wunsch air-gappable.

CIDOC-CRM
full ontology · authorities first-classontología completa · autoridades de primera claseontologie complète · autorités de première classevollständige Ontologie · Normdaten als Bürger erster Klasse
ISAD(G)
DLU metadata mapped 1:1metadatos DLU 1:1métadonnées DLU mappées 1:1DLU-Metadaten 1:1 abgebildet
EU AI Act
Art. 12 · 13 · 14, logging, transparency, oversightArt. 12 · 13 · 14, logging, transparencia, supervisiónArt. 12 · 13 · 14, journalisation, transparence, supervisionArt. 12 · 13 · 14, Logging, Transparenz, Aufsicht
GDPR
air-gappable · Art. 15/17 actuatorair-gappable · actuador Art. 15/17air-gappable · actionneur Art. 15/17air-gappable · Aktor für Art. 15/17
WAI-ARIA
screen-reader · keyboard-navigable UIlector de pantalla · navegable por tecladolecteur d'écran · interface navigable au clavierScreenreader · per Tastatur navigierbare UI
SAML 2.0 + OIDC
SSO · per-resource visibility · quotasSSO · visibilidad por recurso · cuotasSSO · visibilité par ressource · quotasSSO · Sichtbarkeit pro Ressource · Kontingente
MCP · agent-ready MCP · listo para agentes MCP · prêt pour les agents MCP · bereit für Agenten

The first archive search engine
built for autonomous research.
El primer motor de búsqueda de archivos
construido para investigación autónoma.
Le premier moteur de recherche d'archives
conçu pour la recherche autonome.
Die erste Archivsuche,
gebaut für autonome Forschung.

archAIc exposes its full surface through the Model Context Protocol, an open standard for AI tools. Any MCP-aware agent gets search, browse, extract, and cite without bespoke glue. Confidence travels with every result; every claim ends at a page, line, and bounding box. archAIc expone toda su superficie a través del Model Context Protocol, un estándar abierto para herramientas IA. Cualquier agente MCP recibe búsqueda, navegación, extracción y cita sin pegamento a medida. La confianza viaja con cada resultado; cada afirmación termina en una (página, línea, bounding box). archAIc expose toute sa surface via le Model Context Protocol, une norme ouverte pour outils d'IA. Tout agent compatible MCP dispose de la recherche, la navigation, l'extraction et la citation sans intégration sur mesure. La confiance accompagne chaque résultat ; chaque affirmation aboutit à une page, une ligne et une bounding box. archAIc stellt seine gesamte Oberfläche über das Model Context Protocol bereit, einen offenen Standard für KI-Werkzeuge. Jeder MCP-fähige Agent erhält Suche, Navigation, Extraktion und Zitation ohne maßgeschneiderten Klebecode. Die Konfidenz reist mit jedem Ergebnis mit; jede Aussage endet auf einer Seite, einer Zeile und einer Bounding Box.

  • SearchBuscarRechercherSuchen keyword, semantic, or hybrid · weighted by PrIx probability por palabra, semántico o híbrido · ponderado por probabilidad PrIx par mot-clé, sémantique ou hybride · pondérée par la probabilité PrIx per Schlüsselwort, semantisch oder hybrid · gewichtet nach PrIx-Wahrscheinlichkeit
  • BrowseNavegarNaviguerNavigieren collection → book → page → word, programmatically colección → libro → página → palabra, programáticamente collection → livre → page → mot, par programmation Sammlung → Buch → Seite → Wort, programmatisch
  • ExtractExtraerExtraireExtrahieren entities, events, relations from any DLU entidades, eventos y relaciones de cualquier DLU entités, événements et relations depuis n'importe quelle DLU Entitäten, Ereignisse, Relationen aus jeder DLU
  • CiteCitarCiterZitieren every answer traces back to (page, line, region) cada respuesta vuelve a (página, línea, región) chaque réponse remonte à (page, ligne, région) jede Antwort verweist zurück auf (Seite, Zeile, Region)
OAuth 2.1 · API keys per client · full audit trail OAuth 2.1 · claves API por cliente · audit trail completo OAuth 2.1 · clés API par client · piste d'audit complète OAuth 2.1 · API-Schlüssel pro Client · vollständiger Audit-Trail
Self-hosted or cloud En sus máquinas o en su nube Sur vos propres machines ou dans le cloud Auf Ihren eigenen Servern oder in der Cloud

Your archive stays your archive. Su archivo sigue siendo su archivo. Vos archives restent vos archives. Ihr Archiv bleibt Ihr Archiv.

Self-hosted or managed in a cloud of your choosing. Models run on hardware you control; the graph lives in your database; published endpoints are yours to govern. We help you stand it up and get out of the way. Desplegado en sus propias máquinas o gestionado en una nube que usted elija. Los modelos corren en hardware que usted controla; el grafo vive en su base de datos; los endpoints publicados son suyos para gobernar. Le ayudamos a levantarlo y nos quitamos del medio. Déployé sur vos propres machines ou hébergé dans le cloud de votre choix. Les modèles tournent sur du matériel que vous contrôlez ; le graphe vit dans votre base de données ; les endpoints publiés vous appartiennent. Nous vous aidons à le mettre en place, puis nous nous effaçons. Auf Ihren eigenen Servern bereitgestellt oder verwaltet in einer Cloud Ihrer Wahl. Modelle laufen auf Hardware, die Sie kontrollieren; der Graph liegt in Ihrer Datenbank; veröffentlichte Endpoints stehen unter Ihrer Hoheit. Wir helfen Ihnen beim Aufsetzen und treten dann zur Seite.

The machine does the heavy lifting. La máquina hace el trabajo pesado. La machine fait le gros du travail. Die Maschine erledigt die schwere Arbeit.

The human does the judging. El humano decide. L'humain juge. Der Mensch trifft das Urteil.

Co-creation. Measured. Anchored. Ready to curate. Co-creación. Medida. Anclada. Lista para curar. Co-création. Mesurée. Ancrée. Prête à être curée. Ko-Kreation. Gemessen. Verankert. Bereit zur Kuration.