Subir documentos

Subir documentos es la forma más directa de poblar un POT con conocimiento que ya existe en algún archivo. Cada documento que subes pasa por un pipeline que lo parsea, lo trocea y extrae facts atómicos que entran al grafo del POT con provenance completa al chunk de origen.

Formatos soportados

kb2b acepta hoy los siguientes formatos directamente desde la pantalla de Documentos:

Extensión	Tipo
`.pdf`	Documentos PDF
`.docx`	Microsoft Word
`.xlsx`	Microsoft Excel
`.pptx`	Microsoft PowerPoint
`.md`	Markdown
`.txt`	Texto plano
`.html`	HTML
`.csv`	Valores separados por coma
`.json`	JSON
`.xml`	XML
`.yaml` / `.yml`	YAML

Si tienes material en otro formato (.doc antiguo, .rtf, una imagen escaneada), conviértelo antes a uno de los soportados.

Límite de tamaño

El contenido procesable de un documento está acotado a 100 KB (102.400 caracteres). No es el peso del archivo en disco, sino el peso del texto extraído tras el parseo. Un PDF de 50 páginas con mucho texto puede pasar el límite; uno de 50 páginas con muchas imágenes y poco texto entra sin problema. Si excedes el límite, recibes un error HTTP 413 Payload Too Large. La solución: trocea el documento en piezas más pequeñas (capítulos, secciones, periodos temporales) antes de subir.

Cómo subir

Navega a Documentos en la barra lateral (/dashboard/documents).
Arrastra el archivo al área de drop, o usa el selector de archivos.
kb2b empieza la ingestión inmediatamente — verás el documento en la lista con estado pending o processing.
Cuando el proceso termina (segundos para textos cortos, hasta varios minutos para PDFs grandes), el estado pasa a completed y aparece el número de facts extraídos.

Qué pasa por debajo

Cada documento atraviesa cuatro fases:

Parse — extrae el texto del formato original (PDF → texto, DOCX → texto, etc.).
Chunk — divide el texto en fragmentos coherentes con context overlap. Los chunks son las unidades de provenance: cada fact extraído conoce el chunk del que vino.
Extract — Claude lee cada chunk y extrae facts atómicos con su POT Score inicial, keywords y posibles relaciones con otros facts ya en el POT.
Insert — los facts entran al grafo del POT. Si un fact nuevo contradice uno existente, se levanta una contradicción para el equipo en Contradicciones y resolución.

Toda esta cadena la corre SciPot por debajo — kb2b te da la UI y la persistencia, SciPot extrae y puntúa.

Provenance — la trazabilidad completa

Cada fact extraído mantiene un enlace al chunk específico del documento del que se sacó. Eso quiere decir:

En el chat, cuando un fact aparece como cita, puedes seguir la trazabilidad hasta el texto exacto del documento.
Si actualizas el documento y vuelves a ingestarlo, kb2b detecta los facts que cambian, los que se preservan y los que quedan obsoletos.
En auditorías o discusiones con el equipo, “de dónde sale esto” siempre tiene respuesta.

Tags y proyectos

Cada documento puede llevar tags y pertenecer a un proyecto. Los tags son etiquetas libres (contrato, q4-2026, cliente-acme) — útiles para filtrar luego. Los proyectos son agrupaciones más estructuradas — útiles cuando organizas el corpus por cliente, por dominio (legal/comercial/técnico) o por periodo temporal. Tag bien el material al subirlo. Más adelante, en chat o en el explorador de facts, vas a poder pedir cosas como “qué facts de los últimos contratos contradicen la política de descuentos” — y eso requiere que los facts sepan a qué documento y proyecto pertenecen.

Re-extracción

Cuando la extracción mejora — porque mejoró el modelo, porque cambiaron las constituciones del POT, o porque añadiste keywords nuevas que cambian el contexto — puedes re-extraer un documento ya cargado sin volver a subir el archivo. La re-extracción genera facts nuevos y elimina los obsoletos, conservando la provenance histórica.

Cómo verificar que se ingestó bien

Tres signos de salud después de una subida:

Estado del documento: debe llegar a completed. Si se queda en processing más de unos minutos para un archivo pequeño, algo va mal.
Número de facts extraídos: un documento “normal” produce entre 5 y 50 facts. Un documento que extrae 0 facts probablemente tiene poco contenido útil (un PDF mayoritariamente escaneado, una tabla sin contexto, un archivo casi vacío).
POT Score promedio: revisa el Conocimiento y confianza — si el score promedio del POT baja drásticamente después de una subida, hay material de baja calidad entrando. Considera filtrar.

Cuando algo falla

Síntoma	Causa probable	Qué hacer
Error `413 Payload Too Large`	Documento supera los 100 KB de contenido	Trocear en partes más pequeñas
Error `409 Conflict`	Contenido idéntico al de un documento ya subido	Es un duplicado — ya está en el POT
Estado se queda en `failed` con `LLM_RATE_LIMIT`	Cuota de tokens de tu plan llegando al límite	Esperar o subir de plan; ver Límites de tokens
0 facts extraídos	El contenido no tiene material factual extraíble (imagen sin OCR, tabla sin contexto, texto promocional vacío)	Revisar el contenido — si tiene sentido, intentar re-extraer; si no, ignorar
El documento se subió pero las citas en chat no enlazan a él	Caché de fact retrieval — espera 30 segundos y vuelve a preguntar	—

Buenas prácticas

Empieza pequeño. Sube 2-3 documentos representativos antes de hacer un dump masivo. Mira los facts extraídos. Confirma que el POT está aprendiendo lo que esperas que aprenda.
Tag al subir, no después. El tag inicial es 10x más fácil que retaggear más adelante.
Documentos autoritativos primero. Contratos firmados, specs oficiales, políticas internas finales — material que merece POT Score alto. Después el material informal (notas, drafts).
Si tienes mucho material similar, considera consolidarlo en un único documento bien estructurado antes de subir. Es mejor que kb2b parsee un PDF coherente que 30 archivos sueltos del mismo tema.

Paso siguiente opcional — Notas del autor

Antes de extraer un documento puedes adjuntar notas del autor: texto corto que guía cómo kb2b interpreta el contenido al extraer facts, sin convertirse en un fact. Útil cuando el documento es marketing de un tercero, un draft sin firmar, o un export de un sistema externo cuyo branding no es tuyo. Aparecen como chips ámbar bajo cada fact extraído.

El contenido procesado por SciPot durante la ingestión se envía a proveedores de LLM (Claude). Esos datos se procesan en memoria y no se retienen para entrenamiento de modelos, según los acuerdos con los proveedores. Ver Confianza y datos para el detalle.

​Formatos soportados

​Límite de tamaño

​Cómo subir

​Qué pasa por debajo

​Provenance — la trazabilidad completa

​Tags y proyectos

​Re-extracción

​Cómo verificar que se ingestó bien

​Cuando algo falla

​Buenas prácticas

​Paso siguiente opcional — Notas del autor

Formatos soportados

Límite de tamaño

Cómo subir

Qué pasa por debajo

Provenance — la trazabilidad completa

Tags y proyectos

Re-extracción

Cómo verificar que se ingestó bien

Cuando algo falla

Buenas prácticas

Paso siguiente opcional — Notas del autor