--- license: mit datasets: - RIPS-Goog-23/RVL-CDIP - sailor2/sea-commoncrawl - tejasvaidhya/FUNSD - satviksh09/hf_legal_dataset_legal_analysis language: - es metrics: - recall - precision - f1 new_version: openthaigpt/openthaigpt-1.0.0-13b-chat library_name: transformers tags: - ocr - documentAi - spanish - legal - document - document ai - ai - licitation base_model: - microsoft/layoutlmv3-base - dccuchile/bert-base-spanish-wwm-cased --- # LiciCariola: Modelo de Extracción y Procesamiento de Documentos para Licitaciones ## Descripción **LiciCariola** es un modelo especializado para la extracción y procesamiento de información en documentos relacionados con licitaciones públicas y privadas. Diseñado específicamente para manejar documentos escaneados y formularios complejos, LiciCariola ofrece capacidades avanzadas en: - Reconocimiento óptico de caracteres (OCR). - Clasificación de estructuras clave como tablas, etiquetas y campos rellenables. - Extracción de datos relevantes para propuestas legales y administrativas. ## Características Principales - **Procesamiento de OCR avanzado**: Compatible con documentos en español, incluso en calidad baja o escaneados. - **Extracción estructurada de datos**: Automatización en la identificación de títulos, ítems, subítems y valores clave. - **Compatibilidad**: Integración directa con herramientas como Google Cloud SQL, Overleaf, y plataformas de licitación. - **Tolerancia a ruidos**: Manejo robusto de imágenes escaneadas con distorsiones. ## Ejemplo de Entrada y Salida **Entrada:** Un documento escaneado de una licitación pública, en formato PDF o imagen. **Salida:** Estructura JSON o Word: ```json { "licitación": { "título": "MUNICIPALIDAD DE EJEMPLO - LICITACIÓN", "objetivo": "Adquisición de materiales de construcción", "cronograma": { "consulta": "2023-01-15", "entrega": "2023-02-01" }, "criterios": { "precio": "50%", "calidad": "30%", "plazos": "20%" } } }