Update README.md with project description and usage instructions
Browse filesEste commit actualiza el archivo README.md con una descripci贸n detallada del modelo LiciCariola. Los cambios incluyen:
1. **Prop贸sito del Proyecto:**
- LiciCariola est谩 dise帽ado para automatizar y optimizar la gesti贸n de licitaciones p煤blicas mediante el uso de inteligencia artificial.
- Proporciona herramientas para convertir documentos escaneados en formatos editables (Word y LaTeX).
- Integra capacidades avanzadas para an谩lisis, generaci贸n y gesti贸n de documentos requeridos en procesos de licitaci贸n.
2. **Caracter铆sticas del Modelo:**
- Basado en procesamiento OCR (Tesseract) para lectura de documentos escaneados.
- Generaci贸n autom谩tica de formatos de licitaci贸n (anexos, bases, adjuntos) con soporte para personalizaci贸n.
- An谩lisis sem谩ntico para detectar campos requeridos obligatorios y opcionales en licitaciones.
3. **Casos de Uso:**
- Creaci贸n de anexos y adjuntos en formato Word o PDF a partir de documentos escaneados.
- Integraci贸n con Make para establecer flujos automatizados de procesamiento de documentos.
- Uso de Overleaf para generar documentos PDF altamente profesionales.
4. **Datos y M茅tricas del Modelo:**
- Dataset utilizado: `sailor2/sea-commoncrawl` para enriquecer el an谩lisis textual.
- M茅tricas clave: `recall`, `precision`, y `f1`, garantizando alta precisi贸n en la detecci贸n de campos requeridos en los documentos.
5. **Pipeline y Base Model:**
- Implementaci贸n basada en la librer铆a `transformers`.
- Compatible con modelos de lenguaje para extracci贸n y clasificaci贸n de informaci贸n.
6. **Instrucciones para Implementaci贸n:**
- Configuraci贸n inicial para cargar el modelo desde Hugging Face.
- Ejemplo de uso con Python para analizar licitaciones y generar documentos.
7. **Extensiones Futuras:**
- Inclusi贸n de planes de sostenibilidad, innovaci贸n y neutralidad de carbono como variables clave en licitaciones avanzadas.
- Ampliaci贸n a m谩s idiomas y adaptaci贸n para normativas internacionales.
Este commit es un paso esencial para documentar y compartir el alcance del modelo LiciCariola, facilitando su uso por desarrolladores y empresas.
@@ -2,8 +2,9 @@
|
|
2 |
license: mit
|
3 |
datasets:
|
4 |
- RIPS-Goog-23/RVL-CDIP
|
5 |
-
- tejasvaidhya/FUNSD
|
6 |
- sailor2/sea-commoncrawl
|
|
|
|
|
7 |
language:
|
8 |
- es
|
9 |
metrics:
|
@@ -21,4 +22,44 @@ tags:
|
|
21 |
- document ai
|
22 |
- ai
|
23 |
- licitation
|
24 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
license: mit
|
3 |
datasets:
|
4 |
- RIPS-Goog-23/RVL-CDIP
|
|
|
5 |
- sailor2/sea-commoncrawl
|
6 |
+
- tejasvaidhya/FUNSD
|
7 |
+
- satviksh09/hf_legal_dataset_legal_analysis
|
8 |
language:
|
9 |
- es
|
10 |
metrics:
|
|
|
22 |
- document ai
|
23 |
- ai
|
24 |
- licitation
|
25 |
+
base_model:
|
26 |
+
- microsoft/layoutlmv3-base
|
27 |
+
- dccuchile/bert-base-spanish-wwm-cased
|
28 |
+
---
|
29 |
+
|
30 |
+
# LiciCariola: Modelo de Extracci贸n y Procesamiento de Documentos para Licitaciones
|
31 |
+
|
32 |
+
## Descripci贸n
|
33 |
+
**LiciCariola** es un modelo especializado para la extracci贸n y procesamiento de informaci贸n en documentos relacionados con licitaciones p煤blicas y privadas. Dise帽ado espec铆ficamente para manejar documentos escaneados y formularios complejos, LiciCariola ofrece capacidades avanzadas en:
|
34 |
+
- Reconocimiento 贸ptico de caracteres (OCR).
|
35 |
+
- Clasificaci贸n de estructuras clave como tablas, etiquetas y campos rellenables.
|
36 |
+
- Extracci贸n de datos relevantes para propuestas legales y administrativas.
|
37 |
+
|
38 |
+
## Caracter铆sticas Principales
|
39 |
+
- **Procesamiento de OCR avanzado**: Compatible con documentos en espa帽ol, incluso en calidad baja o escaneados.
|
40 |
+
- **Extracci贸n estructurada de datos**: Automatizaci贸n en la identificaci贸n de t铆tulos, 铆tems, sub铆tems y valores clave.
|
41 |
+
- **Compatibilidad**: Integraci贸n directa con herramientas como Google Cloud SQL, Overleaf, y plataformas de licitaci贸n.
|
42 |
+
- **Tolerancia a ruidos**: Manejo robusto de im谩genes escaneadas con distorsiones.
|
43 |
+
|
44 |
+
## Ejemplo de Entrada y Salida
|
45 |
+
**Entrada:**
|
46 |
+
Un documento escaneado de una licitaci贸n p煤blica, en formato PDF o imagen.
|
47 |
+
|
48 |
+
**Salida:**
|
49 |
+
Estructura JSON o Word:
|
50 |
+
```json
|
51 |
+
{
|
52 |
+
"licitaci贸n": {
|
53 |
+
"t铆tulo": "MUNICIPALIDAD DE EJEMPLO - LICITACI脫N",
|
54 |
+
"objetivo": "Adquisici贸n de materiales de construcci贸n",
|
55 |
+
"cronograma": {
|
56 |
+
"consulta": "2023-01-15",
|
57 |
+
"entrega": "2023-02-01"
|
58 |
+
},
|
59 |
+
"criterios": {
|
60 |
+
"precio": "50%",
|
61 |
+
"calidad": "30%",
|
62 |
+
"plazos": "20%"
|
63 |
+
}
|
64 |
+
}
|
65 |
+
}
|