uartimcs
/

donut-booking-extract

Image-Text-to-Text

document-parsing

Model card Files Files and versions Metrics Training metrics Community

uartimcs commited on Nov 13, 2024

Commit

7ecd7bb

·

verified ·

1 Parent(s): c0a286b

Update README.md

Files changed (1) hide show

README.md +16 -7

README.md CHANGED Viewed

@@ -3,22 +3,31 @@ language:
 - en
 metrics:
 - accuracy
-pipeline_tag: image-to-text
 base_model:
 - naver-clova-ix/donut-base-finetuned-cord-v2
 ---
 This is a FYP project for document parsing of logistics shipping documents for system integration.
-Latest update on the version of modules used to continue run the program.
-Use case:
-Extract key datafields from shipping documents generated from ten different shipping lines.
-Repo & Datasets
 - donut.zip (Original Donut Repo + Labelled Booking Dummy Datasets with JSONL files + Config Files)
 - sample-image-to-play.zip (Excess dummy datasets used to play and test the model)
   https://huggingface.co/spaces/uartimcs/donut-booking-gradio
-Colab Notebooks
 - donut-booking-train.ipynb (Train the model in Colab using T4 TPU / A100 GPU environemnt)
-- donut-booking-run.ipynb (Run the model in Colab using gradio using T4 TPU / A100 GPU environemnt)

 - en
 metrics:
 - accuracy
+pipeline_tag: image-text-to-text
 base_model:
 - naver-clova-ix/donut-base-finetuned-cord-v2
+tags:
+- logistics
+- document-parsing
 ---
 This is a FYP project for document parsing of logistics shipping documents for system integration.
+Latest update on the version of modules used to continue run the program because there is no recent update for the donut pretrained model.
+**My use case:**
+Extract common key datafields from shipping documents generated from ten different shipping lines.
+**Repo & Datasets**
 - donut.zip (Original Donut Repo + Labelled Booking Dummy Datasets with JSONL files + Config Files)
 - sample-image-to-play.zip (Excess dummy datasets used to play and test the model)
   https://huggingface.co/spaces/uartimcs/donut-booking-gradio
+**Colab Notebooks**
 - donut-booking-train.ipynb (Train the model in Colab using T4 TPU / A100 GPU environemnt)
+- donut-booking-run.ipynb (Run the model in Colab using gradio using T4 TPU / A100 GPU environemnt)
+**Size of dataset**
+Follow the CORD-v2 dataset ratio:
+- train: 800 (80 pics x 10 classes)
+- validation: 100 (10 pics x 10 classes)
+- test:  100 (10 pics x 10 classes)