navodPeiris
/

layoutlmv2-document-classifier

Text Classification

Generated from Trainer

Model card Files Files and versions

navodPeiris commited on Jul 12

Commit

2206f59

·

verified ·

1 Parent(s): f4e0e48

updated readme

Files changed (1) hide show

README.md +52 -7

README.md CHANGED Viewed

@@ -21,19 +21,64 @@ It achieves the following results on the evaluation set:
 - Loss: 0.0008
 - Accuracy: 1.0
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
 ### Training hyperparameters

 - Loss: 0.0008
 - Accuracy: 1.0
+## Dataset Infomation
+This model was fine-tuned to classify some company documents.
+Dataset used: [Company Documents Dataset](https://www.kaggle.com/datasets/navodpeiris/company-documents-dataset)
+## Dependencies
+```
+pip install PyMuPDF
+pip install transformers
+pip install torch
+pip install torchvision
+pip install pytesseract
+```
+- setup tesseract locally in your machine follow steps here: [install instructions](https://tesseract-ocr.github.io/tessdoc/Installation.html)
+## Model Usage
+use a file in this dataset to test: https://www.kaggle.com/datasets/navodpeiris/company-documents-dataset
+```
+import os
+from PIL import Image
+from transformers import LayoutLMv2Processor, LayoutLMv2ForSequenceClassification
+import fitz
+import io
+processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")
+model = LayoutLMv2ForSequenceClassification.from_pretrained("navodPeiris/layoutlmv2-document-classifier")
+DATA_FOLDER = "data"
+filename = "invoice.pdf"
+file_location = os.path.join(DATA_FOLDER, filename)
+doc = fitz.open(file_location)
+page = doc.load_page(0)
+pix = page.get_pixmap(dpi=200)
+# Convert Pixmap to bytes
+img_bytes = pix.tobytes("png")
+# Load into PIL.Image
+image = Image.open(io.BytesIO(img_bytes)).convert("RGB")
+doc.close()
+encoding = processor(image, return_tensors="pt", truncation=True, padding="max_length", max_length=512)
+outputs = model(**encoding)
+logits = outputs.logits
+predicted_class_id = logits.argmax(dim=1).item()
+classified_output = model.config.id2label[predicted_class_id]
+print(f"Predicted class: {classified_output}")
+```
 ### Training hyperparameters