Spaces:

NorHsangPha
/

Shan-Tesseract-OCR

Sleeping

App Files Files Community

NorHsangPha commited on Mar 22

Commit

a53fc8c

0 Parent(s):

Initial: initial commit

Browse files

Files changed (13) hide show

.gitattributes +37 -0
.gitignore +1 -0
README.md +14 -0
app_blocks.py +49 -0
app_interface.py +41 -0
examples/example1.png +0 -0
examples/example2.png +0 -0
examples/example3.png +0 -0
examples/example4.png +0 -0
packages.txt +1 -0
requirements.txt +2 -0
tessdata/eng.traineddata +3 -0
tessdata/shn.traineddata +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,37 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tessdata/shn.traineddata filter=lfs diff=lfs merge=lfs -text
+tessdata/eng.traineddata filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .DS_Store

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Shan Tesseract OCR
+emoji: 🦀
+colorFrom: yellow
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.22.0
+app_file: app.py
+pinned: false
+license: mit
+short_description: Demo for Shan-Tesseract-OCR
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app_blocks.py ADDED Viewed

	@@ -0,0 +1,49 @@

+from typing import List
+import pytesseract
+from PIL import Image
+import gradio as gr
+def tesseract_ocr(filepath: str, languages: List[str]):
+    image = Image.open(filepath)
+    oem_psm_config = '--oem 3 --psm 11 --tessdata-dir ./tessdata'
+    return pytesseract.image_to_string(image=image, lang='+'.join(languages) if languages else None, config=oem_psm_config)
+title = "Shan Tesseract OCR"
+description = "Gradio demo for Tesseract-OCR Shan. Tesseract is an open source text recognition (OCR) Engine."
+article = "<p style='text-align: center'><a href='https://tesseract-ocr.github.io/' target='_blank'>Tesseract documentation</a> | <a href='https://github.com/tesseract-ocr/tesseract' target='_blank'>Github Repo</a></p>"
+examples = [
+    ["examples/example2.png", ["eng", "shn"]],
+    ["examples/example3.png", ["eng", "shn"]],
+    ["examples/example4.png", ["eng", "shn"]],
+    ["examples/example1.png", ["eng", "shn"]],
+]
+with gr.Blocks(title=title) as demo:
+    gr.Markdown(f'<h1 style="text-align: center; margin-bottom: 1rem;">{title}</h1>')
+    gr.Markdown(description)
+    with gr.Row():
+        with gr.Column():
+            image = gr.Image(type="filepath", label="Input")
+            language_choices = pytesseract.get_languages(config='--tessdata-dir ./tessdata') # get available languages from tessdata prefix
+            with gr.Accordion("Languages", open=False):
+                languages = gr.CheckboxGroup(language_choices, type="value", value=["eng"], label='language')
+            with gr.Row():
+                btn_clear = gr.ClearButton([image, languages])
+                btn_submit = gr.Button(value="Submit", variant="primary")
+        with gr.Column():
+            text = gr.Textbox(label="Output")
+    btn_submit.click(tesseract_ocr, inputs=[image, languages], outputs=text, api_name="tesseract-ocr")
+    btn_clear.add(text)
+    gr.Examples(
+        examples=examples,
+        inputs=[image, languages],
+    )
+    gr.Markdown(article)
+if __name__ == '__main__':
+    demo.launch()

app_interface.py ADDED Viewed

	@@ -0,0 +1,41 @@

+from typing import List
+import pytesseract
+from PIL import Image
+import gradio as gr
+def tesseract_ocr(filepath: str, languages: List[str]):
+    image = Image.open(filepath)
+    oem_psm_config = '--oem 3 --psm 11 --tessdata-dir ./tessdata'
+    return pytesseract.image_to_string(image=image, lang='+'.join(languages), config=oem_psm_config)
+title = "Shan Tesseract OCR"
+description = "Gradio demo for Tesseract-OCR Shan. Tesseract is an open source text recognition (OCR) Engine."
+article = "<p style='text-align: center'><a href='https://tesseract-ocr.github.io/' target='_blank'>Tesseract documentation</a> | <a href='https://github.com/tesseract-ocr/tesseract' target='_blank'>Github Repo</a></p>"
+examples = [
+    ["examples/example2.png", ["eng", "shn"]],
+    ["examples/example3.png", ["eng", "shn"]],
+    ["examples/example4.png", ["eng", "shn"]],
+    ["examples/example1.png", ["eng", "shn"]],
+]
+language_choices = pytesseract.get_languages(config='--tessdata-dir ./tessdata')
+demo = gr.Interface(
+    fn=tesseract_ocr,
+    inputs=[
+        gr.Image(type="filepath", label="Input"),
+        gr.CheckboxGroup(language_choices, type="value", value=['eng'], label='language')
+        ],
+    outputs='text',
+    title=title,
+    description=description,
+    article=article,
+    examples=examples,
+)
+if __name__ == '__main__':
+    demo.launch()
+    print("Finished running")

examples/example1.png ADDED Viewed

examples/example2.png ADDED Viewed

examples/example3.png ADDED Viewed

examples/example4.png ADDED Viewed

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ tesseract-ocr-all

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio
2	+ pytesseract

tessdata/eng.traineddata ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d4322bd2a7749724879683fc3912cb542f19906c83bcc1a52132556427170b2
+size 4113088

tessdata/shn.traineddata ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:023e21f297d24ad64c062a78788f695ddfff9e3170cfcff5fcc466a39ed500ef
+size 13375840