Spaces:

ReacherTN
/

Arab_Sign_Language_Detection

Runtime error

App Files Files Community

Reacher commited on Apr 20, 2023

Commit

750920d

1 Parent(s): f2a192e

added vid in ference

Browse files

Files changed (3) hide show

.gitignore +2 -1
app.py +24 -28
predict.py +48 -0

.gitignore CHANGED Viewed

@@ -1,5 +1,6 @@
 flagged/
 *.png
-*.mp4
 *.mkv
 gradio_cached_examples/

 flagged/
+__pycache__/
 *.png
 *.mkv
+*.mp4
 gradio_cached_examples/

app.py CHANGED Viewed

@@ -1,32 +1,11 @@
 import gradio as gr
-import cv2
 import requests
-from ultralytics import YOLO
-model = YOLO('best.pt')
-path = [['image.jpg'],]
-classes = ['ain', 'al', 'aleff','bb','dal','dha','dhad','fa','gaaf','ghain','ha','haa','jeem','kaaf','khaa','la','laam',
-        'meem','nun','ra','saad','seen','sheen','ta','taa','thaa','thal','toot','waw','ya','yaa','zay']
-TargetMapper = dict(zip(range(32),classes))
-def show_preds_image(image_path):
-    print(image_path)
-    image = cv2.imread(image_path)
-    outputs = model.predict(source=image_path)
-    results = outputs[0]
-    for i,det in enumerate(results.boxes.xyxy):
-        cls = TargetMapper[results.boxes.cls.numpy()[i]]
-        #det = results.boxes.xyxy[0]
-        cv2.rectangle(
-            image,
-            (int(det[0]), int(det[1])),
-            (int(det[2]), int(det[3])),
-            color=(0, 0, 255),
-            thickness=2,
-            lineType=cv2.LINE_AA
-        )
-        cv2.putText(image, cls, (int(det[0]), int(det[1])-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (36,255,12), 2)
-    return cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
 #image = cv2.imwrite('output.jpg', show_preds_image(path))
 inputs_image = [
@@ -35,11 +14,28 @@ inputs_image = [
 outputs_image = [
     gr.components.Image(type="numpy", label="Output Image"),
 ]
-gr.Interface(
-    fn=show_preds_image,
     inputs=inputs_image,
     outputs=outputs_image,
     title="Arab Sign Language Detection app",
     examples=path,
     cache_examples=False,
-).launch()

 import gradio as gr
 import requests
+from predict import image_inference,video_inference
+path = [['image.jpg'],]
+video_path = [['video_.mp4']]
 #image = cv2.imwrite('output.jpg', show_preds_image(path))
 inputs_image = [
 outputs_image = [
     gr.components.Image(type="numpy", label="Output Image"),
 ]
+image_interface = gr.Interface(
+    fn=image_inference,
     inputs=inputs_image,
     outputs=outputs_image,
     title="Arab Sign Language Detection app",
     examples=path,
     cache_examples=False,
+)#.launch(share=True)
+inputs_video = [
+    gr.components.Video(type='filepath',label='Input Video'),
+]
+outputs_video = [
+    gr.components.Image(type='numpy',label='Output Video')
+]
+interface_video = gr.Interface(
+    fn=video_inference,
+    inputs=inputs_video,
+    outputs=outputs_video,
+    title="Arab Sign Language Detection app",
+    examples=video_path
+)
+gr.TabbedInterface(
+    [image_interface, interface_video],
+    tab_names=['Image inference', 'Video inference']
+).queue().launch()

predict.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import cv2
+from ultralytics import YOLO
+classes = ['ain', 'al', 'aleff','bb','dal','dha','dhad','fa','gaaf','ghain','ha','haa','jeem','kaaf','khaa','la','laam',
+        'meem','nun','ra','saad','seen','sheen','ta','taa','thaa','thal','toot','waw','ya','yaa','zay']
+TargetMapper = dict(zip(range(32),classes))
+model = YOLO('best.pt')
+def image_inference(image_path):
+    print(image_path)
+    image = cv2.imread(image_path)
+    outputs = model.predict(source=image_path)
+    results = outputs[0]
+    for i,det in enumerate(results.boxes.xyxy):
+        cls = TargetMapper[results.boxes.cls.numpy()[i]]
+        #det = results.boxes.xyxy[0]
+        cv2.rectangle(
+            image,
+            (int(det[0]), int(det[1])),
+            (int(det[2]), int(det[3])),
+            color=(0, 0, 255),
+            thickness=2,
+            lineType=cv2.LINE_AA
+        )
+        cv2.putText(image, cls, (int(det[0]), int(det[1])-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (36,255,12), 2)
+    return cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+def video_inference(video_path) :
+    cap = cv2.VideoCapture(video_path)
+    while(cap.isOpened()):
+        ret, frame = cap.read()
+        if ret:
+            frame_copy = frame.copy()
+            outputs = model.predict(source=frame)
+            results = outputs[0]#.cpu().numpy()
+            for i, det in enumerate(results.boxes.xyxy):
+                cls = TargetMapper[results.boxes.cls.numpy()[i]]
+                cv2.rectangle(
+                    frame_copy,
+                    (int(det[0]), int(det[1])),
+                    (int(det[2]), int(det[3])),
+                    color=(0, 0, 255),
+                    thickness=2,
+                    lineType=cv2.LINE_AA
+                )
+                cv2.putText(frame_copy, cls, (int(det[0]), int(det[1])-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (36,255,12), 2)
+            yield cv2.cvtColor(frame_copy, cv2.COLOR_BGR2RGB)