Spaces:

Kaushik066
/

indian_sign_language_translation

Running

App Files Files Community

Kaushik066 commited on 27 days ago

Commit

75d7cea

1 Parent(s): 78763ed

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -5

app.py CHANGED Viewed

@@ -2,6 +2,7 @@
 import torch
 # For data transformation
 from torchvision import transforms
 # For ML Model
 import transformers
 from transformers import VivitImageProcessor, VivitConfig, VivitModel
@@ -113,10 +114,15 @@ class CreateDatasetProd():
         self.frame_step = frame_step
         # Define a sample transformation pipeline
-        self.transform_prod = transforms.v2.Compose([
-                                    transforms.v2.ToImage(),
-                                    transforms.v2.Resize((self.clip_size, self.clip_size)),
-                                    transforms.v2.ToDtype(torch.float32, scale=True)
                                 ])
     def read_video(self, video_path):
@@ -182,7 +188,8 @@ class CreateDatasetProd():
         # Read and process Videos
         video = self.read_video(video_paths)
         video = torch.from_numpy(video.asnumpy())
-        video = transforms.v2.functional.resize(video.permute(0, 3, 1, 2), size=(self.clip_size*2, self.clip_size*3)) # Auto converts to (F, C, H, W) format
         video = self.add_landmarks(video)
         # Data Preperation for ML Model without Augmentation
         video = self.transform_prod(video.permute(0, 3, 1, 2))

 import torch
 # For data transformation
 from torchvision import transforms
+from torchvision.transforms import v2
 # For ML Model
 import transformers
 from transformers import VivitImageProcessor, VivitConfig, VivitModel
         self.frame_step = frame_step
         # Define a sample transformation pipeline
+        #self.transform_prod = transforms.v2.Compose([
+        #                            transforms.v2.ToImage(),
+        #                            transforms.v2.Resize((self.clip_size, self.clip_size)),
+        #                            transforms.v2.ToDtype(torch.float32, scale=True)
+        #                        ])
+        self.transform_prod = v2.Compose([
+                                    v2.ToImage(),
+                                    v2.Resize((self.clip_size, self.clip_size)),
+                                    v2.ToDtype(torch.float32, scale=True)
                                 ])
     def read_video(self, video_path):
         # Read and process Videos
         video = self.read_video(video_paths)
         video = torch.from_numpy(video.asnumpy())
+        #video = transforms.v2.functional.resize(video.permute(0, 3, 1, 2), size=(self.clip_size*2, self.clip_size*3)) # Auto converts to (F, C, H, W) format
+        video = v2.functional.resize(video.permute(0, 3, 1, 2), size=(self.clip_size*2, self.clip_size*3)) # Auto converts to (F, C, H, W) format
         video = self.add_landmarks(video)
         # Data Preperation for ML Model without Augmentation
         video = self.transform_prod(video.permute(0, 3, 1, 2))