Spaces:

napatswift
/

votecount-ml-be

Build error

App Files Files Community

napatswift commited on May 13, 2023

Commit

cc0b98f

1 Parent(s): f25f280

Update model

Browse files

Files changed (2) hide show

model/det/config.py +133 -19
model/det/model.pth +2 -2

model/det/config.py CHANGED Viewed

@@ -42,9 +42,20 @@ train_pipeline = [
     dict(
         type='ImgAugWrapper',
         args=[['Fliplr', 0.5], {
             'cls': 'Affine',
             'rotate': [-10, 10]
-        }, ['Resize', [0.5, 3.0]]]),
     dict(type='RandomCrop', min_side_ratio=0.1),
     dict(type='Resize', scale=(640, 640), keep_ratio=True),
     dict(type='Pad', size=(640, 640)),
@@ -67,10 +78,10 @@ test_pipeline = [
         type='PackTextDetInputs',
         meta_keys=('img_path', 'ori_shape', 'img_shape', 'scale_factor'))
 ]
-icdar2015_textdet_data_root = 'data/det/textdet-thvote'
-icdar2015_textdet_train = dict(
     type='OCRDataset',
-    data_root='data/det/textdet-thvote',
     ann_file='textdet_train.json',
     data_prefix=dict(img_path='imgs/'),
     filter_cfg=dict(filter_empty_gt=True, min_size=32),
@@ -92,9 +103,20 @@ icdar2015_textdet_train = dict(
         dict(
             type='ImgAugWrapper',
             args=[['Fliplr', 0.5], {
                 'cls': 'Affine',
                 'rotate': [-10, 10]
-            }, ['Resize', [0.5, 3.0]]]),
         dict(type='RandomCrop', min_side_ratio=0.1),
         dict(type='Resize', scale=(640, 640), keep_ratio=True),
         dict(type='Pad', size=(640, 640)),
@@ -102,7 +124,22 @@ icdar2015_textdet_train = dict(
             type='PackTextDetInputs',
             meta_keys=('img_path', 'ori_shape', 'img_shape'))
     ])
-icdar2015_textdet_test = dict(
     type='OCRDataset',
     data_root='data/det/textdet-thvote',
     ann_file='textdet_test.json',
@@ -133,7 +170,7 @@ default_hooks = dict(
     timer=dict(type='IterTimerHook'),
     logger=dict(type='LoggerHook', interval=5),
     param_scheduler=dict(type='ParamSchedulerHook'),
-    checkpoint=dict(type='CheckpointHook', interval=20),
     sampler_seed=dict(type='DistSamplerSeedHook'),
     sync_buffer=dict(type='SyncBuffersHook'),
     visualization=dict(
@@ -146,7 +183,7 @@ default_hooks = dict(
 log_level = 'INFO'
 log_processor = dict(type='LogProcessor', window_size=10, by_epoch=True)
 load_from = None
-resume = False
 val_evaluator = dict(type='HmeanIOUMetric')
 test_evaluator = dict(type='HmeanIOUMetric')
 vis_backends = [dict(type='LocalVisBackend')]
@@ -154,21 +191,87 @@ visualizer = dict(
     type='TextDetLocalVisualizer',
     name='visualizer',
     vis_backends=[dict(type='LocalVisBackend')])
 optim_wrapper = dict(
-    type='OptimWrapper',
-    optimizer=dict(type='SGD', lr=0.007, momentum=0.9, weight_decay=0.0001))
-train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=1200, val_interval=20)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-param_scheduler = [dict(type='PolyLR', power=0.9, eta_min=1e-07, end=1200)]
 train_dataloader = dict(
-    batch_size=16,
     num_workers=8,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=True),
     dataset=dict(
         type='OCRDataset',
-        data_root='data/det/textdet-thvote',
         ann_file='textdet_train.json',
         data_prefix=dict(img_path='imgs/'),
         filter_cfg=dict(filter_empty_gt=True, min_size=32),
@@ -190,9 +293,20 @@ train_dataloader = dict(
             dict(
                 type='ImgAugWrapper',
                 args=[['Fliplr', 0.5], {
                     'cls': 'Affine',
                     'rotate': [-10, 10]
-                }, ['Resize', [0.5, 3.0]]]),
             dict(type='RandomCrop', min_side_ratio=0.1),
             dict(type='Resize', scale=(640, 640), keep_ratio=True),
             dict(type='Pad', size=(640, 640)),
@@ -201,7 +315,7 @@ train_dataloader = dict(
                 meta_keys=('img_path', 'ori_shape', 'img_shape'))
         ]))
 val_dataloader = dict(
-    batch_size=1,
     num_workers=4,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=False),
@@ -228,7 +342,7 @@ val_dataloader = dict(
                            'scale_factor'))
         ]))
 test_dataloader = dict(
-    batch_size=1,
     num_workers=4,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=False),
@@ -254,6 +368,6 @@ test_dataloader = dict(
                 meta_keys=('img_path', 'ori_shape', 'img_shape',
                            'scale_factor'))
         ]))
-auto_scale_lr = dict(base_batch_size=16)
 launcher = 'none'
-work_dir = './work_dirs/dbnet_resnet18_fpnc_1200e_icdar2015'

     dict(
         type='ImgAugWrapper',
         args=[['Fliplr', 0.5], {
+            'cls': 'CoarseDropout',
+            'p': (0.0005, 0.001),
+            'size_percent': 0.4
+        }, {
             'cls': 'Affine',
             'rotate': [-10, 10]
+        }, {
+            'cls': 'GaussianBlur',
+            'sigma': (1, 1.6)
+        }, ['Resize', [0.5, 3.0]], {
+            'cls': 'CoarseDropout',
+            'p': (0.0005, 0.001),
+            'size_percent': 0.4
+        }]),
     dict(type='RandomCrop', min_side_ratio=0.1),
     dict(type='Resize', scale=(640, 640), keep_ratio=True),
     dict(type='Pad', size=(640, 640)),
         type='PackTextDetInputs',
         meta_keys=('img_path', 'ori_shape', 'img_shape', 'scale_factor'))
 ]
+thvc_textdet_data_root = 'data/det/vl+vc-textdet'
+thvc_textdet_train = dict(
     type='OCRDataset',
+    data_root='data/det/vl+vc-textdet',
     ann_file='textdet_train.json',
     data_prefix=dict(img_path='imgs/'),
     filter_cfg=dict(filter_empty_gt=True, min_size=32),
         dict(
             type='ImgAugWrapper',
             args=[['Fliplr', 0.5], {
+                'cls': 'CoarseDropout',
+                'p': (0.0005, 0.001),
+                'size_percent': 0.4
+            }, {
                 'cls': 'Affine',
                 'rotate': [-10, 10]
+            }, {
+                'cls': 'GaussianBlur',
+                'sigma': (1, 1.6)
+            }, ['Resize', [0.5, 3.0]], {
+                'cls': 'CoarseDropout',
+                'p': (0.0005, 0.001),
+                'size_percent': 0.4
+            }]),
         dict(type='RandomCrop', min_side_ratio=0.1),
         dict(type='Resize', scale=(640, 640), keep_ratio=True),
         dict(type='Pad', size=(640, 640)),
             type='PackTextDetInputs',
             meta_keys=('img_path', 'ori_shape', 'img_shape'))
     ])
+thvc_textdet_test = dict(
+    type='OCRDataset',
+    data_root='data/det/vl+vc-textdet',
+    ann_file='textdet_test.json',
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
+    pipeline=None)
+thvote_textdet_data_root = 'data/det/textdet-thvote'
+thvote_textdet_train = dict(
+    type='OCRDataset',
+    data_root='data/det/textdet-thvote',
+    ann_file='textdet_train.json',
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
+    pipeline=None)
+thvote_textdet_test = dict(
     type='OCRDataset',
     data_root='data/det/textdet-thvote',
     ann_file='textdet_test.json',
     timer=dict(type='IterTimerHook'),
     logger=dict(type='LoggerHook', interval=5),
     param_scheduler=dict(type='ParamSchedulerHook'),
+    checkpoint=dict(type='CheckpointHook', interval=5),
     sampler_seed=dict(type='DistSamplerSeedHook'),
     sync_buffer=dict(type='SyncBuffersHook'),
     visualization=dict(
 log_level = 'INFO'
 log_processor = dict(type='LogProcessor', window_size=10, by_epoch=True)
 load_from = None
+resume = True
 val_evaluator = dict(type='HmeanIOUMetric')
 test_evaluator = dict(type='HmeanIOUMetric')
 vis_backends = [dict(type='LocalVisBackend')]
     type='TextDetLocalVisualizer',
     name='visualizer',
     vis_backends=[dict(type='LocalVisBackend')])
+max_epochs = 30
 optim_wrapper = dict(
+    type='OptimWrapper', optimizer=dict(type='Adam', lr=0.001))
+train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=30, val_interval=10)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
+param_scheduler = [dict(type='PolyLR', power=0.9, end=30)]
+thvotecount_textdet_train = dict(
+    type='OCRDataset',
+    data_root='data/det/vl+vc-textdet',
+    ann_file='textdet_train.json',
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
+    pipeline=[
+        dict(
+            type='LoadImageFromFile',
+            file_client_args=dict(backend='disk'),
+            color_type='color_ignore_orientation'),
+        dict(
+            type='LoadOCRAnnotations',
+            with_polygon=True,
+            with_bbox=True,
+            with_label=True),
+        dict(
+            type='TorchVisionWrapper',
+            op='ColorJitter',
+            brightness=0.12549019607843137,
+            saturation=0.5),
+        dict(
+            type='ImgAugWrapper',
+            args=[['Fliplr', 0.5], {
+                'cls': 'CoarseDropout',
+                'p': (0.0005, 0.001),
+                'size_percent': 0.4
+            }, {
+                'cls': 'Affine',
+                'rotate': [-10, 10]
+            }, {
+                'cls': 'GaussianBlur',
+                'sigma': (1, 1.6)
+            }, ['Resize', [0.5, 3.0]], {
+                'cls': 'CoarseDropout',
+                'p': (0.0005, 0.001),
+                'size_percent': 0.4
+            }]),
+        dict(type='RandomCrop', min_side_ratio=0.1),
+        dict(type='Resize', scale=(640, 640), keep_ratio=True),
+        dict(type='Pad', size=(640, 640)),
+        dict(
+            type='PackTextDetInputs',
+            meta_keys=('img_path', 'ori_shape', 'img_shape'))
+    ])
+thvotecount_textdet_test = dict(
+    type='OCRDataset',
+    data_root='data/det/textdet-thvote',
+    ann_file='textdet_test.json',
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
+    pipeline=[
+        dict(
+            type='LoadImageFromFile',
+            file_client_args=dict(backend='disk'),
+            color_type='color_ignore_orientation'),
+        dict(type='Resize', scale=(1333, 736), keep_ratio=True),
+        dict(
+            type='LoadOCRAnnotations',
+            with_polygon=True,
+            with_bbox=True,
+            with_label=True),
+        dict(
+            type='PackTextDetInputs',
+            meta_keys=('img_path', 'ori_shape', 'img_shape', 'scale_factor'))
+    ])
 train_dataloader = dict(
+    batch_size=40,
     num_workers=8,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=True),
     dataset=dict(
         type='OCRDataset',
+        data_root='data/det/vl+vc-textdet',
         ann_file='textdet_train.json',
         data_prefix=dict(img_path='imgs/'),
         filter_cfg=dict(filter_empty_gt=True, min_size=32),
             dict(
                 type='ImgAugWrapper',
                 args=[['Fliplr', 0.5], {
+                    'cls': 'CoarseDropout',
+                    'p': (0.0005, 0.001),
+                    'size_percent': 0.4
+                }, {
                     'cls': 'Affine',
                     'rotate': [-10, 10]
+                }, {
+                    'cls': 'GaussianBlur',
+                    'sigma': (1, 1.6)
+                }, ['Resize', [0.5, 3.0]], {
+                    'cls': 'CoarseDropout',
+                    'p': (0.0005, 0.001),
+                    'size_percent': 0.4
+                }]),
             dict(type='RandomCrop', min_side_ratio=0.1),
             dict(type='Resize', scale=(640, 640), keep_ratio=True),
             dict(type='Pad', size=(640, 640)),
                 meta_keys=('img_path', 'ori_shape', 'img_shape'))
         ]))
 val_dataloader = dict(
+    batch_size=8,
     num_workers=4,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=False),
                            'scale_factor'))
         ]))
 test_dataloader = dict(
+    batch_size=8,
     num_workers=4,
     persistent_workers=True,
     sampler=dict(type='DefaultSampler', shuffle=False),
                 meta_keys=('img_path', 'ori_shape', 'img_shape',
                            'scale_factor'))
         ]))
+auto_scale_lr = dict(base_batch_size=100)
 launcher = 'none'
+work_dir = './work_dirs/dbnet_resnet18_fpnc_votecount'

model/det/model.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8de2f2fe74ea3d941fe56373001209d13904d8d313f6bdfbeb4e1142f321e8ec
-size 100074073

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4e79675b6bab2c627fbf19196dd0baf57c7016958892e75ffb0eed0bc3c467b
+size 148596609