Spaces:

ManishW
/

News-Classifier

Sleeping

App Files Files Community

ManishW commited on Nov 2, 2023

Commit

022acf4

1 Parent(s): 80f5f82

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
.gitignore +166 -0
.pre-commit-config.yaml +17 -0
LICENSE +21 -0
Makefile +15 -0
NewsClassifier.egg-info/PKG-INFO +6 -0
NewsClassifier.egg-info/SOURCES.txt +16 -0
NewsClassifier.egg-info/dependency_links.txt +1 -0
NewsClassifier.egg-info/requires.txt +34 -0
NewsClassifier.egg-info/top_level.txt +1 -0
README.md +4 -8
app.py +50 -0
artifacts/model.pt +3 -0
dataset/preprocessed/test.csv +0 -0
dataset/preprocessed/train.csv +0 -0
dataset/raw/news_dataset.csv +3 -0
docs/index.md +35 -0
docs/newsclassifier/config.md +1 -0
docs/newsclassifier/data.md +1 -0
docs/newsclassifier/inference.md +1 -0
docs/newsclassifier/models.md +1 -0
docs/newsclassifier/train.md +1 -0
docs/newsclassifier/tune.md +1 -0
docs/newsclassifier/utils.md +1 -0
logs/error.log +0 -0
logs/info.log +186 -0
mkdocs.yml +20 -0
newsclassifier/__init__.py +0 -0
newsclassifier/__pycache__/__init__.cpython-310.pyc +0 -0
newsclassifier/__pycache__/config.cpython-310.pyc +0 -0
newsclassifier/__pycache__/data.cpython-310.pyc +0 -0
newsclassifier/__pycache__/models.cpython-310.pyc +0 -0
newsclassifier/__pycache__/predict.cpython-310.pyc +0 -0
newsclassifier/__pycache__/serve.cpython-310.pyc +0 -0
newsclassifier/config/__init__.py +0 -0
newsclassifier/config/__pycache__/__init__.cpython-310.pyc +0 -0
newsclassifier/config/__pycache__/config.cpython-310.pyc +0 -0
newsclassifier/config/config.py +265 -0
newsclassifier/config/sweep_config.yaml +17 -0
newsclassifier/data.py +197 -0
newsclassifier/inference.py +54 -0
newsclassifier/models.py +60 -0
newsclassifier/predict.py +32 -0
newsclassifier/train.py +151 -0
newsclassifier/tune.py +85 -0
newsclassifier/utils.py +20 -0
notebooks/eda.ipynb +257 -0
notebooks/newsclassifier-roberta-base-wandb-track-sweep.ipynb +1035 -0
requirements.txt +34 -0
setup.py +23 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+dataset/raw/news_dataset.csv filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,166 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# poetry
+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
+#poetry.lock
+# pdm
+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
+#pdm.lock
+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
+#   in version control.
+#   https://pdm.fming.dev/#use-with-ide
+.pdm.toml
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+# PyCharm
+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
+#.idea/
+# make
+Makefile
+# artifacts
+artifacts/

.pre-commit-config.yaml ADDED Viewed

	@@ -0,0 +1,17 @@

+# See https://pre-commit.com for more information
+# See https://pre-commit.com/hooks.html for more hooks
+repos:
+-   repo: https://github.com/pre-commit/pre-commit-hooks
+    rev: v4.5.0
+    hooks:
+    -   id: trailing-whitespace
+        exclude: "docs/index.md"
+    -   id: check-yaml
+-   repo: local
+    hooks:
+    -   id: style
+        name: Style
+        entry: make
+        args: ["style"]
+        language: system
+        pass_filenames: false

LICENSE ADDED Viewed

	@@ -0,0 +1,21 @@

+MIT License
+Copyright (c) 2023 Manish Wahale
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

Makefile ADDED Viewed

	@@ -0,0 +1,15 @@

+ifeq ($(OS), Windows_NT)
+# Styling
+.PHONY: style
+style:
+	black . --line-length 150
+	isort . -rc
+	flake8 . --exit-zero
+else
+# Styling
+.PHONY: style
+style:
+	python3 -m black . --line-length 150
+	python3 -m isort . -rc
+	python3 -m flake8 . --exit-zero
+endif

NewsClassifier.egg-info/PKG-INFO ADDED Viewed

	@@ -0,0 +1,6 @@

+Metadata-Version: 2.1
+Name: NewsClassifier
+Version: 1.0
+Author: ManishW
+Author-email: [email protected]
+License-File: LICENSE

NewsClassifier.egg-info/SOURCES.txt ADDED Viewed

	@@ -0,0 +1,16 @@

+LICENSE
+README.md
+setup.py
+NewsClassifier.egg-info/PKG-INFO
+NewsClassifier.egg-info/SOURCES.txt
+NewsClassifier.egg-info/dependency_links.txt
+NewsClassifier.egg-info/requires.txt
+NewsClassifier.egg-info/top_level.txt
+newsclassifier/__init__.py
+newsclassifier/data.py
+newsclassifier/inference.py
+newsclassifier/models.py
+newsclassifier/train.py
+newsclassifier/tune.py
+newsclassifier/config/__init__.py
+newsclassifier/config/config.py

NewsClassifier.egg-info/dependency_links.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+

NewsClassifier.egg-info/requires.txt ADDED Viewed

	@@ -0,0 +1,34 @@

+aiosignal==1.3.1
+attrs==23.1.0
+certifi==2023.7.22
+charset-normalizer==3.3.1
+click==8.1.7
+colorama==0.4.6
+contourpy==1.1.1
+cycler==0.12.1
+filelock==3.12.4
+fonttools==4.43.1
+frozenlist==1.4.0
+idna==3.4
+jsonschema==4.19.1
+jsonschema-specifications==2023.7.1
+kiwisolver==1.4.5
+matplotlib==3.8.0
+msgpack==1.0.7
+numpy==1.26.1
+packaging==23.2
+pandas==2.1.2
+Pillow==10.1.0
+protobuf==4.24.4
+pyparsing==3.1.1
+python-dateutil==2.8.2
+pytz==2023.3.post1
+PyYAML==6.0.1
+ray==2.7.1
+referencing==0.30.2
+requests==2.31.0
+rpds-py==0.10.6
+seaborn==0.13.0
+six==1.16.0
+tzdata==2023.3
+urllib3==2.0.7

NewsClassifier.egg-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ newsclassifier

README.md CHANGED Viewed

@@ -1,12 +1,8 @@
 ---
-title: News Classifier
-emoji: 🏃
-colorFrom: indigo
-colorTo: purple
 sdk: gradio
 sdk_version: 4.0.2
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: News-Classifier
+app_file: app.py
 sdk: gradio
 sdk_version: 4.0.2
 ---
+# NewsClassifier
+See docs here: [NewsClassifier Docs](https://ManishW315.github.io/NewsClassifier/)

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+import gradio as gr
+import torch
+from newsclassifier.config.config import Cfg, logger
+from newsclassifier.data import prepare_input
+from newsclassifier.models import CustomModel
+from transformers import RobertaTokenizer
+labels = list(Cfg.index_to_class.values())
+# load and compile the model
+tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
+model = CustomModel(num_classes=7)
+model.load_state_dict(torch.load(os.path.join(Cfg.artifacts_path, "model.pt"), map_location=torch.device("cpu")))
+def prediction(text):
+    sample_input = prepare_input(tokenizer, text)
+    input_ids = torch.unsqueeze(sample_input["input_ids"], 0).to("cpu")
+    attention_masks = torch.unsqueeze(sample_input["attention_mask"], 0).to("cpu")
+    test_sample = dict(input_ids=input_ids, attention_mask=attention_masks)
+    with torch.no_grad():
+        y_pred_test_sample = model.predict_proba(test_sample)
+        pred_probs = y_pred_test_sample[0]
+    return {labels[i]: float(pred_probs[i]) for i in range(len(labels))}
+title = "NewsClassifier"
+description = "Enter a news headline, and this app will classify it into one of the categories."
+instructions = "Type or paste a news headline in the textbox and press Enter."
+iface = gr.Interface(
+    fn=prediction,
+    inputs=gr.Textbox(),
+    outputs=gr.Label(num_top_classes=7),
+    title=title,
+    description=description,
+    examples=[
+        ["Global Smartphone Shipments Will Hit Lowest Point in a Decade, IDC Says"],
+        ["John Wick's First Spinoff is the Rare Prequel That Justifies Its Existence"],
+        ["Research provides a better understanding of how light stimulates the brain"],
+        ["Lionel Messi scores free kick golazo for Argentina in World Cup qualifiers"],
+    ],
+    article=instructions,
+)
+iface.launch(share=True)

artifacts/model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ad2ee4ee7324989ef530eae760f3cb4a660aaca0bae36469c9ae6723130b83d
+size 498672838

dataset/preprocessed/test.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

dataset/preprocessed/train.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

dataset/raw/news_dataset.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98c974915d3871f9fd92985fa2413afb995adb7545e6ee4a036240f3a20abd18
+size 18273585

docs/index.md ADDED Viewed

	@@ -0,0 +1,35 @@

+# Welcome to NewsClassifier Docs
+For source visit [ManishW315/NewsClassifier](https://github.com/ManishW315/NewsClassifier).
+## Project layout
+<pre>
+NewsClassifier
+│
+├───dataset
+│   ├───preprocessed
+│   │       test.csv
+│   │       train.csv
+│   │
+│   └───raw
+│           news_dataset.csv
+│
+├───newsclassifier
+│   │   data.py
+│   │   models.py
+│   │   train.py
+│   │   tune.py
+│   │   inference.py
+│   │   utils.py
+│   │
+│   │
+│   └───config
+│           config.py
+│           sweep_config.yaml
+│
+├───notebooks
+│       eda.ipynb
+│       newsclassifier-roberta-base-wandb-track-sweep.ipynb
+│
+└───test
+</pre>

docs/newsclassifier/config.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.config.config

docs/newsclassifier/data.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.data

docs/newsclassifier/inference.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.inference

docs/newsclassifier/models.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.models

docs/newsclassifier/train.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.train

docs/newsclassifier/tune.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.tune

docs/newsclassifier/utils.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ ::: newsclassifier.utils

logs/error.log ADDED Viewed

File without changes

logs/info.log ADDED Viewed

	@@ -0,0 +1,186 @@

+INFO 2023-11-01 08:36:13,083 [root:data.py:load_dataset:24]
+Loading Data.
+INFO 2023-11-01 08:40:59,763 [root:data.py:load_dataset:24]
+Loading Data.
+INFO 2023-11-01 08:43:10,163 [root:data.py:load_dataset:24]
+Loading Data.
+INFO 2023-11-01 08:44:10,037 [root:data.py:load_dataset:24]
+Loading Data.
+INFO 2023-11-01 08:47:58,057 [root:data.py:load_dataset:27]
+Loading Data.
+INFO 2023-11-01 08:48:28,766 [root:data.py:load_dataset:27]
+Loading Data.
+INFO 2023-11-01 08:49:43,821 [root:data.py:load_dataset:27]
+Loading Data.
+INFO 2023-11-01 08:49:46,460 [root:data.py:data_split:105]
+Splitting Data.
+INFO 2023-11-01 08:49:46,564 [root:data.py:data_split:116]
+Saving and storing data splits.
+INFO 2023-11-02 00:09:13,890 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:11:13,522 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:23:17,886 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:25:53,585 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:25:53,642 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 00:30:41,901 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:30:41,919 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 00:36:18,514 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 00:36:18,538 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:47:32,805 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:48:36,522 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:48:52,388 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:49:14,171 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:50:10,611 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:50:27,112 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:50:51,887 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:51:44,829 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:52:06,984 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:52:20,660 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:52:33,236 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:53:05,679 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:53:20,561 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:53:29,476 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 10:53:38,528 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 11:01:28,685 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 14:50:33,049 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 14:52:09,259 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 14:53:30,933 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:22:31,654 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:30:09,258 [root:data.py:clean_text:58]
+Cleaning input text.
+INFO 2023-11-02 21:30:46,696 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:39:13,401 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:40:13,665 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:44:01,779 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:44:20,110 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:45:52,673 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:48:31,415 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:49:40,642 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:50:42,110 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:55:50,749 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:56:30,951 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:56:47,555 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:56:53,879 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:57:11,729 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:57:14,827 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 21:57:23,501 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:20:57,360 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:25:04,600 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:25:15,152 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:47:41,043 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:47:47,106 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:47:52,655 [root:data.py:prepare_input:146]
+Tokenizing input text.
+INFO 2023-11-02 22:47:56,948 [root:data.py:prepare_input:146]
+Tokenizing input text.

mkdocs.yml ADDED Viewed

	@@ -0,0 +1,20 @@

+site_name: NewsClassifier Docs
+# site_url:
+repo_url: https://github.com/ManishW315/NewsClassifier
+nav:
+  - Home: index.md
+  - newsclassifier:
+    - config: newsclassifier\config.md
+    - data: newsclassifier\data.md
+    - models: newsclassifier\models.md
+    - train: newsclassifier\train.md
+    - tune: newsclassifier\tune.md
+    - inference: newsclassifier\inference.md
+    # - predict: newsclassifier/predict.md
+    # - serve: newsclassifier/serve.md
+    - utils: newsclassifier\utils.md
+theme: readthedocs
+plugins:
+  - mkdocstrings
+watch:
+  - .  # reload docs for any file changes

newsclassifier/__init__.py ADDED Viewed

File without changes

newsclassifier/__pycache__/__init__.cpython-310.pyc ADDED Viewed

Binary file (182 Bytes). View file

newsclassifier/__pycache__/config.cpython-310.pyc ADDED Viewed

Binary file (2.88 kB). View file

newsclassifier/__pycache__/data.cpython-310.pyc ADDED Viewed

Binary file (6.76 kB). View file

newsclassifier/__pycache__/models.cpython-310.pyc ADDED Viewed

Binary file (2.45 kB). View file

newsclassifier/__pycache__/predict.cpython-310.pyc ADDED Viewed

Binary file (1.31 kB). View file

newsclassifier/__pycache__/serve.cpython-310.pyc ADDED Viewed

Binary file (1.25 kB). View file

newsclassifier/config/__init__.py ADDED Viewed

File without changes

newsclassifier/config/__pycache__/__init__.cpython-310.pyc ADDED Viewed

Binary file (189 Bytes). View file

newsclassifier/config/__pycache__/config.cpython-310.pyc ADDED Viewed

Binary file (3.24 kB). View file

newsclassifier/config/config.py ADDED Viewed

	@@ -0,0 +1,265 @@

+import logging
+import os
+from dataclasses import dataclass
+from logging.handlers import RotatingFileHandler
+from pathlib import Path
+import nltk
+from rich.logging import RichHandler
+# from nltk.corpus import stopwords
+# nltk.download("stopwords")
+@dataclass
+class Cfg:
+    STOPWORDS = [
+        "i",
+        "me",
+        "my",
+        "myself",
+        "we",
+        "our",
+        "ours",
+        "ourselves",
+        "you",
+        "you're",
+        "you've",
+        "you'll",
+        "you'd",
+        "your",
+        "yours",
+        "yourself",
+        "yourselves",
+        "he",
+        "him",
+        "his",
+        "himself",
+        "she",
+        "she's",
+        "her",
+        "hers",
+        "herself",
+        "it",
+        "it's",
+        "its",
+        "itself",
+        "they",
+        "them",
+        "their",
+        "theirs",
+        "themselves",
+        "what",
+        "which",
+        "who",
+        "whom",
+        "this",
+        "that",
+        "that'll",
+        "these",
+        "those",
+        "am",
+        "is",
+        "are",
+        "was",
+        "were",
+        "be",
+        "been",
+        "being",
+        "have",
+        "has",
+        "had",
+        "having",
+        "do",
+        "does",
+        "did",
+        "doing",
+        "a",
+        "an",
+        "the",
+        "and",
+        "but",
+        "if",
+        "or",
+        "because",
+        "as",
+        "until",
+        "while",
+        "of",
+        "at",
+        "by",
+        "for",
+        "with",
+        "about",
+        "against",
+        "between",
+        "into",
+        "through",
+        "during",
+        "before",
+        "after",
+        "above",
+        "below",
+        "to",
+        "from",
+        "up",
+        "down",
+        "in",
+        "out",
+        "on",
+        "off",
+        "over",
+        "under",
+        "again",
+        "further",
+        "then",
+        "once",
+        "here",
+        "there",
+        "when",
+        "where",
+        "why",
+        "how",
+        "all",
+        "any",
+        "both",
+        "each",
+        "few",
+        "more",
+        "most",
+        "other",
+        "some",
+        "such",
+        "no",
+        "nor",
+        "not",
+        "only",
+        "own",
+        "same",
+        "so",
+        "than",
+        "too",
+        "very",
+        "s",
+        "t",
+        "can",
+        "will",
+        "just",
+        "don",
+        "don't",
+        "should",
+        "should've",
+        "now",
+        "d",
+        "ll",
+        "m",
+        "o",
+        "re",
+        "ve",
+        "y",
+        "ain",
+        "aren",
+        "aren't",
+        "couldn",
+        "couldn't",
+        "didn",
+        "didn't",
+        "doesn",
+        "doesn't",
+        "hadn",
+        "hadn't",
+        "hasn",
+        "hasn't",
+        "haven",
+        "haven't",
+        "isn",
+        "isn't",
+        "ma",
+        "mightn",
+        "mightn't",
+        "mustn",
+        "mustn't",
+        "needn",
+        "needn't",
+        "shan",
+        "shan't",
+        "shouldn",
+        "shouldn't",
+        "wasn",
+        "wasn't",
+        "weren",
+        "weren't",
+        "won",
+        "won't",
+        "wouldn",
+        "wouldn't",
+    ]
+    dataset_loc = os.path.join((Path(__file__).parent.parent.parent), "dataset", "raw", "news_dataset.csv")
+    preprocessed_data_path = os.path.join((Path(__file__).parent.parent.parent), "dataset", "preprocessed")
+    sweep_config_path = os.path.join((Path(__file__).parent), "sweep_config.yaml")
+    # Logs path
+    logs_path = os.path.join((Path(__file__).parent.parent.parent), "logs")
+    artifacts_path = os.path.join((Path(__file__).parent.parent.parent), "artifacts")
+    model_path = os.path.join((Path(__file__).parent.parent.parent), "artifacts", "model.pt")
+    test_size = 0.2
+    add_special_tokens = True
+    max_len = 50
+    pad_to_max_length = True
+    truncation = True
+    change_config = False
+    dropout_pb = 0.5
+    lr = 1e-4
+    lr_redfactor = 0.7
+    lr_redpatience = 4
+    epochs = 10
+    batch_size = 128
+    num_classes = 7
+    sweep_run = 10
+    index_to_class = {0: "Business", 1: "Entertainment", 2: "Health", 3: "Science", 4: "Sports", 5: "Technology", 6: "Worldwide"}
+# Create logs folder
+os.makedirs(Cfg.logs_path, exist_ok=True)
+# Get root logger
+logger = logging.getLogger()
+logger.setLevel(logging.INFO)
+# Create handlers
+console_handler = RichHandler(markup=True)
+console_handler.setLevel(logging.INFO)
+info_handler = RotatingFileHandler(
+    filename=Path(Cfg.logs_path, "info.log"),
+    maxBytes=10485760,  # 1 MB
+    backupCount=10,
+)
+info_handler.setLevel(logging.INFO)
+error_handler = RotatingFileHandler(
+    filename=Path(Cfg.logs_path, "error.log"),
+    maxBytes=10485760,  # 1 MB
+    backupCount=10,
+)
+error_handler.setLevel(logging.ERROR)
+# Create formatters
+minimal_formatter = logging.Formatter(fmt="%(message)s")
+detailed_formatter = logging.Formatter(fmt="%(levelname)s %(asctime)s [%(name)s:%(filename)s:%(funcName)s:%(lineno)d]\n%(message)s\n")
+# Hook it all up
+console_handler.setFormatter(fmt=minimal_formatter)
+info_handler.setFormatter(fmt=detailed_formatter)
+error_handler.setFormatter(fmt=detailed_formatter)
+logger.addHandler(hdlr=console_handler)
+logger.addHandler(hdlr=info_handler)
+logger.addHandler(hdlr=error_handler)

newsclassifier/config/sweep_config.yaml ADDED Viewed

	@@ -0,0 +1,17 @@

+method: random
+metric:
+  name: val_loss
+  goal: minimize
+parameters:
+  dropout_pb:
+    values: [0.3, 0.4, 0.5]
+  learning_rate:
+    values: [0.0001, 0.001, 0.01]
+  batch_size:
+    values: [32, 64, 128]
+  lr_reduce_factor:
+    values: [0.5, 0.6, 0.7, 0.8]
+  lr_reduce_patience:
+    values: [2, 3, 4, 5]
+  epochs:
+    value: 1

newsclassifier/data.py ADDED Viewed

	@@ -0,0 +1,197 @@

+import os
+import re
+from typing import Dict, Tuple
+from warnings import filterwarnings
+import pandas as pd
+from sklearn.model_selection import train_test_split
+import torch
+from newsclassifier.config.config import Cfg, logger
+from torch.utils.data import Dataset
+from transformers import RobertaTokenizer
+filterwarnings("ignore")
+def load_dataset(filepath: str, print_i: int = 0) -> pd.DataFrame:
+    """load data from source into a Pandas DataFrame.
+    Args:
+        filepath (str): file location.
+        print_i (int): Print number of instances.
+    Returns:
+        pd.DataFrame: Pandas DataFrame of the data.
+    """
+    logger.info("Loading Data.")
+    df = pd.read_csv(filepath)
+    if print_i:
+        print(df.head(print_i), "\n")
+    return df
+def prepare_data(df: pd.DataFrame) -> Tuple[pd.DataFrame, pd.DataFrame]:
+    """Separate headlines instance and feature selection.
+    Args:
+        df: original dataframe.
+    Returns:
+        df: new dataframe with appropriate features.
+        headlines_df: dataframe cintaining "headlines" category instances.
+    """
+    logger.info("Preparing Data.")
+    try:
+        df = df[["Title", "Category"]]
+        df.rename(columns={"Title": "Text"}, inplace=True)
+        df, headlines_df = df[df["Category"] != "Headlines"].reset_index(drop=True), df[df["Category"] == "Headlines"].reset_index(drop=True)
+    except Exception as e:
+        logger.error(e)
+    return df, headlines_df
+def clean_text(text: str) -> str:
+    """Clean text (lower, puntuations removal, blank space removal)."""
+    # lower case the text
+    logger.info("Cleaning input text.")
+    text = text.lower()  # necessary to do before as stopwords are in lower case
+    # remove stopwords
+    stp_pattern = re.compile(r"\b(" + r"|".join(Cfg.STOPWORDS) + r")\b\s*")
+    text = stp_pattern.sub("", text)
+    # custom cleaning
+    text = text.strip()  # remove space at start or end if any
+    text = re.sub(" +", " ", text)  # remove extra spaces
+    text = re.sub("[^A-Za-z0-9]+", " ", text)  # remove characters that are not alphanumeric
+    return text
+def preprocess(df: pd.DataFrame) -> Tuple[pd.DataFrame, pd.DataFrame, Dict, Dict]:
+    """Preprocess the data.
+    Args:
+        df: Dataframe on which the preprocessing steps need to be performed.
+    Returns:
+        df: Preprocessed Data.
+        class_to_index: class labels to indices mapping
+        class_to_index: indices to class labels mapping
+    """
+    df, headlines_df = prepare_data(df)
+    cats = df["Category"].unique().tolist()
+    class_to_index = {tag: i for i, tag in enumerate(cats)}
+    index_to_class = {v: k for k, v in class_to_index.items()}
+    df["Text"] = df["Text"].apply(clean_text)  # clean text
+    df = df[["Text", "Category"]]
+    try:
+        df["Category"] = df["Category"].map(class_to_index)  # label encoding
+    except Exception as e:
+        logger.error(e)
+    return df, headlines_df, class_to_index, index_to_class
+def data_split(df: pd.DataFrame, split_size: float = 0.2, stratify_on_target: bool = True, save_dfs: bool = False):
+    """Split data into train and test sets.
+    Args:
+        df (pd.DataFrame): Data to be split.
+        split_size (float): train-test split ratio (test ratio).
+        stratify_on_target (bool): Whether to do stratify split on target.
+        target_sep (bool): Whether to do target setting for train and test sets.
+        save_dfs (bool): Whether to save dataset splits in artifacts.
+    Returns:
+        train-test splits (with/without target setting)
+    """
+    logger.info("Splitting Data.")
+    try:
+        if stratify_on_target:
+            stra = df["Category"]
+        else:
+            stra = None
+        train, test = train_test_split(df, test_size=split_size, random_state=42, stratify=stra)
+        train_ds = pd.DataFrame(train, columns=df.columns)
+        test_ds = pd.DataFrame(test, columns=df.columns)
+        if save_dfs:
+            logger.info("Saving and storing data splits.")
+            os.makedirs(Cfg.preprocessed_data_path, exist_ok=True)
+            train.to_csv(os.path.join(Cfg.preprocessed_data_path, "train.csv"))
+            test.to_csv(os.path.join(Cfg.preprocessed_data_path, "test.csv"))
+    except Exception as e:
+        logger.error(e)
+        return train_ds, test_ds
+def prepare_input(tokenizer: RobertaTokenizer, text: str) -> Dict:
+    """Tokenize and prepare the input text using the provided tokenizer.
+    Args:
+        tokenizer (RobertaTokenizer): The Roberta tokenizer to encode the input.
+        text (str): The input text to be tokenized.
+    Returns:
+        inputs (dict): A dictionary containing the tokenized input with keys such as 'input_ids',
+            'attention_mask', etc.
+    """
+    logger.info("Tokenizing input text.")
+    inputs = tokenizer.encode_plus(
+        text,
+        return_tensors=None,
+        add_special_tokens=Cfg.add_special_tokens,
+        max_length=Cfg.max_len,
+        pad_to_max_length=Cfg.pad_to_max_length,
+        truncation=Cfg.truncation,
+    )
+    for k, v in inputs.items():
+        inputs[k] = torch.tensor(v, dtype=torch.long)
+    return inputs
+class NewsDataset(Dataset):
+    def __init__(self, ds):
+        self.texts = ds["Text"].values
+        self.labels = ds["Category"].values
+    def __len__(self):
+        return len(self.texts)
+    def __getitem__(self, item):
+        tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
+        inputs = prepare_input(tokenizer, self.texts[item])
+        labels = torch.tensor(self.labels[item], dtype=torch.float)
+        return inputs, labels
+def collate(inputs: Dict) -> Dict:
+    """Collate and modify the input dictionary to have the same sequence length for a particular input batch.
+    Args:
+        inputs (dict): A dictionary containing input tensors with varying sequence lengths.
+    Returns:
+        modified_inputs (dict): A modified dictionary with input tensors trimmed to have the same sequence length.
+    """
+    max_len = int(inputs["input_ids"].sum(axis=1).max())
+    for k, v in inputs.items():
+        inputs[k] = inputs[k][:, :max_len]
+    return inputs
+if __name__ == "__main__":
+    df = load_dataset(Cfg.dataset_loc)
+    df, headlines_df, class_to_index, index_to_class = preprocess(df)
+    print(df)
+    print(class_to_index)
+    train_ds, val_ds = data_split(df, save_dfs=True)
+    dataset = NewsDataset(df)
+    print(dataset.__getitem__(0))

newsclassifier/inference.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import os
+from typing import Tuple
+import numpy as np
+from sklearn.metrics import (accuracy_score, f1_score, precision_score,
+                             recall_score)
+from tqdm.auto import tqdm
+import torch
+from newsclassifier.config.config import Cfg, logger
+from newsclassifier.data import NewsDataset, collate
+from newsclassifier.models import CustomModel
+from torch.utils.data import DataLoader
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def test_step(test_loader: DataLoader, model) -> Tuple[np.ndarray, np.ndarray]:
+    """Eval step."""
+    model.eval()
+    y_trues, y_preds = [], []
+    with torch.inference_mode():
+        for step, (inputs, labels) in tqdm(enumerate(test_loader)):
+            inputs = collate(inputs)
+            for k, v in inputs.items():
+                inputs[k] = v.to(device)
+            labels = labels.to(device)
+            y_pred = model(inputs)
+            y_trues.extend(labels.cpu().numpy())
+            y_preds.extend(torch.argmax(y_pred, dim=1).cpu().numpy())
+    return np.vstack(y_trues), np.vstack(y_preds)
+def inference():
+    logger.info("Loading inference data.")
+    try:
+        test_dataset = NewsDataset(os.path.join(Cfg.preprocessed_data_path, "test.csv"))
+        test_loader = DataLoader(test_dataset, batch_size=Cfg.batch_size, shuffle=False, num_workers=4, pin_memory=True, drop_last=False)
+    except Exception as e:
+        logger.error(e)
+    logger.info("loading model.")
+    try:
+        model = CustomModel(num_classes=Cfg.num_classes)
+        model.load_state_dict(torch.load(Cfg.model_path, map_location=torch.device("cpu")))
+        model.to(device)
+    except Exception as e:
+        logger.error(e)
+    y_true, y_pred = test_step(test_loader, model)
+    print(
+        f'Precision: {precision_score(y_true, y_pred, average="weighted")} \n Recall: {recall_score(y_true, y_pred, average="weighted")} \n F1: {f1_score(y_true, y_pred, average="weighted")} \n Accuracy: {accuracy_score(y_true, y_pred)}'
+    )

newsclassifier/models.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import json
+import os
+from pathlib import Path
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import RobertaModel
+class CustomModel(nn.Module):
+    def __init__(self, num_classes, change_config=False, dropout_pb=0.0):
+        super(CustomModel, self).__init__()
+        if change_config:
+            pass
+        self.model = RobertaModel.from_pretrained("roberta-base")
+        self.hidden_size = self.model.config.hidden_size
+        self.num_classes = num_classes
+        self.dropout_pb = dropout_pb
+        self.dropout = torch.nn.Dropout(self.dropout_pb)
+        self.fc = nn.Linear(self.hidden_size, self.num_classes)
+    def forward(self, inputs):
+        output = self.model(**inputs)
+        z = self.dropout(output[1])
+        z = self.fc(z)
+        return z
+    @torch.inference_mode()
+    def predict(self, inputs):
+        self.eval()
+        z = self(inputs)
+        y_pred = torch.argmax(z, dim=1).cpu().numpy()
+        return y_pred
+    @torch.inference_mode()
+    def predict_proba(self, inputs):
+        self.eval()
+        z = self(inputs)
+        y_probs = F.softmax(z, dim=1).cpu().numpy()
+        return y_probs
+    def save(self, dp):
+        with open(Path(dp, "args.json"), "w") as fp:
+            contents = {
+                "dropout_pb": self.dropout_pb,
+                "hidden_size": self.hidden_size,
+                "num_classes": self.num_classes,
+            }
+            json.dump(contents, fp, indent=4, sort_keys=False)
+        torch.save(self.state_dict(), os.path.join(dp, "model.pt"))
+    @classmethod
+    def load(cls, args_fp, state_dict_fp):
+        with open(args_fp, "r") as fp:
+            kwargs = json.load(fp=fp)
+        llm = RobertaModel.from_pretrained("roberta-base")
+        model = cls(llm=llm, **kwargs)
+        model.load_state_dict(torch.load(state_dict_fp, map_location=torch.device("cpu")))
+        return model

newsclassifier/predict.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import os
+import numpy as np
+import torch
+from newsclassifier.config.config import Cfg, logger
+from newsclassifier.data import clean_text, prepare_input
+from newsclassifier.models import CustomModel
+from transformers import RobertaTokenizer
+def predict(text: str):
+    tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
+    model = CustomModel(num_classes=7)
+    model.load_state_dict(torch.load(os.path.join(Cfg.artifacts_path, "model.pt"), map_location=torch.device("cpu")))
+    index_to_class = Cfg.index_to_class
+    sample_input = prepare_input(tokenizer, text)
+    input_ids = torch.unsqueeze(sample_input["input_ids"], 0).to("cpu")
+    attention_masks = torch.unsqueeze(sample_input["attention_mask"], 0).to("cpu")
+    test_sample = dict(input_ids=input_ids, attention_mask=attention_masks)
+    with torch.no_grad():
+        y_pred_test_sample = model.predict_proba(test_sample)
+        prediction = y_pred_test_sample[0]
+    return prediction
+if __name__ == "__main__":
+    txt = clean_text("Funds punished for owning too few Nvidia")
+    pred_prob = predict(txt)
+    print(pred_prob)

newsclassifier/train.py ADDED Viewed

	@@ -0,0 +1,151 @@

+import gc
+import os
+import time
+from typing import Tuple
+import numpy as np
+from tqdm.auto import tqdm
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import wandb
+from newsclassifier.config.config import Cfg, logger
+from newsclassifier.data import (NewsDataset, collate, data_split,
+                                 load_dataset, preprocess)
+from newsclassifier.models import CustomModel
+from torch.utils.data import DataLoader
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def train_step(train_loader: DataLoader, model, num_classes: int, loss_fn, optimizer, epoch: int) -> float:
+    """Train step."""
+    model.train()
+    loss = 0.0
+    total_iterations = len(train_loader)
+    desc = f"Training - Epoch {epoch+1}"
+    for step, (inputs, labels) in tqdm(enumerate(train_loader), total=total_iterations, desc=desc):
+        inputs = collate(inputs)
+        for k, v in inputs.items():
+            inputs[k] = v.to(device)
+        labels = labels.to(device)
+        optimizer.zero_grad()  # reset gradients
+        y_pred = model(inputs)  # forward pass
+        targets = F.one_hot(labels.long(), num_classes=num_classes).float()  # one-hot (for loss_fn)
+        J = loss_fn(y_pred, targets)  # define loss
+        J.backward()  # backward pass
+        optimizer.step()  # update weights
+        loss += (J.detach().item() - loss) / (step + 1)  # cumulative loss
+    return loss
+def eval_step(val_loader: DataLoader, model, num_classes: int, loss_fn, epoch: int) -> Tuple[float, np.ndarray, np.ndarray]:
+    """Eval step."""
+    model.eval()
+    loss = 0.0
+    total_iterations = len(val_loader)
+    desc = f"Validation - Epoch {epoch+1}"
+    y_trues, y_preds = [], []
+    with torch.inference_mode():
+        for step, (inputs, labels) in tqdm(enumerate(val_loader), total=total_iterations, desc=desc):
+            inputs = collate(inputs)
+            for k, v in inputs.items():
+                inputs[k] = v.to(device)
+            labels = labels.to(device)
+            y_pred = model(inputs)
+            targets = F.one_hot(labels.long(), num_classes=num_classes).float()  # one-hot (for loss_fn)
+            J = loss_fn(y_pred, targets).item()
+            loss += (J - loss) / (step + 1)
+            y_trues.extend(targets.cpu().numpy())
+            y_preds.extend(torch.argmax(y_pred, dim=1).cpu().numpy())
+    return loss, np.vstack(y_trues), np.vstack(y_preds)
+def train_loop(config=None):
+    # ====================================================
+    # loader
+    # ====================================================
+    config = dict(
+        batch_size=Cfg.batch_size,
+        num_classes=Cfg.num_classes,
+        epochs=Cfg.epochs,
+        dropout_pb=Cfg.dropout_pb,
+        learning_rate=Cfg.lr,
+        lr_reduce_factor=Cfg.lr_redfactor,
+        lr_reduce_patience=Cfg.lr_redpatience,
+    )
+    with wandb.init(project="NewsClassifier", config=config):
+        config = wandb.config
+        df = load_dataset(Cfg.dataset_loc)
+        ds, headlines_df, class_to_index, index_to_class = preprocess(df)
+        train_ds, val_ds = data_split(ds, test_size=Cfg.test_size)
+        logger.info("Preparing Data.")
+        train_dataset = NewsDataset(train_ds)
+        valid_dataset = NewsDataset(val_ds)
+        train_loader = DataLoader(train_dataset, batch_size=config.batch_size, shuffle=True, num_workers=4, pin_memory=True, drop_last=True)
+        valid_loader = DataLoader(valid_dataset, batch_size=config.batch_size, shuffle=False, num_workers=4, pin_memory=True, drop_last=False)
+        # ====================================================
+        # model
+        # ====================================================
+        logger.info("Creating Custom Model.")
+        num_classes = config.num_classes
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model = CustomModel(num_classes=num_classes, dropout_pb=config.dropout_pb)
+        model.to(device)
+        # ====================================================
+        # Training components
+        # ====================================================
+        criterion = nn.BCEWithLogitsLoss()
+        optimizer = torch.optim.Adam(model.parameters(), lr=config.learning_rate)
+        scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
+            optimizer, mode="min", factor=config.lr_reduce_factor, patience=config.lr_reduce_patience
+        )
+        # ====================================================
+        # loop
+        # ====================================================
+        wandb.watch(model, criterion, log="all", log_freq=10)
+        min_loss = np.inf
+        logger.info("Staring Training Loop.")
+        for epoch in range(config.epochs):
+            try:
+                start_time = time.time()
+                # Step
+                train_loss = train_step(train_loader, model, num_classes, criterion, optimizer, epoch)
+                val_loss, _, _ = eval_step(valid_loader, model, num_classes, criterion, epoch)
+                scheduler.step(val_loss)
+                # scoring
+                elapsed = time.time() - start_time
+                wandb.log({"epoch": epoch + 1, "train_loss": train_loss, "val_loss": val_loss})
+                print(f"Epoch {epoch+1} - avg_train_loss: {train_loss:.4f}  avg_val_loss: {val_loss:.4f}  time: {elapsed:.0f}s")
+                if min_loss > val_loss:
+                    min_loss = val_loss
+                    print("Best Score : saving model.")
+                    os.makedirs(Cfg.artifacts_path, exist_ok=True)
+                    model.save(Cfg.artifacts_path)
+                print(f"\nSaved Best Model Score: {min_loss:.4f}\n\n")
+            except Exception as e:
+                logger.error(f"Epoch - {epoch+1}, {e}")
+        wandb.save(os.path.join(Cfg.artifacts_path, "model.pt"))
+        torch.cuda.empty_cache()
+        gc.collect()
+if __name__ == "__main__":
+    train_loop()

newsclassifier/tune.py ADDED Viewed

	@@ -0,0 +1,85 @@

+import gc
+import time
+from typing import Tuple
+import numpy as np
+import torch
+import torch.nn as nn
+import wandb
+from newsclassifier.config.config import Cfg, logger
+from newsclassifier.data import (NewsDataset, data_split, load_dataset,
+                                 preprocess)
+from newsclassifier.models import CustomModel
+from newsclassifier.train import eval_step, train_step
+from newsclassifier.utils import read_yaml
+from torch.utils.data import DataLoader
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def tune_loop(config=None):
+    # ====================================================
+    # loader
+    # ====================================================
+    logger.info("Starting Tuning.")
+    with wandb.init(project="NewsClassifier", config=config):
+        config = wandb.config
+        df = load_dataset(Cfg.dataset_loc)
+        ds, headlines_df, class_to_index, index_to_class = preprocess(df)
+        train_ds, val_ds = data_split(ds, test_size=Cfg.test_size)
+        train_dataset = NewsDataset(train_ds)
+        valid_dataset = NewsDataset(val_ds)
+        train_loader = DataLoader(train_dataset, batch_size=config.batch_size, shuffle=True, num_workers=4, pin_memory=True, drop_last=True)
+        valid_loader = DataLoader(valid_dataset, batch_size=config.batch_size, shuffle=False, num_workers=4, pin_memory=True, drop_last=False)
+        # ====================================================
+        # model
+        # ====================================================
+        num_classes = Cfg.num_classes
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model = CustomModel(num_classes=num_classes, dropout_pb=config.dropout_pb)
+        model.to(device)
+        # ====================================================
+        # Training components
+        # ====================================================
+        criterion = nn.BCEWithLogitsLoss()
+        optimizer = torch.optim.Adam(model.parameters(), lr=config.learning_rate)
+        scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
+            optimizer, mode="min", factor=config.lr_reduce_factor, patience=config.lr_reduce_patience
+        )
+        # ====================================================
+        # loop
+        # ====================================================
+        wandb.watch(model, criterion, log="all", log_freq=10)
+        for epoch in range(config.epochs):
+            try:
+                start_time = time.time()
+                # Step
+                train_loss = train_step(train_loader, model, num_classes, criterion, optimizer, epoch)
+                val_loss, _, _ = eval_step(valid_loader, model, num_classes, criterion, epoch)
+                scheduler.step(val_loss)
+                # scoring
+                elapsed = time.time() - start_time
+                wandb.log({"epoch": epoch + 1, "train_loss": train_loss, "val_loss": val_loss})
+                print(f"Epoch {epoch+1} - avg_train_loss: {train_loss:.4f}  avg_val_loss: {val_loss:.4f}  time: {elapsed:.0f}s")
+            except Exception as e:
+                logger.error(f"Epoch {epoch+1}, {e}")
+        torch.cuda.empty_cache()
+        gc.collect()
+if __name__ == "__main__":
+    sweep_config = read_yaml(Cfg.sweep_config_path)
+    sweep_id = wandb.sweep(sweep_config, project="NewsClassifier")
+    wandb.agent(sweep_id, tune_loop, count=Cfg.sweep_runs)

newsclassifier/utils.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import os
+import pandas as pd
+import yaml
+from newsclassifier.config.config import Cfg, logger
+def write_yaml(data: pd.DataFrame, filepath: str):
+    logger.info("Writing yaml file.")
+    os.makedirs(os.path.dirname(filepath), exist_ok=True)
+    with open(filepath, "w") as file:
+        yaml.dump(data, file, default_flow_style=False)
+def read_yaml(file_path: str):
+    logger.info("Reading yamlfile")
+    with open(file_path, "r") as file:
+        params = yaml.load(file, Loader=yaml.FullLoader)
+    return params

notebooks/eda.ipynb ADDED Viewed

	@@ -0,0 +1,257 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Setup"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Imports\n",
+    "import pandas as pd\n",
+    "import matplotlib.pyplot as plt\n",
+    "import seaborn as sns\n",
+    "import ipywidgets as widgets\n",
+    "from wordcloud import WordCloud, STOPWORDS"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Title</th>\n",
+       "      <th>Publisher</th>\n",
+       "      <th>DateTime</th>\n",
+       "      <th>Link</th>\n",
+       "      <th>Category</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>Chainlink (LINK) Falters, Hedera (HBAR) Wobble...</td>\n",
+       "      <td>Analytics Insight</td>\n",
+       "      <td>2023-08-30T06:54:49Z</td>\n",
+       "      <td>https://news.google.com/articles/CBMibGh0dHBzO...</td>\n",
+       "      <td>Business</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>Funds punished for owning too few Nvidia share...</td>\n",
+       "      <td>ZAWYA</td>\n",
+       "      <td>2023-08-30T07:15:59Z</td>\n",
+       "      <td>https://news.google.com/articles/CBMigwFodHRwc...</td>\n",
+       "      <td>Business</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>Crude oil prices stalled as hedge funds sold: ...</td>\n",
+       "      <td>ZAWYA</td>\n",
+       "      <td>2023-08-30T07:31:31Z</td>\n",
+       "      <td>https://news.google.com/articles/CBMibGh0dHBzO...</td>\n",
+       "      <td>Business</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>Grayscale's Bitcoin Win Is Still Only Half the...</td>\n",
+       "      <td>Bloomberg</td>\n",
+       "      <td>2023-08-30T10:38:40Z</td>\n",
+       "      <td>https://news.google.com/articles/CBMib2h0dHBzO...</td>\n",
+       "      <td>Business</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>I'm a Home Shopping Editor, and These Are the ...</td>\n",
+       "      <td>Better Homes &amp; Gardens</td>\n",
+       "      <td>2023-08-30T11:00:00Z</td>\n",
+       "      <td>https://news.google.com/articles/CBMiPWh0dHBzO...</td>\n",
+       "      <td>Business</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                               Title               Publisher  \\\n",
+       "0  Chainlink (LINK) Falters, Hedera (HBAR) Wobble...       Analytics Insight   \n",
+       "1  Funds punished for owning too few Nvidia share...                   ZAWYA   \n",
+       "2  Crude oil prices stalled as hedge funds sold: ...                   ZAWYA   \n",
+       "3  Grayscale's Bitcoin Win Is Still Only Half the...               Bloomberg   \n",
+       "4  I'm a Home Shopping Editor, and These Are the ...  Better Homes & Gardens   \n",
+       "\n",
+       "               DateTime                                               Link  \\\n",
+       "0  2023-08-30T06:54:49Z  https://news.google.com/articles/CBMibGh0dHBzO...   \n",
+       "1  2023-08-30T07:15:59Z  https://news.google.com/articles/CBMigwFodHRwc...   \n",
+       "2  2023-08-30T07:31:31Z  https://news.google.com/articles/CBMibGh0dHBzO...   \n",
+       "3  2023-08-30T10:38:40Z  https://news.google.com/articles/CBMib2h0dHBzO...   \n",
+       "4  2023-08-30T11:00:00Z  https://news.google.com/articles/CBMiPWh0dHBzO...   \n",
+       "\n",
+       "   Category  \n",
+       "0  Business  \n",
+       "1  Business  \n",
+       "2  Business  \n",
+       "3  Business  \n",
+       "4  Business  "
+      ]
+     },
+     "execution_count": 20,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Data Ingestion\n",
+    "df = pd.read_csv(\"../dataset/news_dataset.csv\")\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Text(0.5, 1.0, 'Category Distribution')"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    },
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAA1sAAAHWCAYAAACBjZMqAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjguMCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy81sbWrAAAACXBIWXMAAA9hAAAPYQGoP6dpAABmgElEQVR4nO3dfXyP9f////trszOzE3OyEyczFkaW8I6FkJMlRHkrJecUDaHI3gkpKeUkJT5UpqITnb2d5dyczkmrSU4jmd5sSmxON7bn749+O75eNuylvcy4XS+X1+XidRzP43k8juN4vV573R3H8XzZjDFGAAAAAIAC5VLYBQAAAADArYiwBQAAAABOQNgCAAAAACcgbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwAsIWAAAAADgBYQsAAAAAnICwBQBAARgzZoxsNtsNWVfTpk3VtGlT63l8fLxsNpu+/PLLG7L+Hj16qFKlSjdkXQBQlBG2AOAWdeDAAT399NOqXLmyPD095evrq4YNG+rtt9/WuXPnHO7vvffeU1xcXMEXehOKi4uTzWazHp6engoJCVF0dLSmTp2qU6dOFch6jhw5ojFjxigpKalA+itIN3NtAFBUFCvsAgAABW/x4sXq1KmTPDw81K1bN915553KzMzUhg0bNGzYMO3cuVMzZ850qM/33ntPpUuXVo8ePZxT9E1o7NixCgsL04ULF5SSkqL4+HgNHjxYkyZN0oIFCxQZGWm1HTlypEaMGOFQ/0eOHNHLL7+sSpUqqXbt2vlebvny5Q6t53pcrbZZs2YpOzvb6TUAQFFH2AKAW8zBgwfVuXNnhYaGavXq1QoODrbmxcTEaP/+/Vq8eHEhVuhcZ86ckbe3d4H01bp1a9WrV896Hhsbq9WrV6tt27Z66KGHtHv3bnl5eUmSihUrpmLFnPtn9ezZsypevLjc3d2dup5rcXNzK9T1A0BRwWWEAHCLmTBhgk6fPq0PPvjALmjlCA8P17PPPms9nz17tu6//36VLVtWHh4eqlGjhqZPn263TKVKlbRz506tXbvWurTu0nuGTp48qcGDB6tChQry8PBQeHi43njjjVxnP44fP66uXbvK19dX/v7+6t69u7Zv3y6bzZbrEsXVq1ercePG8vb2lr+/v9q3b6/du3fbtcm5T2rXrl164oknVLJkSTVq1EizZ8+WzWbTjz/+mGv7X3vtNbm6uup///tffnepnfvvv18vvfSSDh06pE8++SRXLZdasWKFGjVqJH9/f5UoUULVqlXTf/7zH0l/32f1r3/9S5LUs2dPa7/m7IemTZvqzjvvVGJiou677z4VL17cWvbye7ZyZGVl6T//+Y+CgoLk7e2thx56SIcPH7ZrU6lSpTzPTl7a57Vqy+uerTNnzui5556zXgPVqlXTW2+9JWOMXTubzaYBAwbo22+/1Z133ikPDw/VrFlTS5cuzXuHA0ARxpktALjFLFy4UJUrV9a9996br/bTp09XzZo19dBDD6lYsWJauHChnnnmGWVnZysmJkaSNGXKFA0cOFAlSpTQiy++KEkKDAyU9PfZliZNmuh///ufnn76aVWsWFGbNm1SbGysjh49qilTpkiSsrOz1a5dO23dulX9+/dX9erV9d///lfdu3fPVdPKlSvVunVrVa5cWWPGjNG5c+f0zjvvqGHDhvrhhx9yfdHv1KmT7rjjDr322msyxujf//63YmJiNHfuXN199912befOnaumTZuqXLlyjuxWO127dtV//vMfLV++XH379s2zzc6dO9W2bVtFRkZq7Nix8vDw0P79+7Vx40ZJUkREhMaOHatRo0bpqaeeUuPGjSXJ7rgdP35crVu3VufOnfXkk09a+/xKxo0bJ5vNphdeeEHHjh3TlClT1KJFCyUlJVln4PIjP7Vdyhijhx56SGvWrFHv3r1Vu3ZtLVu2TMOGDdP//vc/TZ482a79hg0b9PXXX+uZZ56Rj4+Ppk6dqo4dOyo5OVmlSpXKd50AcNMzAIBbRlpampFk2rdvn+9lzp49m2tadHS0qVy5st20mjVrmiZNmuRq+8orrxhvb2+zb98+u+kjRowwrq6uJjk52RhjzFdffWUkmSlTplhtsrKyzP33328kmdmzZ1vTa9eubcqWLWuOHz9uTdu+fbtxcXEx3bp1s6aNHj3aSDKPP/54rroef/xxExISYrKysqxpP/zwQ6515WX27NlGktm2bdsV2/j5+Zm77747Vy05Jk+ebCSZP/7444p9bNu27Yr1NGnSxEgyM2bMyHPepcdizZo1RpIpV66cSU9Pt6Z/8cUXRpJ5++23rWmhoaGme/fu1+zzarV1797dhIaGWs+//fZbI8m8+uqrdu3+/e9/G5vNZvbv329Nk2Tc3d3tpm3fvt1IMu+8806udQFAUcZlhABwC0lPT5ck+fj45HuZS894pKWl6c8//1STJk3066+/Ki0t7ZrLz58/X40bN1bJkiX1559/Wo8WLVooKytL69atkyQtXbpUbm5udmeCXFxcrLNnOY4ePaqkpCT16NFDAQEB1vTIyEi1bNlSS5YsyVVDv379ck3r1q2bjhw5ojVr1ljT5s6dKy8vL3Xs2PGa23UtJUqUuOqohP7+/pKk//73v9c9mISHh4d69uyZ7/bdunWzO/b//ve/FRwcnOc+K0hLliyRq6urBg0aZDf9ueeekzFG3333nd30Fi1aqEqVKtbzyMhI+fr66tdff3VqnQBwoxG2AOAW4uvrK0kODU2+ceNGtWjRwro3qkyZMta9QfkJW7/88ouWLl2qMmXK2D1atGghSTp27Jgk6dChQwoODlbx4sXtlg8PD7d7fujQIUlStWrVcq0rIiJCf/75p86cOWM3PSwsLFfbli1bKjg4WHPnzpX092WMn376qdq3b+9QGL2S06dPX7Wfxx57TA0bNlSfPn0UGBiozp0764svvnAoeJUrV86hwTDuuOMOu+c2m03h4eH67bff8t3H9Th06JBCQkJy7Y+IiAhr/qUqVqyYq4+SJUvqxIkTzisSAAoB92wBwC3E19dXISEh+vnnn/PV/sCBA2revLmqV6+uSZMmqUKFCnJ3d9eSJUs0efLkfAWD7OxstWzZUsOHD89zftWqVR3ahuuR1/1Irq6ueuKJJzRr1iy999572rhxo44cOaInn3zyH6/v999/V1paWq6geHlN69at05o1a7R48WItXbpUn3/+ue6//34tX75crq6u11yPI/dZ5deVfng5KysrXzUVhCutx1w2mAYAFHWELQC4xbRt21YzZ85UQkKCoqKirtp24cKFysjI0IIFC+zONlx66V2OK31Jr1Klik6fPm2dybqS0NBQrVmzxhq+PMf+/ftztZOkvXv35upjz549Kl26dL6Hdu/WrZsmTpyohQsX6rvvvlOZMmUUHR2dr2Wv5uOPP5aka/bl4uKi5s2bq3nz5po0aZJee+01vfjii1qzZo1atGhxxX16vX755Re758YY7d+/3+73wEqWLKmTJ0/mWvbQoUOqXLmy9dyR2kJDQ7Vy5UqdOnXK7uzWnj17rPkAcDviMkIAuMUMHz5c3t7e6tOnj1JTU3PNP3DggN5++21J/+8Mw6VnFNLS0jR79uxcy3l7e+f5Jf3RRx9VQkKCli1blmveyZMndfHiRUl/B5MLFy5o1qxZ1vzs7GxNmzbNbpng4GDVrl1bc+bMsVvfzz//rOXLl+vBBx+8ytbbi4yMVGRkpN5//3199dVX6ty58z/+LazVq1frlVdeUVhYmLp06XLFdn/99VeuaTk/DpyRkSFJVmjMa79ej48++sjuEtIvv/xSR48eVevWra1pVapU0ebNm5WZmWlNW7RoUa4h4h2p7cEHH1RWVpbeffddu+mTJ0+WzWazWz8A3E44swUAt5gqVapo3rx5euyxxxQREaFu3brpzjvvVGZmpjZt2qT58+dbv7PUqlUrubu7q127dnr66ad1+vRpzZo1S2XLltXRo0ft+q1bt66mT5+uV199VeHh4Spbtqzuv/9+DRs2TAsWLFDbtm3Vo0cP1a1bV2fOnNGOHTv05Zdf6rffflPp0qXVoUMH3XPPPXruuee0f/9+Va9eXQsWLLBCyaVnUt588021bt1aUVFR6t27tzX0u5+fn8aMGePQ/ujWrZuef/55SXL4EsLvvvtOe/bs0cWLF5WamqrVq1drxYoVCg0N1YIFC+Tp6XnFZceOHat169apTZs2Cg0N1bFjx/Tee++pfPnyatSokaS/j5W/v79mzJghHx8feXt7q379+nneg5YfAQEBatSokXr27KnU1FRNmTJF4eHhdoOS9OnTR19++aUeeOABPfroozpw4IA++eQTuwErHK2tXbt2atasmV588UX99ttvuuuuu7R8+XL997//1eDBg3P1DQC3jcIdDBEA4Cz79u0zffv2NZUqVTLu7u7Gx8fHNGzY0Lzzzjvm/PnzVrsFCxaYyMhI4+npaSpVqmTeeOMN8+GHHxpJ5uDBg1a7lJQU06ZNG+Pj42Mk2Q0TfurUKRMbG2vCw8ONu7u7KV26tLn33nvNW2+9ZTIzM612f/zxh3niiSeMj4+P8fPzMz169DAbN240ksxnn31mV//KlStNw4YNjZeXl/H19TXt2rUzu3btsmuTM9z61YZXP3r0qHF1dTVVq1bN977LGfo95+Hu7m6CgoJMy5Ytzdtvv203vPrlteRYtWqVad++vQkJCTHu7u4mJCTEPP7447mGyP/vf/9ratSoYYoVK2Y31HqTJk1MzZo186zvSkO/f/rppyY2NtaULVvWeHl5mTZt2phDhw7lWn7ixImmXLlyxsPDwzRs2NB8//33ufq8Wm2XD/1uzN+vgSFDhpiQkBDj5uZm7rjjDvPmm2+a7Oxsu3aSTExMTK6arjQkPQAUZTZjuBsVAFB4vv32Wz388MPasGGDGjZsWOD9//nnnwoODtaoUaP00ksvFXj/AABcCfdsAQBumHPnztk9z8rK0jvvvCNfX1/VqVPHKeuMi4tTVlaWunbt6pT+AQC4Eu7ZAgDcMAMHDtS5c+cUFRWljIwMff3119q0aZNee+21Ah/mfPXq1dq1a5fGjRunDh06qFKlSgXaPwAA18JlhACAG2bevHmaOHGi9u/fr/Pnzys8PFz9+/fXgAEDCnxdTZs21aZNm9SwYUN98sknKleuXIGvAwCAqyFsAQAAAIATcM8WAAAAADgBYQsAAAAAnIABMvIhOztbR44ckY+Pj92PbgIAAAC4vRhjdOrUKYWEhMjF5RrnrgrxN77MxYsXzciRI02lSpWMp6enqVy5shk7dqzdDyBmZ2ebl156yQQFBRlPT0/TvHnzXD8Iefz4cbsfyezVq5c5deqUXZvt27ebRo0aGQ8PD1O+fHnzxhtv5LvOw4cP2/24JQ8ePHjw4MGDBw8ePG7vx+HDh6+ZIwr1zNYbb7yh6dOna86cOapZs6a+//579ezZU35+fho0aJAkacKECZo6darmzJmjsLAwvfTSS4qOjtauXbvk6ekpSerSpYuOHj2qFStW6MKFC+rZs6eeeuopzZs3T5KUnp6uVq1aqUWLFpoxY4Z27NihXr16yd/fX0899dQ16/Tx8ZEkHT58WL6+vk7aGwAAAABudunp6apQoYKVEa6mUEcjbNu2rQIDA/XBBx9Y0zp27CgvLy998sknMsYoJCREzz33nJ5//nlJUlpamgIDAxUXF6fOnTtr9+7dqlGjhrZt26Z69epJkpYuXaoHH3xQv//+u0JCQjR9+nS9+OKLSklJkbu7uyRpxIgR+vbbb7Vnz55r1pmeni4/Pz+lpaURtgAAAIDbmCPZoFAHyLj33nu1atUq7du3T5K0fft2bdiwQa1bt5YkHTx4UCkpKWrRooW1jJ+fn+rXr6+EhARJUkJCgvz9/a2gJUktWrSQi4uLtmzZYrW57777rKAlSdHR0dq7d69OnDiRq66MjAylp6fbPQAAAADAEYV6GeGIESOUnp6u6tWry9XVVVlZWRo3bpy6dOkiSUpJSZEkBQYG2i0XGBhozUtJSVHZsmXt5hcrVkwBAQF2bcLCwnL1kTOvZMmSdvPGjx+vl19+uYC2EgAAAMDtqFDPbH3xxReaO3eu5s2bpx9++EFz5szRW2+9pTlz5hRmWYqNjVVaWpr1OHz4cKHWAwAAAKDoKdQzW8OGDdOIESPUuXNnSVKtWrV06NAhjR8/Xt27d1dQUJAkKTU1VcHBwdZyqampql27tiQpKChIx44ds+v34sWL+uuvv6zlg4KClJqaatcm53lOm0t5eHjIw8OjYDYSAAAAwG2pUM9snT17NtfY9K6ursrOzpYkhYWFKSgoSKtWrbLmp6ena8uWLYqKipIkRUVF6eTJk0pMTLTarF69WtnZ2apfv77VZt26dbpw4YLVZsWKFapWrVquSwgBAAAAoCAUathq166dxo0bp8WLF+u3337TN998o0mTJunhhx+WJNlsNg0ePFivvvqqFixYoB07dqhbt24KCQlRhw4dJEkRERF64IEH1LdvX23dulUbN27UgAED1LlzZ4WEhEiSnnjiCbm7u6t3797auXOnPv/8c7399tsaOnRoYW06AAAAgFtcoQ79furUKb300kv65ptvdOzYMYWEhOjxxx/XqFGjrJEDjTEaPXq0Zs6cqZMnT6pRo0Z67733VLVqVaufv/76SwMGDNDChQvl4uKijh07aurUqSpRooTV5qefflJMTIy2bdum0qVLa+DAgXrhhRfyVSdDvwMAAACQHMsGhRq2igrCFgAAAACpCP3OFgAAAADcqghbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnKFbYBdxq6g77qLBLKJIS3+xW2CUAAAAABYozWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBMUKuwCgoNUd9lFhl1DkJL7ZrbBLAAAAuOVwZgsAAAAAnICwBQAAAABOQNgCAAAAACco1LBVqVIl2Wy2XI+YmBhJ0vnz5xUTE6NSpUqpRIkS6tixo1JTU+36SE5OVps2bVS8eHGVLVtWw4YN08WLF+3axMfHq06dOvLw8FB4eLji4uJu1CYCAAAAuE0Vatjatm2bjh49aj1WrFghSerUqZMkaciQIVq4cKHmz5+vtWvX6siRI3rkkUes5bOystSmTRtlZmZq06ZNmjNnjuLi4jRq1CirzcGDB9WmTRs1a9ZMSUlJGjx4sPr06aNly5bd2I0FAAAAcFsp1NEIy5QpY/f89ddfV5UqVdSkSROlpaXpgw8+0Lx583T//fdLkmbPnq2IiAht3rxZDRo00PLly7Vr1y6tXLlSgYGBql27tl555RW98MILGjNmjNzd3TVjxgyFhYVp4sSJkqSIiAht2LBBkydPVnR09A3fZgAAAAC3h5vmnq3MzEx98skn6tWrl2w2mxITE3XhwgW1aNHCalO9enVVrFhRCQkJkqSEhATVqlVLgYGBVpvo6Gilp6dr586dVptL+8hpk9NHXjIyMpSenm73AAAAAABH3DS/s/Xtt9/q5MmT6tGjhyQpJSVF7u7u8vf3t2sXGBiolJQUq82lQStnfs68q7VJT0/XuXPn5OXllauW8ePH6+WXXy6IzQJuS/zWmeP4rTMAAG49N82ZrQ8++ECtW7dWSEhIYZei2NhYpaWlWY/Dhw8XdkkAAAAAipib4szWoUOHtHLlSn399dfWtKCgIGVmZurkyZN2Z7dSU1MVFBRktdm6datdXzmjFV7a5vIRDFNTU+Xr65vnWS1J8vDwkIeHxz/eLgAAAAC3r5vizNbs2bNVtmxZtWnTxppWt25dubm5adWqVda0vXv3Kjk5WVFRUZKkqKgo7dixQ8eOHbParFixQr6+vqpRo4bV5tI+ctrk9AEAAAAAzlDoYSs7O1uzZ89W9+7dVazY/zvR5ufnp969e2vo0KFas2aNEhMT1bNnT0VFRalBgwaSpFatWqlGjRrq2rWrtm/frmXLlmnkyJGKiYmxzkz169dPv/76q4YPH649e/bovffe0xdffKEhQ4YUyvYCAAAAuD0U+mWEK1euVHJysnr16pVr3uTJk+Xi4qKOHTsqIyND0dHReu+996z5rq6uWrRokfr376+oqCh5e3ure/fuGjt2rNUmLCxMixcv1pAhQ/T222+rfPnyev/99xn2HQAAAIBTFXrYatWqlYwxec7z9PTUtGnTNG3atCsuHxoaqiVLllx1HU2bNtWPP/74j+oEAAAAAEcU+mWEAAAAAHArKvQzWwCAgsdvnTmO3zoDABQ0whYAAE5A4HUcgRfArYbLCAEAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAExQq7AAAAgIJWd9hHhV1CkZT4ZrfCLgG4pXBmCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQAAAIATELYAAAAAwAkIWwAAAADgBIUetv73v//pySefVKlSpeTl5aVatWrp+++/t+YbYzRq1CgFBwfLy8tLLVq00C+//GLXx19//aUuXbrI19dX/v7+6t27t06fPm3X5qefflLjxo3l6empChUqaMKECTdk+wAAAADcngo1bJ04cUINGzaUm5ubvvvuO+3atUsTJ05UyZIlrTYTJkzQ1KlTNWPGDG3ZskXe3t6Kjo7W+fPnrTZdunTRzp07tWLFCi1atEjr1q3TU089Zc1PT09Xq1atFBoaqsTERL355psaM2aMZs6ceUO3FwAAAMDto1hhrvyNN95QhQoVNHv2bGtaWFiY9W9jjKZMmaKRI0eqffv2kqSPPvpIgYGB+vbbb9W5c2ft3r1bS5cu1bZt21SvXj1J0jvvvKMHH3xQb731lkJCQjR37lxlZmbqww8/lLu7u2rWrKmkpCRNmjTJLpQBAAAAQEEp1DNbCxYsUL169dSpUyeVLVtWd999t2bNmmXNP3jwoFJSUtSiRQtrmp+fn+rXr6+EhARJUkJCgvz9/a2gJUktWrSQi4uLtmzZYrW577775O7ubrWJjo7W3r17deLEiVx1ZWRkKD093e4BAAAAAI4o1LD166+/avr06brjjju0bNky9e/fX4MGDdKcOXMkSSkpKZKkwMBAu+UCAwOteSkpKSpbtqzd/GLFiikgIMCuTV59XLqOS40fP15+fn7Wo0KFCgWwtQAAAABuJ4UatrKzs1WnTh299tpruvvuu/XUU0+pb9++mjFjRmGWpdjYWKWlpVmPw4cPF2o9AAAAAIqeQg1bwcHBqlGjht20iIgIJScnS5KCgoIkSampqXZtUlNTrXlBQUE6duyY3fyLFy/qr7/+smuTVx+XruNSHh4e8vX1tXsAAAAAgCMKNWw1bNhQe/futZu2b98+hYaGSvp7sIygoCCtWrXKmp+enq4tW7YoKipKkhQVFaWTJ08qMTHRarN69WplZ2erfv36Vpt169bpwoULVpsVK1aoWrVqdiMfAgAAAEBBKdSwNWTIEG3evFmvvfaa9u/fr3nz5mnmzJmKiYmRJNlsNg0ePFivvvqqFixYoB07dqhbt24KCQlRhw4dJP19JuyBBx5Q3759tXXrVm3cuFEDBgxQ586dFRISIkl64okn5O7urt69e2vnzp36/PPP9fbbb2vo0KGFtekAAAAAbnGFOvT7v/71L33zzTeKjY3V2LFjFRYWpilTpqhLly5Wm+HDh+vMmTN66qmndPLkSTVq1EhLly6Vp6en1Wbu3LkaMGCAmjdvLhcXF3Xs2FFTp0615vv5+Wn58uWKiYlR3bp1Vbp0aY0aNYph3wEAAAA4TaGGLUlq27at2rZte8X5NptNY8eO1dixY6/YJiAgQPPmzbvqeiIjI7V+/frrrhMAAAAAHFGolxECAAAAwK2KsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcAKHw9YPP/ygHTt2WM//+9//qkOHDvrPf/6jzMzMAi0OAAAAAIoqh8PW008/rX379kmSfv31V3Xu3FnFixfX/PnzNXz48AIvEAAAAACKIofD1r59+1S7dm1J0vz583Xfffdp3rx5iouL01dffVXQ9QEAAABAkeRw2DLGKDs7W5K0cuVKPfjgg5KkChUq6M8//yzY6gAAAACgiHI4bNWrV0+vvvqqPv74Y61du1Zt2rSRJB08eFCBgYEFXiAAAAAAFEUOh60pU6YoMTFRAwYM0Isvvqjw8HBJ0pdffql77723wAsEAAAAgKLI4bAVGRmpn3/+WWlpaRo9erQ1/c0339ScOXMc6mvMmDGy2Wx2j+rVq1vzz58/r5iYGJUqVUolSpRQx44dlZqaatdHcnKy2rRpo+LFi6ts2bIaNmyYLl68aNcmPj5ederUkYeHh8LDwxUXF+foZgMAAACAQxwOW6NGjdKaNWuUkZFhN93T01Nubm4OF1CzZk0dPXrUemzYsMGaN2TIEC1cuFDz58/X2rVrdeTIET3yyCPW/KysLLVp00aZmZnatGmT5syZo7i4OI0aNcpqc/DgQbVp00bNmjVTUlKSBg8erD59+mjZsmUO1woAAAAA+VXM0QUSEhI0adIkXbx4Uf/617/UpEkTNW3aVA0bNpSXl5fjBRQrpqCgoFzT09LS9MEHH2jevHm6//77JUmzZ89WRESENm/erAYNGmj58uXatWuXVq5cqcDAQNWuXVuvvPKKXnjhBY0ZM0bu7u6aMWOGwsLCNHHiRElSRESENmzYoMmTJys6OtrhegEAAAAgPxw+s7VixQqdPHlSq1at0oMPPqjvv/9ejzzyiPz9/dWoUSOHC/jll18UEhKiypUrq0uXLkpOTpYkJSYm6sKFC2rRooXVtnr16qpYsaISEhIk/R38atWqZTcwR3R0tNLT07Vz506rzaV95LTJ6SMvGRkZSk9Pt3sAAAAAgCMcPrMl/X02qmHDhipTpowCAgLk4+Ojb7/9Vnv27HGon/r16ysuLk7VqlXT0aNH9fLLL6tx48b6+eeflZKSInd3d/n7+9stExgYqJSUFElSSkpKrhEQc55fq016errOnTuX59m48ePH6+WXX3ZoWwAAAADgUg6HrZkzZyo+Pl5r165VRkaGGjdurKZNm2rkyJGKjIx0qK/WrVtb/46MjFT9+vUVGhqqL7744rouSSwosbGxGjp0qPU8PT1dFSpUKLR6AAAAABQ9Doetfv36qUyZMnruuef0zDPPqESJEgVWjL+/v6pWrar9+/erZcuWyszM1MmTJ+3ObqWmplr3eAUFBWnr1q12feSMVnhpm8tHMExNTZWvr+8VA52Hh4c8PDwKarMAAAAA3IYcvmfr66+/VpcuXfTZZ5+pTJkyuvfee/Wf//xHy5cv19mzZ/9RMadPn9aBAwcUHBysunXrys3NTatWrbLm7927V8nJyYqKipIkRUVFaceOHTp27JjVZsWKFfL19VWNGjWsNpf2kdMmpw8AAAAAcAaHz2x16NBBHTp0kPT3iIHr16/X/Pnz1bZtW7m4uOj8+fP57uv5559Xu3btFBoaqiNHjmj06NFydXXV448/Lj8/P/Xu3VtDhw5VQECAfH19NXDgQEVFRalBgwaSpFatWqlGjRrq2rWrJkyYoJSUFI0cOVIxMTHWmal+/frp3Xff1fDhw9WrVy+tXr1aX3zxhRYvXuzopgMAAABAvl3XABnHjx/X2rVrFR8fr/j4eO3cuVMlS5ZU48aNHern999/1+OPP67jx4+rTJkyatSokTZv3qwyZcpIkiZPniwXFxd17NhRGRkZio6O1nvvvWct7+rqqkWLFql///6KioqSt7e3unfvrrFjx1ptwsLCtHjxYg0ZMkRvv/22ypcvr/fff59h3wEAAAA4lcNhq1atWtq9e7dKliyp++67T3379lWTJk0cHhxDkj777LOrzvf09NS0adM0bdq0K7YJDQ3VkiVLrtpP06ZN9eOPPzpcHwAAAK5P3WEfFXYJRVLim90KuwQUoOsaIKNJkya68847nVEPAAAAANwSHA5bMTExkqTMzEwdPHhQVapUUbFi13U1IgAAAADcshwejfDcuXPq3bu3ihcvrpo1ayo5OVmSNHDgQL3++usFXiAAAAAAFEUOh60RI0Zo+/btio+Pl6enpzW9RYsW+vzzzwu0OAAAAAAoqhy+/u/bb7/V559/rgYNGshms1nTa9asqQMHDhRocQAAAABQVDl8ZuuPP/5Q2bJlc00/c+aMXfgCAAAAgNuZw2GrXr16dj8InBOw3n//fUVFRRVcZQAAAABQhDl8GeFrr72m1q1ba9euXbp48aLefvtt7dq1S5s2bdLatWudUSMAAAAAFDkOn9lq1KiRkpKSdPHiRdWqVUvLly9X2bJllZCQoLp16zqjRgAAAAAocq7rB7KqVKmiWbNmFXQtAAAAAHDLcPjMFgAAAADg2vJ9ZsvFxeWaow3abDZdvHjxHxcFAAAAAEVdvsPWN998c8V5CQkJmjp1qrKzswukKAAAAAAo6vIdttq3b59r2t69ezVixAgtXLhQXbp00dixYwu0OAAAAAAoqq7rnq0jR46ob9++qlWrli5evKikpCTNmTNHoaGhBV0fAAAAABRJDoWttLQ0vfDCCwoPD9fOnTu1atUqLVy4UHfeeaez6gMAAACAIinflxFOmDBBb7zxhoKCgvTpp5/meVkhAAAAAOBv+Q5bI0aMkJeXl8LDwzVnzhzNmTMnz3Zff/11gRUHAAAAAEVVvsNWt27drjn0OwAAAADgb/kOW3FxcU4sAwAAAABuLdc1GiEAAAAA4OoIWwAAAADgBIQtAAAAAHCCfN+zBQAAAKDoqDvso8IuoUhKfLNbgfWVrzNbderU0YkTJyRJY8eO1dmzZwusAAAAAAC4FeUrbO3evVtnzpyRJL388ss6ffq0U4sCAAAAgKIuX5cR1q5dWz179lSjRo1kjNFbb72lEiVK5Nl21KhRBVogAAAAABRF+QpbcXFxGj16tBYtWiSbzabvvvtOxYrlXtRmsxG2AAAAAED5DFvVqlXTZ599JklycXHRqlWrVLZsWacWBgAAAABFmcOjEWZnZzujDgAAAAC4pVzX0O8HDhzQlClTtHv3bklSjRo19Oyzz6pKlSoFWhwAAAAAFFUO/6jxsmXLVKNGDW3dulWRkZGKjIzUli1bVLNmTa1YscIZNQIAAABAkePwma0RI0ZoyJAhev3113NNf+GFF9SyZcsCKw4AAAAAiiqHz2zt3r1bvXv3zjW9V69e2rVrV4EUBQAAAABFncNhq0yZMkpKSso1PSkpiREKAQAAAOD/5/BlhH379tVTTz2lX3/9Vffee68kaePGjXrjjTc0dOjQAi8QAAAAAIoih8PWSy+9JB8fH02cOFGxsbGSpJCQEI0ZM0aDBg0q8AIBAAAAoChy+DJCm82mIUOG6Pfff1daWprS0tL0+++/69lnn5XNZrvuQl5//XXZbDYNHjzYmnb+/HnFxMSoVKlSKlGihDp27KjU1FS75ZKTk9WmTRsVL15cZcuW1bBhw3Tx4kW7NvHx8apTp448PDwUHh6uuLi4664TAAAAAPLD4bB1KR8fH/n4+PzjIrZt26b/+7//U2RkpN30IUOGaOHChZo/f77Wrl2rI0eO6JFHHrHmZ2VlqU2bNsrMzNSmTZs0Z84cxcXFadSoUVabgwcPqk2bNmrWrJmSkpI0ePBg9enTR8uWLfvHdQMAAADAlfyjsFUQTp8+rS5dumjWrFkqWbKkNT0tLU0ffPCBJk2apPvvv19169bV7NmztWnTJm3evFmStHz5cu3atUuffPKJateurdatW+uVV17RtGnTlJmZKUmaMWOGwsLCNHHiREVERGjAgAH697//rcmTJ1+xpoyMDKWnp9s9AAAAAMARhR62YmJi1KZNG7Vo0cJuemJioi5cuGA3vXr16qpYsaISEhIkSQkJCapVq5YCAwOtNtHR0UpPT9fOnTutNpf3HR0dbfWRl/Hjx8vPz896VKhQ4R9vJwAAAIDbS6GGrc8++0w//PCDxo8fn2teSkqK3N3d5e/vbzc9MDBQKSkpVptLg1bO/Jx5V2uTnp6uc+fO5VlXbGysdT9aWlqaDh8+fF3bBwAAAOD25VDYunDhgpo3b65ffvnlH6/48OHDevbZZzV37lx5enr+4/4KkoeHh3x9fe0eAAAAAOAIh8KWm5ubfvrppwJZcWJioo4dO6Y6deqoWLFiKlasmNauXaupU6eqWLFiCgwMVGZmpk6ePGm3XGpqqoKCgiRJQUFBuUYnzHl+rTa+vr7y8vIqkG0BAAAAgMs5fBnhk08+qQ8++OAfr7h58+basWOHkpKSrEe9evXUpUsX699ubm5atWqVtczevXuVnJysqKgoSVJUVJR27NihY8eOWW1WrFghX19f1ahRw2pzaR85bXL6AAAAAABncPhHjS9evKgPP/xQK1euVN26deXt7W03f9KkSfnqx8fHR3feeafdNG9vb5UqVcqa3rt3bw0dOlQBAQHy9fXVwIEDFRUVpQYNGkiSWrVqpRo1aqhr166aMGGCUlJSNHLkSMXExMjDw0OS1K9fP7377rsaPny4evXqpdWrV+uLL77Q4sWLHd10AAAAAMg3h8PWzz//rDp16kiS9u3bZzfvn/yocV4mT54sFxcXdezYURkZGYqOjtZ7771nzXd1ddWiRYvUv39/RUVFydvbW927d9fYsWOtNmFhYVq8eLGGDBmit99+W+XLl9f777+v6OjoAq0VAAAAAC7lcNhas2aNM+qQJMXHx9s99/T01LRp0zRt2rQrLhMaGqolS5Zctd+mTZvqxx9/LIgSAQAAACBfrnvo9/3792vZsmXW8OnGmAIrCgAAAACKOofD1vHjx9W8eXNVrVpVDz74oI4ePSrp7/urnnvuuQIvEAAAAACKIofD1pAhQ+Tm5qbk5GQVL17cmv7YY49p6dKlBVocAAAAABRVDt+ztXz5ci1btkzly5e3m37HHXfo0KFDBVYYAAAAABRlDp/ZOnPmjN0ZrRx//fWXNdw6AAAAANzuHA5bjRs31kcffWQ9t9lsys7O1oQJE9SsWbMCLQ4AAAAAiiqHLyOcMGGCmjdvru+//16ZmZkaPny4du7cqb/++ksbN250Ro0AAAAAUOQ4fGbrzjvv1L59+9SoUSO1b99eZ86c0SOPPKIff/xRVapUcUaNAAAAAFDkOHxmS5L8/Pz04osvFnQtAAAAAHDLuK6wdeLECX3wwQfavXu3JKlGjRrq2bOnAgICCrQ4AAAAACiqHL6McN26dapUqZKmTp2qEydO6MSJE5o6darCwsK0bt06Z9QIAAAAAEWOw2e2YmJi9Nhjj2n69OlydXWVJGVlZemZZ55RTEyMduzYUeBFAgAAAEBR4/CZrf379+u5556zgpYkubq6aujQodq/f3+BFgcAAAAARZXDYatOnTrWvVqX2r17t+66664CKQoAAAAAirp8XUb4008/Wf8eNGiQnn32We3fv18NGjSQJG3evFnTpk3T66+/7pwqAQAAAKCIyVfYql27tmw2m4wx1rThw4fnavfEE0/oscceK7jqAAAAAKCIylfYOnjwoLPrAAAAAIBbSr7CVmhoqLPrAAAAAIBbynX9qPGRI0e0YcMGHTt2TNnZ2XbzBg0aVCCFAQAAAEBR5nDYiouL09NPPy13d3eVKlVKNpvNmmez2QhbAAAAAKDrCFsvvfSSRo0apdjYWLm4ODxyPAAAAADcFhxOS2fPnlXnzp0JWgAAAABwFQ4npt69e2v+/PnOqAUAAAAAbhkOX0Y4fvx4tW3bVkuXLlWtWrXk5uZmN3/SpEkFVhwAAAAAFFXXFbaWLVumatWqSVKuATIAAAAAANcRtiZOnKgPP/xQPXr0cEI5AAAAAHBrcPieLQ8PDzVs2NAZtQAAAADALcPhsPXss8/qnXfecUYtAAAAAHDLcPgywq1bt2r16tVatGiRatasmWuAjK+//rrAigMAAACAosrhsOXv769HHnnEGbUAAAAAwC3D4bA1e/ZsZ9QBAAAAALcUh+/ZAgAAAABcm8NntsLCwq76e1q//vrrPyoIAAAAAG4FDoetwYMH2z2/cOGCfvzxRy1dulTDhg0rqLoAAAAAoEhzOGw9++yzeU6fNm2avv/++39cEAAAAADcCgrsnq3WrVvrq6++KqjuAAAAAKBIK7Cw9eWXXyogIMChZaZPn67IyEj5+vrK19dXUVFR+u6776z558+fV0xMjEqVKqUSJUqoY8eOSk1NtesjOTlZbdq0UfHixVW2bFkNGzZMFy9etGsTHx+vOnXqyMPDQ+Hh4YqLi7vu7QQAAACA/HD4MsK7777bboAMY4xSUlL0xx9/6L333nOor/Lly+v111/XHXfcIWOM5syZo/bt2+vHH39UzZo1NWTIEC1evFjz58+Xn5+fBgwYoEceeUQbN26UJGVlZalNmzYKCgrSpk2bdPToUXXr1k1ubm567bXXJEkHDx5UmzZt1K9fP82dO1erVq1Snz59FBwcrOjoaEc3HwAAAADyxeGw1aFDB7vnLi4uKlOmjJo2barq1as71Fe7du3sno8bN07Tp0/X5s2bVb58eX3wwQeaN2+e7r//fkl//8ZXRESENm/erAYNGmj58uXatWuXVq5cqcDAQNWuXVuvvPKKXnjhBY0ZM0bu7u6aMWOGwsLCNHHiRElSRESENmzYoMmTJxO2AAAAADiNw2Fr9OjRzqhDWVlZmj9/vs6cOaOoqCglJibqwoULatGihdWmevXqqlixohISEtSgQQMlJCSoVq1aCgwMtNpER0erf//+2rlzp+6++24lJCTY9ZHT5vJRFS+VkZGhjIwM63l6enrBbSgAAACA20Kh/6jxjh07VKJECXl4eKhfv3765ptvVKNGDaWkpMjd3V3+/v527QMDA5WSkiJJSklJsQtaOfNz5l2tTXp6us6dO5dnTePHj5efn5/1qFChQkFsKgAAAIDbSL7DlouLi1xdXa/6KFbM4RNlqlatmpKSkrRlyxb1799f3bt3165duxzupyDFxsYqLS3Nehw+fLhQ6wEAAABQ9OQ7HX3zzTdXnJeQkKCpU6cqOzvb4QLc3d0VHh4uSapbt662bdumt99+W4899pgyMzN18uRJu7NbqampCgoKkiQFBQVp69atdv3ljFZ4aZvLRzBMTU2Vr6+vvLy88qzJw8NDHh4eDm8LAAAAAOTId9hq3759rml79+7ViBEjtHDhQnXp0kVjx479xwVlZ2crIyNDdevWlZubm1atWqWOHTta60tOTlZUVJQkKSoqSuPGjdOxY8dUtmxZSdKKFSvk6+urGjVqWG2WLFlit44VK1ZYfQAAAACAMzh+3Z+kI0eOaPTo0ZozZ46io6OVlJSkO++80+F+YmNj1bp1a1WsWFGnTp3SvHnzFB8fr2XLlsnPz0+9e/fW0KFDFRAQIF9fXw0cOFBRUVFq0KCBJKlVq1aqUaOGunbtqgkTJiglJUUjR45UTEyMdWaqX79+evfddzV8+HD16tVLq1ev1hdffKHFixdfz6YDAAAAQL44FLbS0tL02muv6Z133lHt2rW1atUqNW7c+LpXfuzYMXXr1k1Hjx6Vn5+fIiMjtWzZMrVs2VKSNHnyZLm4uKhjx47KyMhQdHS03W95ubq6atGiRerfv7+ioqLk7e2t7t27251hCwsL0+LFizVkyBC9/fbbKl++vN5//32GfQcAAADgVPkOWxMmTNAbb7yhoKAgffrpp3leVuioDz744KrzPT09NW3aNE2bNu2KbUJDQ3NdJni5pk2b6scff7yuGgEAAADgeuQ7bI0YMUJeXl4KDw/XnDlzNGfOnDzbff311wVWHAAAAAAUVfkOW926dZPNZnNmLQAAAABwy8h32IqLi3NiGQAAAABwa8n3jxoDAAAAAPKPsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATlCoYWv8+PH617/+JR8fH5UtW1YdOnTQ3r177dqcP39eMTExKlWqlEqUKKGOHTsqNTXVrk1ycrLatGmj4sWLq2zZsho2bJguXrxo1yY+Pl516tSRh4eHwsPDFRcX5+zNAwAAAHAbK9SwtXbtWsXExGjz5s1asWKFLly4oFatWunMmTNWmyFDhmjhwoWaP3++1q5dqyNHjuiRRx6x5mdlZalNmzbKzMzUpk2bNGfOHMXFxWnUqFFWm4MHD6pNmzZq1qyZkpKSNHjwYPXp00fLli27odsLAAAA4PZRrDBXvnTpUrvncXFxKlu2rBITE3XfffcpLS1NH3zwgebNm6f7779fkjR79mxFRERo8+bNatCggZYvX65du3Zp5cqVCgwMVO3atfXKK6/ohRde0JgxY+Tu7q4ZM2YoLCxMEydOlCRFRERow4YNmjx5sqKjo2/4dgMAAAC49d1U92ylpaVJkgICAiRJiYmJunDhglq0aGG1qV69uipWrKiEhARJUkJCgmrVqqXAwECrTXR0tNLT07Vz506rzaV95LTJ6eNyGRkZSk9Pt3sAAAAAgCNumrCVnZ2twYMHq2HDhrrzzjslSSkpKXJ3d5e/v79d28DAQKWkpFhtLg1aOfNz5l2tTXp6us6dO5erlvHjx8vPz896VKhQoUC2EQAAAMDt46YJWzExMfr555/12WefFXYpio2NVVpamvU4fPhwYZcEAAAAoIgp1Hu2cgwYMECLFi3SunXrVL58eWt6UFCQMjMzdfLkSbuzW6mpqQoKCrLabN261a6/nNEKL21z+QiGqamp8vX1lZeXV656PDw85OHhUSDbBgAAAOD2VKhntowxGjBggL755hutXr1aYWFhdvPr1q0rNzc3rVq1ypq2d+9eJScnKyoqSpIUFRWlHTt26NixY1abFStWyNfXVzVq1LDaXNpHTpucPgAAAACgoBXqma2YmBjNmzdP//3vf+Xj42PdY+Xn5ycvLy/5+fmpd+/eGjp0qAICAuTr66uBAwcqKipKDRo0kCS1atVKNWrUUNeuXTVhwgSlpKRo5MiRiomJsc5O9evXT++++66GDx+uXr16afXq1friiy+0ePHiQtt2AAAAALe2Qj2zNX36dKWlpalp06YKDg62Hp9//rnVZvLkyWrbtq06duyo++67T0FBQfr666+t+a6urlq0aJFcXV0VFRWlJ598Ut26ddPYsWOtNmFhYVq8eLFWrFihu+66SxMnTtT777/PsO8AAAAAnKZQz2wZY67ZxtPTU9OmTdO0adOu2CY0NFRLliy5aj9NmzbVjz/+6HCNAAAAAHA9bprRCAEAAADgVkLYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4AWELAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQo1bK1bt07t2rVTSEiIbDabvv32W7v5xhiNGjVKwcHB8vLyUosWLfTLL7/Ytfnrr7/UpUsX+fr6yt/fX71799bp06ft2vz0009q3LixPD09VaFCBU2YMMHZmwYAAADgNleoYevMmTO66667NG3atDznT5gwQVOnTtWMGTO0ZcsWeXt7Kzo6WufPn7fadOnSRTt37tSKFSu0aNEirVu3Tk899ZQ1Pz09Xa1atVJoaKgSExP15ptvasyYMZo5c6bTtw8AAADA7atYYa68devWat26dZ7zjDGaMmWKRo4cqfbt20uSPvroIwUGBurbb79V586dtXv3bi1dulTbtm1TvXr1JEnvvPOOHnzwQb311lsKCQnR3LlzlZmZqQ8//FDu7u6qWbOmkpKSNGnSJLtQBgAAAAAF6aa9Z+vgwYNKSUlRixYtrGl+fn6qX7++EhISJEkJCQny9/e3gpYktWjRQi4uLtqyZYvV5r777pO7u7vVJjo6Wnv37tWJEyfyXHdGRobS09PtHgAAAADgiJs2bKWkpEiSAgMD7aYHBgZa81JSUlS2bFm7+cWKFVNAQIBdm7z6uHQdlxs/frz8/PysR4UKFf75BgEAAAC4rdy0YaswxcbGKi0tzXocPny4sEsCAAAAUMTctGErKChIkpSammo3PTU11ZoXFBSkY8eO2c2/ePGi/vrrL7s2efVx6Tou5+HhIV9fX7sHAAAAADjipg1bYWFhCgoK0qpVq6xp6enp2rJli6KioiRJUVFROnnypBITE602q1evVnZ2turXr2+1WbdunS5cuGC1WbFihapVq6aSJUveoK0BAAAAcLsp1LB1+vRpJSUlKSkpSdLfg2IkJSUpOTlZNptNgwcP1quvvqoFCxZox44d6tatm0JCQtShQwdJUkREhB544AH17dtXW7du1caNGzVgwAB17txZISEhkqQnnnhC7u7u6t27t3bu3KnPP/9cb7/9toYOHVpIWw0AAADgdlCoQ79///33atasmfU8JwB1795dcXFxGj58uM6cOaOnnnpKJ0+eVKNGjbR06VJ5enpay8ydO1cDBgxQ8+bN5eLioo4dO2rq1KnWfD8/Py1fvlwxMTGqW7euSpcurVGjRjHsOwAAAACnKtSw1bRpUxljrjjfZrNp7NixGjt27BXbBAQEaN68eVddT2RkpNavX3/ddQIAAACAo27ae7YAAAAAoCgjbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwAsIWAAAAADgBYQsAAAAAnICwBQAAAABOQNgCAAAAACcgbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwAsIWAAAAADgBYQsAAAAAnICwBQAAAABOQNgCAAAAACcgbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwAsIWAAAAADgBYQsAAAAAnICwBQAAAABOQNgCAAAAACcgbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwAsIWAAAAADgBYQsAAAAAnICwBQAAAABOQNgCAAAAACcgbAEAAACAExC2AAAAAMAJCFsAAAAA4ASELQAAAABwgtsqbE2bNk2VKlWSp6en6tevr61btxZ2SQAAAABuUbdN2Pr88881dOhQjR49Wj/88IPuuusuRUdH69ixY4VdGgAAAIBb0G0TtiZNmqS+ffuqZ8+eqlGjhmbMmKHixYvrww8/LOzSAAAAANyCihV2ATdCZmamEhMTFRsba01zcXFRixYtlJCQkKt9RkaGMjIyrOdpaWmSpPT09GuuKyvjXAFUfPvJz77NL46B4wpy/0scg+vBMSh8HIPCx9+CwscxKHwcg8J3rWOQM98Yc82+bCY/rYq4I0eOqFy5ctq0aZOioqKs6cOHD9fatWu1ZcsWu/ZjxozRyy+/fKPLBAAAAFBEHD58WOXLl79qm9vizJajYmNjNXToUOt5dna2/vrrL5UqVUo2m60QK7t+6enpqlChgg4fPixfX9/CLue2xDEofByDwsX+L3wcg8LHMSh8HIPCV9SPgTFGp06dUkhIyDXb3hZhq3Tp0nJ1dVVqaqrd9NTUVAUFBeVq7+HhIQ8PD7tp/v7+zizxhvH19S2SL+pbCceg8HEMChf7v/BxDAofx6DwcQwKX1E+Bn5+fvlqd1sMkOHu7q66detq1apV1rTs7GytWrXK7rJCAAAAACgot8WZLUkaOnSounfvrnr16umee+7RlClTdObMGfXs2bOwSwMAAABwC7ptwtZjjz2mP/74Q6NGjVJKSopq166tpUuXKjAwsLBLuyE8PDw0evToXJdH4sbhGBQ+jkHhYv8XPo5B4eMYFD6OQeG7nY7BbTEaIQAAAADcaLfFPVsAAAAAcKMRtgAAAADACQhbAAAAAOAEhC3gBoiPj5fNZtPJkyclSXFxcXa/3TZmzBjVrl27UGq7HV2+/+GYG/V65X3xz13+2QPny8/rtkePHurQocN19Z+fzy/eO9cnv++XSpUqacqUKTekpqKIv7H2CFs3qT/++EP9+/dXxYoV5eHhoaCgIEVHR2vjxo1OX/et+iFypT9uN8OXkeeff97ud+BuVj169JDNZsv1eOCBB/K1fEHv6+v9QvHYY49p3759BVLDjWCz2fTtt986vMzVHmPGjHFKrXDM5e+pUqVK6YEHHtBPP/1UIP3fe++9Onr0aL5/fPNWNWPGDPn4+OjixYvWtNOnT8vNzU1Nmza1a5vzOXXgwIEbXGX+FLXPr4JQWH+/b+fQ8E++h96Or9GruW2Gfi9qOnbsqMzMTM2ZM0eVK1dWamqqVq1apePHjzttnZmZmXJ3d3da/7iyEiVKqESJEoVdRr488MADmj17tt20Gz10qzFGWVlZ1728l5eXvLy8CrCim8/Ro0etf3/++ecaNWqU9u7da00rKq+328Gl76mUlBSNHDlSbdu2VXJy8j/u293dXUFBQf+4n6KuWbNmOn36tL7//ns1aNBAkrR+/XoFBQVpy5YtOn/+vDw9PSVJa9asUcWKFVWlShWH1vFPP5fy63b4/ELh+yffQ3mN2uPM1k3o5MmTWr9+vd544w01a9ZMoaGhuueeexQbG6uHHnpI0t//az19+nS1bt1aXl5eqly5sr788ku7fnbs2KH7779fXl5eKlWqlJ566imdPn3amp/zP0Xjxo1TSEiIqlWrpqZNm+rQoUMaMmSI9T+tknTo0CG1a9dOJUuWlLe3t2rWrKklS5bcuJ1yA23YsEGNGzeWl5eXKlSooEGDBunMmTPW/I8//lj16tWTj4+PgoKC9MQTT+jYsWN2fSxZskRVq1aVl5eXmjVrpt9+++2q67z8DE3OsXnrrbcUHBysUqVKKSYmRhcuXLDaZGRk6Pnnn1e5cuXk7e2t+vXrKz4+3prvrGOW8z9clz5Kliwp6e/X5fvvv6+HH35YxYsX1x133KEFCxZIkn777Tc1a9ZMklSyZEnZbDb16NFDkpSdna3x48crLCxMXl5euuuuu+xezzn/e/ndd9+pbt268vDw0CeffKKXX35Z27dvt16rcXFxkqRJkyapVq1a8vb2VoUKFfTMM8/YvfavdBnnxx9/rEqVKsnPz0+dO3fWqVOnrDZNmzbVwIEDNXjwYJUsWVKBgYGaNWuW9ePoPj4+Cg8P13fffWe3v37++We1bt1aJUqUUGBgoLp27ao///zTrt9BgwZp+PDhCggIUFBQkN1Zp0qVKkmSHn74YdlsNuv5tVx6fPz8/GSz2eymffbZZ4qIiJCnp6eqV6+u9957z27533//XY8//rgCAgLk7e2tevXqacuWLXZtrrW/rrZdkpScnKz27durRIkS8vX11aOPPqrU1NQrblN2drbGjh2r8uXLy8PDw/q9xEtt2rRJtWvXlqenp+rVq6dvv/1WNptNSUlJMsYoPDxcb731lt0ySUlJstls2r9/f772bUG79D1Vu3ZtjRgxQocPH9Yff/yR5//c59Sb87lytff6lS5hXrZsmSIiIlSiRAk98MADduFckt5///0rvj4yMzM1YMAABQcHy9PTU6GhoRo/frykvwPHmDFjrP8NDwkJ0aBBg5y38/KpWrVqCg4OtvuMjI+PV/v27RUWFqbNmzfbTW/WrJkyMjI0aNAglS1bVp6enmrUqJG2bdtm1+7yz6UNGzbkWndWVpaGDh0qf39/lSpVSsOHD9elv7qzaNEi+fv7W0Et5/iOGDHCatOnTx89+eSTkvI+2/L6668rMDBQPj4+6t27t86fP5+rjqsd01tFQfz9zhEfH6+ePXsqLS0tzysCzp49q169esnHx0cVK1bUzJkznb15N0x+voeePHlSTz/9tAIDA+Xp6ak777xTixYtkpT3a/S///2v6tSpI09PT1WuXFkvv/yy3Znmq31/yLFz5061bdtWvr6+8vHxUePGje3OQN+0r3GDm86FCxdMiRIlzODBg8358+fzbCPJlCpVysyaNcvs3bvXjBw50ri6uppdu3YZY4w5ffq0CQ4ONo888ojZsWOHWbVqlQkLCzPdu3e3+ujevbspUaKE6dq1q/n555/Nzz//bI4fP27Kly9vxo4da44ePWqOHj1qjDGmTZs2pmXLluann34yBw4cMAsXLjRr1651+r4oSN27dzft27fPNX3NmjVGkjlx4oTZv3+/8fb2NpMnTzb79u0zGzduNHfffbfp0aOH1f6DDz4wS5YsMQcOHDAJCQkmKirKtG7d2pqfnJxsPDw8zNChQ82ePXvMJ598YgIDA611GGPM7NmzjZ+fn7XM6NGjzV133WVXq6+vr+nXr5/ZvXu3WbhwoSlevLiZOXOm1aZPnz7m3nvvNevWrTP79+83b775pvHw8DD79u0zxjjnmF1pH+aQZMqXL2/mzZtnfvnlFzNo0CBTokQJc/z4cXPx4kXz1VdfGUlm79695ujRo+bkyZPGGGNeffVVU716dbN06VJz4MABM3v2bOPh4WHi4+ONMf/vGEVGRprly5eb/fv3m99//90899xzpmbNmtZr9ezZs8YYYyZPnmxWr15tDh48aFatWmWqVatm+vfvb9WZ1/4vUaKE9X5Zt26dCQoKMv/5z3+sNk2aNDE+Pj7mlVdeMfv27TOvvPKKcXV1Na1btzYzZ840+/btM/379zelSpUyZ86cMcYYc+LECVOmTBkTGxtrdu/ebX744QfTsmVL06xZM7t+fX19zZgxY8y+ffvMnDlzjM1mM8uXLzfGGHPs2DEjycyePdscPXrUHDt2zOHjdvn2fvLJJyY4ONh89dVX5tdffzVfffWVCQgIMHFxccYYY06dOmUqV65sGjdubNavX29++eUX8/nnn5tNmzY5tL+utl1ZWVmmdu3aplGjRub77783mzdvNnXr1jVNmjSxOy6Xvi8mTZpkfH19zaeffmr27Nljhg8fbtzc3KzXfFpamgkICDBPPvmk2blzp1myZImpWrWqkWR+/PFHY4wx48aNMzVq1LDbP4MGDTL33Xefw/u1IFz+njp16pR5+umnTXh4uMnKyrL7fMrx448/Gknm4MGDxpirv9cvX3727NnGzc3NtGjRwmzbts0kJiaaiIgI88QTT1j9X+v18eabb5oKFSqYdevWmd9++82sX7/ezJs3zxhjzPz5842vr69ZsmSJOXTokNmyZYvd51ZheuKJJ0yrVq2s5//617/M/PnzTb9+/cyoUaOMMcacPXvWeHh4mLi4ODNo0CATEhJilixZYnbu3Gm6d+9uSpYsaY4fP26Myftz6fjx47let2+88YYpWbKk+eqrr8yuXbtM7969jY+Pj3XcT548aVxcXMy2bduMMcZMmTLFlC5d2tSvX9/qIzw83MyaNcsYk/v9/PnnnxsPDw/z/vvvmz179pgXX3zR+Pj42NVwrWN6s7tRf78v7S8jI8NMmTLF+Pr6Wn9jTp06ZYwxJjQ01AQEBJhp06aZX375xYwfP964uLiYPXv2OH1f3AjX+h6alZVlGjRoYGrWrGmWL19ufe4sWbLEGJP7Nbpu3Trj6+tr4uLizIEDB8zy5ctNpUqVzJgxY6w2V/v+YIwxv//+uwkICDCPPPKI2bZtm9m7d6/58MMPrX1+M7/GCVs3qS+//NKULFnSeHp6mnvvvdfExsaa7du3W/MlmX79+tktU79+fesL5cyZM03JkiXN6dOnrfmLFy82Li4uJiUlxRjz94dXYGCgycjIsOsnNDTUTJ482W5arVq17N4URVH37t2Nq6ur8fb2tnt4enpaH669e/c2Tz31lN1y69evNy4uLubcuXN59rtt2zYjyfoQjo2NzfVl7oUXXnA4bIWGhpqLFy9a0zp16mQee+wxY4wxhw4dMq6uruZ///uf3XqaN29uYmNjjTHOOWZX2ofjxo0zxvz9uhw5cqTV/vTp00aS+e6774wxub/4GWPM+fPnTfHixa0v8jl69+5tHn/8cbvlvv32W7s2l++3K5k/f74pVaqU9Tyv/V+8eHGTnp5uTRs2bJjdl50mTZqYRo0aWc8vXrxovL29TdeuXa1pR48eNZJMQkKCMcaYV155xe7LnTHGHD582AqcefVrzN9fAl944QXruSTzzTffXHM7r+Ty7a1SpYr15TjHK6+8YqKioowxxvzf//2f8fHxsf7IXe569pcx9tu1fPly4+rqapKTk635O3fuNJLM1q1brfVcenxDQkKs19qlfT7zzDPGGGOmT59uSpUqZfdenTVrll3Y+t///mdcXV3Nli1bjDHGZGZmmtKlSxfaH+TL31OSTHBwsElMTDTG5P2euTxsXe29nlfYkmT2799vtZk2bZoJDAy0nl/r9TFw4EBz//33m+zs7FzrmzhxoqlatarJzMx0eF8426xZs4y3t7e5cOGCSU9PN8WKFTPHjh0z8+bNs8L2qlWrjCTz22+/GTc3NzN37lxr+czMTBMSEmImTJhgjMn/51JwcLC1jDF/f5EtX768XXioU6eOefPNN40xxnTo0MGMGzfOuLu7m1OnTpnff//dSLL+U+Hy93NUVJT1HshRv359uxqudUxvdjfq73de75dL93WO0NBQ8+STT1rPs7OzTdmyZc306dMLZoNvAlf7Hrps2TLj4uJi/R273OX7rXnz5ua1116za/Pxxx+b4OBg6/m1vj/ExsaasLCwK3623MyvcS4jvEl17NhRR44c0YIFC/TAAw8oPj5ederUsS6TkqSoqCi7ZaKiorR7925J0u7du3XXXXfJ29vbmt+wYUNlZ2fb3bdRq1atfN2nNWjQIL366qtq2LChRo8eXWA3b99ozZo1U1JSkt3j/ffft+Zv375dcXFx1j1UJUqUUHR0tLKzs3Xw4EFJUmJiotq1a6eKFSvKx8dHTZo0kSTr/ordu3erfv36duu9/FjlR82aNeXq6mo9Dw4Oti532LFjh7KyslS1alW7WteuXWudUnfWMctrH/br18+aHxkZaf3b29tbvr6+V7xMQ5L279+vs2fPqmXLlnbb8tFHH+W6Qb1evXr5qnHlypVq3ry5ypUrJx8fH3Xt2lXHjx/X2bNnr7hMpUqV5OPjYz2/dH/ntW2urq4qVaqUatWqZU0LDAyUJGu57du3a82aNXbbVb16dUmy27ZL+73SugvKmTNndODAAfXu3duurldffdWqKSkpSXfffbcCAgKu2I+j++vyNrt371aFChVUoUIFa36NGjXk7+9vfY5dKj09XUeOHFHDhg3tpjds2NBqv3fvXkVGRlr33kjSPffcY9c+JCREbdq00YcffihJWrhwoTIyMtSpU6crbquzXfqe2rp1q6Kjo9W6dWsdOnQoX8s7+l4vXry43f1Ilx6X/Lw+evTooaSkJFWrVk2DBg3S8uXLrb46deqkc+fOqXLlyurbt6+++eYbu0uFClPTpk115swZbdu2TevXr1fVqlVVpkwZNWnSxLpvKz4+XpUrV1ZaWpouXLhg93pzc3PTPffck+v1ebXPpbS0NB09etTub0KxYsVyLdOkSRPFx8fLGKP169frkUceUUREhDZs2KC1a9cqJCREd9xxR57ruNbfnPwc06LgRvz9dsSln285l2k763O7MFzte2hSUpLKly+vqlWr5quv7du3a+zYsXbHpm/fvjp69Kjd3+WrfX9ISkpS48aN5ebmlqv/m/01zgAZNzFPT0+1bNlSLVu21EsvvaQ+ffpo9OjR1n0uBeHSMHY1ffr0UXR0tBYvXqzly5dr/PjxmjhxogYOHFhgtdwI3t7eCg8Pt5v2+++/W/8+ffq0nn766TzvMahYsaLOnDmj6OhoRUdHa+7cuSpTpoySk5MVHR2tzMzMAq318g8Um82m7Oxsq05XV1clJibaBTLp/w184Kxjltc+zG/decm5l2rx4sUqV66c3bzLB97Iz+v1t99+U9u2bdW/f3+NGzdOAQEB2rBhg3r37q3MzEwVL178uuvOq82l03Lucbz0OLVr105vvPFGrvUFBwc7tO6CkrO/Z82alesLWs5rKT83Nl/v/nLWdjmiT58+6tq1qyZPnqzZs2frscceu+Lr4ka4/D31/vvvy8/PT7NmzVKrVq0kye4en0vv3ZQcf6/ndVxy+s/P66NOnTo6ePCgvvvuO61cuVKPPvqoWrRooS+//FIVKlTQ3r17tXLlSq1YsULPPPOM3nzzTa1duzbPL0k3Unh4uMqXL681a9boxIkT1hftkJAQVahQQZs2bdKaNWt0//33O9Rvfv+OXk3Tpk314Ycfavv27XJzc1P16tXVtGlTxcfH29V6PfJzTIuCm+3v9836+VaQrvQ99Pnnn3eon9OnT+vll1/WI488kuc6clxtn17t79LN/hrnzFYRUqNGDbsbPS+9oTfneUREhCQpIiJC27dvt2u/ceNGubi4qFq1alddj7u7e54jKlWoUEH9+vXT119/reeee06zZs36J5tzU6pTp4527dql8PDwXA93d3ft2bNHx48f1+uvv67GjRurevXquf4nKyIiQlu3brWbdvmx+qfuvvtuZWVl6dixY7nqvHTksZvtmOWcRb309VWjRg15eHgoOTk517ZcetbjSv1d/lpNTExUdna2Jk6cqAYNGqhq1ao6cuRIwW9MPtSpU0c7d+5UpUqVcm2bI1/Q3NzcCmyUs8DAQIWEhOjXX3/NVVNYWJikv/93MSkpSX/99VeBrDMvEREROnz4sA4fPmxN27Vrl06ePKkaNWrkau/r66uQkJBcww5v3LjRal+tWjXt2LFDGRkZ1vxLBzTI8eCDD8rb21vTp0/X0qVL1atXr4LarAJhs9nk4uKic+fOqUyZMpLsR5dMSkrKtUxBvdfz8/qQ/j4ejz32mGbNmqXPP/9cX331lfV68fLyUrt27TR16lTFx8crISFBO3bsuK56ClqzZs0UHx+v+Ph4uyHf77vvPn333XfaunWrmjVrpipVqsjd3d3u9XbhwgVt27Ytz9fnlfj5+Sk4ONhucJmLFy8qMTHRrl3jxo116tQpTZ482QpWOWHr8lovFxERkWvwmkv/5uT3mBZ1BfH3+3JX+j50u8r5HhoZGanff/8938O716lTR3v37s3z2Li45C+KREZGav369bn+s0m6+V/jnNm6CR0/flydOnVSr169FBkZKR8fH33//feaMGGC2rdvb7WbP3++6tWrp0aNGmnu3LnaunWrPvjgA0lSly5dNHr0aHXv3l1jxozRH3/8oYEDB6pr167WpU5XUqlSJa1bt06dO3eWh4eHSpcurcGDB6t169aqWrWqTpw4oTVr1ljB7lbywgsvqEGDBhowYID69Okjb29v7dq1SytWrNC7776rihUryt3dXe+884769eunn3/+Wa+88opdH/369dPEiRM1bNgw9enTR4mJiXaXfxaEqlWrqkuXLurWrZsmTpyou+++W3/88YdWrVqlyMhItWnTxmnHLCMjQykpKXbTihUrptKlS19z2dDQUNlsNi1atEgPPvigvLy85OPjo+eff15DhgxRdna2GjVqpLS0NG3cuFG+vr7q3r37FfurVKmSDh48aF3SkDMi4IULF/TOO++oXbt22rhxo2bMmPGPt/t6xMTEaNasWXr88cetUfn279+vzz77TO+//36+/8etUqVKWrVqlRo2bCgPDw9r9Mfr9fLLL2vQoEHy8/PTAw88oIyMDH3//fc6ceKEhg4dqscff1yvvfaaOnTooPHjxys4OFg//vijQkJCruuS2Ly0aNFCtWrVUpcuXTRlyhRdvHhRzzzzjJo0aXLFy7KGDRum0aNHq0qVKqpdu7Zmz56tpKQkzZ07V5L0xBNP6MUXX9RTTz2lESNGKDk52Rp5MOeso/T3/3T26NFDsbGxuuOOOwpsm67Xpe+pEydO6N1337XOiub8p8OYMWM0btw47du3TxMnTrRbvqDf69d6fUyaNEnBwcG6++675eLiovnz5ysoKEj+/v6Ki4tTVlaW6tevr+LFi+uTTz6Rl5eXQkND/9E+KijNmjWzRna99GxRkyZNNGDAAGVmZqpZs2by9vZW//79NWzYMAUEBKhixYqaMGGCzp49q969ezu0zmeffVavv/667rjjDlWvXl2TJk3K9btQJUuWVGRkpObOnat3331X0t8B8NFHH81Va1799+jRQ/Xq1VPDhg01d+5c7dy5U5UrV7baXOuY3goK4u/35SpVqqTTp09r1apVuuuuu1S8ePFCPQt+o1zre2iTJk103333qWPHjpo0aZLCw8O1Z8+eK/7u5qhRo9S2bVtVrFhR//73v+Xi4qLt27fr559/1quvvpqvmgYMGKB33nlHnTt3VmxsrPz8/LR582bdc889qlat2s39Gi/ke8aQh/Pnz5sRI0aYOnXqGD8/P1O8eHFTrVo1M3LkSGu0NUlm2rRppmXLlsbDw8NUqlTJfP7553b9/PTTT6ZZs2bG09PTBAQEmL59+1o3gRpz5dF9EhISTGRkpPHw8DA5L5EBAwaYKlWqGA8PD1OmTBnTtWtX8+effzpvJzhBfkYzMsaYrVu3mpYtW5oSJUoYb29vExkZaXdT/rx580ylSpWMh4eHiYqKMgsWLLC7Ad8YYxYuXGjCw8ONh4eHady4sfnwww8dHiDj8lqfffZZu5HaMjMzzahRo0ylSpWMm5ubCQ4ONg8//LD56aefjDHOOWbdu3c3knI9qlWrZozJeyAHPz8/M3v2bOv52LFjTVBQkLHZbNbomNnZ2WbKlCmmWrVqxs3NzZQpU8ZER0dfcUS1HOfPnzcdO3Y0/v7+1oh9xvw9al1wcLDx8vIy0dHR5qOPPnJo/xvz94iGoaGh1vMmTZqYZ5991q5NXoPJXL4P9u3bZx5++GHj7+9vvLy8TPXq1c3gwYOtwQXy6rd9+/Z2I4cuWLDAhIeHm2LFitnVlF953eQ9d+5cU7t2bePu7m5Klixp7rvvPvP1119b83/77TfTsWNH4+vra4oXL27q1atnDSpxvfvr8u06dOiQeeihh4y3t7fx8fExnTp1sgbwyWs9WVlZZsyYMaZcuXLGzc3N3HXXXdbN0zk2btxoIiMjjbu7u6lbt66ZN2+ekZRrlLADBw4YSXYDFxSGy99TPj4+5l//+pf58ssvrTYbNmwwtWrVMp6enqZx48Zm/vz5dgNkXO29np8b/r/55htz+deBq70+Zs6caWrXrm28vb2Nr6+vad68ufnhhx+svurXr298fX2Nt7e3adCggVm5cqUT9tz1OXjwoJFkqlevbjf9t99+s/ssM8aYc+fOmYEDB5rSpUsbDw8P07BhQ2vwFmOu/Ll0+ev2woUL5tlnnzW+vr7G39/fDB061HTr1i3Pz3hJZvfu3da0u+66ywQFBdm1y+sYjhs3zpQuXdqUKFHCdO/e3QwfPjzXe/Ra7/mb2Y36+53XMe3Xr58pVaqUkWRGjx5tjMn7s/+uu+6y5hd1+fkeevz4cdOzZ09TqlQp4+npae68806zaNEiY0zer9GlS5eae++913h5eRlfX19zzz332I1Ump/vD9u3bzetWrUyxYsXNz4+PqZx48bmwIED1vyb9TVuM+aSC8FRZNhsNn3zzTd5/qI6AOBvc+fOtX4r59Jr/tevX6/mzZvr8OHD1zzbDwDA9eIyQgDALeOjjz5S5cqVVa5cOW3fvl0vvPCCHn30UStoZWRk6I8//tCYMWPUqVMnghYAwKkYIAMAcMtISUnRk08+qYiICA0ZMkSdOnXSzJkzrfmffvqpQkNDdfLkSU2YMKEQKwUA3A64jBAAAAAAnIAzWwAAAADgBIQtAAAAAHACwhYAAAAAOAFhCwAAAACcgLAFAAAAAE5A2AIAAAAAJyBsAQCKrJSUFA0cOFCVK1eWh4eHKlSooHbt2mnVqlX5Wj4uLk7+/v7OLRIAcNsqVtgFAABwPX777Tc1bNhQ/v7+evPNN1WrVi1duHBBy5YtU0xMjPbs2VPYJTrswoULcnNzK+wyAAAFhDNbAIAi6ZlnnpHNZtPWrVvVsWNHVa1aVTVr1tTQoUO1efNmSdKkSZNUq1YteXt7q0KFCnrmmWd0+vRpSVJ8fLx69uyptLQ02Ww22Ww2jRkzRpKUkZGh559/XuXKlZO3t7fq16+v+Ph4u/XPmjVLFSpUUPHixfXwww9r0qRJuc6STZ8+XVWqVJG7u7uqVaumjz/+2G6+zWbT9OnT9dBDD8nb21uvvvqqwsPD9dZbb9m1S0pKks1m0/79+wtuBwIAnI6wBQAocv766y8tXbpUMTEx8vb2zjU/J/S4uLho6tSp2rlzp+bMmaPVq1dr+PDhkqR7771XU6ZMka+vr44ePaqjR4/q+eeflyQNGDBACQkJ+uyzz/TTTz+pU6dOeuCBB/TLL79IkjZu3Kh+/frp2WefVVJSklq2bKlx48bZ1fDNN9/o2Wef1XPPPaeff/5ZTz/9tHr27Kk1a9bYtRszZowefvhh7dixQ71791avXr00e/ZsuzazZ8/Wfffdp/Dw8ALZfwCAG8NmjDGFXQQAAI7YunWr6tevr6+//loPP/xwvpf78ssv1a9fP/3555+S/r5na/DgwTp58qTVJjk5WZUrV1ZycrJCQkKs6S1atNA999yj1157TZ07d9bp06e1aNEia/6TTz6pRYsWWX01bNhQNWvW1MyZM602jz76qM6cOaPFixdL+vvM1uDBgzV58mSrzZEjR1SxYkVt2rRJ99xzjy5cuKCQkBC99dZb6t69u0P7CQBQuDizBQAocvL7/4QrV65U8+bNVa5cOfn4+Khr1646fvy4zp49e8VlduzYoaysLFWtWlUlSpSwHmvXrtWBAwckSXv37tU999xjt9zlz3fv3q2GDRvaTWvYsKF2795tN61evXp2z0NCQtSmTRt9+OGHkqSFCxcqIyNDnTp1ytc2AwBuHgyQAQAocu644w7ZbLarDoLx22+/qW3bturfv7/GjRungIAAbdiwQb1791ZmZqaKFy+e53KnT5+Wq6urEhMT5erqajevRIkSBbodkvK8DLJPnz7q2rWrJk+erNmzZ+uxxx67Yr0AgJsXZ7YAAEVOQECAoqOjNW3aNJ05cybX/JMnTyoxMVHZ2dmaOHGiGjRooKpVq+rIkSN27dzd3ZWVlWU37e6771ZWVpaOHTum8PBwu0dQUJAkqVq1atq2bZvdcpc/j4iI0MaNG+2mbdy4UTVq1Ljm9j344IPy9vbW9OnTtXTpUvXq1euaywAAbj6ELQBAkTRt2jRlZWXpnnvu0VdffaVffvlFu3fv1tSpUxUVFaXw8HBduHBB77zzjn799Vd9/PHHmjFjhl0flSpV0unTp7Vq1Sr9+eefOnv2rKpWraouXbqoW7du+vrrr3Xw4EFt3bpV48ePt+61GjhwoJYsWaJJkybpl19+0f/93//pu+++k81ms/oeNmyY4uLiNH36dP3yyy+aNGmSvv76a2sQjqtxdXVVjx49FBsbqzvuuENRUVEFu/MAADeGAQCgiDpy5IiJiYkxoaGhxt3d3ZQrV8489NBDZs2aNcYYYyZNmmSCg4ONl5eXiY6ONh999JGRZE6cOGH10a9fP1OqVCkjyYwePdoYY0xmZqYZNWqUqVSpknFzczPBwcHm4YcfNj/99JO13MyZM025cuWMl5eX6dChg3n11VdNUFCQXX3vvfeeqVy5snFzczNVq1Y1H330kd18Seabb77Jc9sOHDhgJJkJEyb84/0EACgcjEYIAEAB6Nu3r/bs2aP169cXSH/r169X8+bNdfjwYQUGBhZInwCAG4sBMgAAuA5vvfWWWrZsKW9vb3333XeaM2eO3nvvvX/cb0ZGhv744w+NGTNGnTp1ImgBQBHGPVsAAFyHrVu3qmXLlqpVq5ZmzJihqVOnqk+fPv+4308//VShoaE6efKkJkyYUACVAgAKC5cRAgAAAIATcGYLAAAAAJyAsAUAAAAATkDYAgAAAAAnIGwBAAAAgBMQtgAAAADACQhbAAAAAOAEhC0AAAAAcALCFgAAAAA4wf8Hx940Mau7j2YAAAAASUVORK5CYII=",
+      "text/plain": [
+       "<Figure size 1000x500 with 1 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "# Distribution Bar plot (Count plot)\n",
+    "plt.figure(figsize=(10, 5))\n",
+    "sns.barplot(x=df[\"Category\"].value_counts().index, y=df[\"Category\"].value_counts())\n",
+    "plt.ylabel(\"Number of News\")\n",
+    "plt.title(\"Category Distribution\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**There's no extreme data imbalance except \"Health\" and \"Science\" news are almost half the \"Sports\" (majority) news.**"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "8368a3df9eea413b99d2d0c5876fbcf6",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "interactive(children=(Dropdown(description='category', options=('Business', 'Entertainment', 'Headlines', 'Hea…"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "# Word cloud\n",
+    "categories = df[\"Category\"].unique().tolist()\n",
+    "\n",
+    "\n",
+    "@widgets.interact(category=categories)\n",
+    "def display_categotical_plots(category=categories[0]):\n",
+    "    subset = df[df[\"Category\"] == category].sample(n=100, random_state=42)\n",
+    "    text = subset[\"Title\"].values\n",
+    "    cloud = WordCloud(stopwords=STOPWORDS, background_color=\"black\", collocations=False, width=600, height=400).generate(\" \".join(text))\n",
+    "    plt.axis(\"off\")\n",
+    "    plt.imshow(cloud)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**From the word cloud we can immediately draw one insight about the redundant key words like \"New\" which is coming a lot in different categories.**</br>\n",
+    "We can also see some action verbs, adjectives, adverbs which need to be removed to some extent before training the model.**</br>\n",
+    "Other than that the word cloud seems very intuitive to what the respective categorical tag/name is.</br></br>\n",
+    "We can also see the \"Headlines\" category contains mixed words (will be mixed as it can be a ground breaking news of any category), so we'll hold out those data instances as a test set without targets just to analyze the number of headlines with different categories."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "news_venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.13"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

notebooks/newsclassifier-roberta-base-wandb-track-sweep.ipynb ADDED Viewed

	@@ -0,0 +1,1035 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# NewsClassifier"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {
+    "id": "mtVYEQSYsswc",
+    "outputId": "6f16c0c1-ef25-406c-dd14-edd1a72dc760",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "[nltk_data] Downloading package stopwords to\n",
+      "[nltk_data]     C:\\Users\\manis\\AppData\\Roaming\\nltk_data...\n",
+      "[nltk_data]   Package stopwords is already up-to-date!\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Imports\n",
+    "import os\n",
+    "import gc\n",
+    "import time\n",
+    "from pathlib import Path\n",
+    "import json\n",
+    "from typing import Tuple, Dict\n",
+    "from warnings import filterwarnings\n",
+    "\n",
+    "filterwarnings(\"ignore\")\n",
+    "\n",
+    "import pandas as pd\n",
+    "import numpy as np\n",
+    "from sklearn.model_selection import train_test_split\n",
+    "from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score\n",
+    "\n",
+    "import matplotlib.pyplot as plt\n",
+    "import seaborn as sns\n",
+    "import ipywidgets as widgets\n",
+    "from wordcloud import WordCloud, STOPWORDS\n",
+    "\n",
+    "from tqdm.auto import tqdm\n",
+    "from dataclasses import dataclass\n",
+    "\n",
+    "import re\n",
+    "import nltk\n",
+    "from nltk.corpus import stopwords\n",
+    "\n",
+    "import torch\n",
+    "import torch.nn as nn\n",
+    "import torch.nn.functional as F\n",
+    "from torch.utils.data import DataLoader, Dataset\n",
+    "\n",
+    "from transformers import RobertaTokenizer, RobertaModel\n",
+    "\n",
+    "import wandb\n",
+    "\n",
+    "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+    "\n",
+    "nltk.download(\"stopwords\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mmanishdrw1\u001b[0m. Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "wandb.login()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {
+    "id": "fGW_WYn31JHT",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "@dataclass\n",
+    "class Cfg:\n",
+    "    STOPWORDS = stopwords.words(\"english\")\n",
+    "    dataset_loc = \"../dataset/raw/news_dataset.csv\"\n",
+    "    test_size = 0.2\n",
+    "\n",
+    "    add_special_tokens = True\n",
+    "    max_len = 50\n",
+    "    pad_to_max_length = True\n",
+    "    truncation = True\n",
+    "\n",
+    "    change_config = False\n",
+    "\n",
+    "    dropout_pb = 0.5\n",
+    "    lr = 1e-4\n",
+    "    lr_redfactor = 0.7\n",
+    "    lr_redpatience = 4\n",
+    "    epochs = 10\n",
+    "    batch_size = 128\n",
+    "\n",
+    "    wandb_sweep = False"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {
+    "id": "7V5OJWw4sswg",
+    "outputId": "8eb13263-d31a-4d49-f1f6-3c2dc0595c78",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Matthew McConaughey Gives Joy Behar A Foot Massage On ‘The View’\n",
+      "Entertainment\n"
+     ]
+    }
+   ],
+   "source": [
+    "df = pd.read_csv(Cfg.dataset_loc)\n",
+    "print(df[\"Title\"][10040])\n",
+    "print(df[\"Category\"][10040])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "w05pkO5RN1H2"
+   },
+   "source": [
+    "## Prepare Data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {
+    "id": "l8Z3Hhk3sswg",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def prepare_data(df: pd.DataFrame) -> Tuple[pd.DataFrame, pd.DataFrame]:\n",
+    "    \"\"\"Separate headlines instance and feature selection.\n",
+    "\n",
+    "    Args:\n",
+    "        df: original dataframe.\n",
+    "\n",
+    "    Returns:\n",
+    "        df: new dataframe with appropriate features.\n",
+    "        headlines_df: dataframe cintaining \"headlines\" category instances.\n",
+    "    \"\"\"\n",
+    "    df = df[[\"Title\", \"Category\"]]\n",
+    "    df.rename(columns={\"Title\": \"Text\"}, inplace=True)\n",
+    "    df, headlines_df = df[df[\"Category\"] != \"Headlines\"].reset_index(drop=True), df[df[\"Category\"] == \"Headlines\"].reset_index(drop=True)\n",
+    "\n",
+    "    return df, headlines_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {
+    "id": "d4t7JjIEsswg",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def clean_text(text: str) -> str:\n",
+    "    \"\"\"Clean text (lower, puntuations removal, blank space removal).\"\"\"\n",
+    "    # lower case the text\n",
+    "    text = text.lower()  # necessary to do before as stopwords are in lower case\n",
+    "\n",
+    "    # remove stopwords\n",
+    "    stp_pattern = re.compile(r\"\\b(\" + r\"|\".join(Cfg.STOPWORDS) + r\")\\b\\s*\")\n",
+    "    text = stp_pattern.sub(\"\", text)\n",
+    "\n",
+    "    # custom cleaning\n",
+    "    text = text.strip()  # remove space at start or end if any\n",
+    "    text = re.sub(\" +\", \" \", text)  # remove extra spaces\n",
+    "    text = re.sub(\"[^A-Za-z0-9]+\", \" \", text)  # remove characters that are not alphanumeric\n",
+    "\n",
+    "    return text"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {
+    "id": "NokmvVFusswh",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def preprocess(df: pd.DataFrame) -> Tuple[pd.DataFrame, Dict, Dict]:\n",
+    "    \"\"\"Preprocess the data.\n",
+    "\n",
+    "    Args:\n",
+    "        df: Dataframe on which the preprocessing steps need to be performed.\n",
+    "\n",
+    "    Returns:\n",
+    "        df: Preprocessed Data.\n",
+    "        class_to_index: class labels to indices mapping\n",
+    "        class_to_index: indices to class labels mapping\n",
+    "    \"\"\"\n",
+    "    df, headlines_df = prepare_data(df)\n",
+    "\n",
+    "    cats = df[\"Category\"].unique().tolist()\n",
+    "    num_classes = len(cats)\n",
+    "    class_to_index = {tag: i for i, tag in enumerate(cats)}\n",
+    "    index_to_class = {v: k for k, v in class_to_index.items()}\n",
+    "\n",
+    "    df[\"Text\"] = df[\"Text\"].apply(clean_text)  # clean text\n",
+    "    df = df[[\"Text\", \"Category\"]]\n",
+    "    df[\"Category\"] = df[\"Category\"].map(class_to_index)  # label encoding\n",
+    "    return df, class_to_index, index_to_class"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {
+    "id": "f45cNikCsswh",
+    "outputId": "880e338e-11a3-4048-ccf7-d30bf13e996b",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Text</th>\n",
+       "      <th>Category</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>chainlink link falters hedera hbar wobbles yet...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>funds punished owning nvidia shares stunning 2...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>crude oil prices stalled hedge funds sold kemp</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>grayscale bitcoin win still half battle</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>home shopping editor miss labor day deals eyeing</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>44142</th>\n",
+       "      <td>slovakia election could echo ukraine expect</td>\n",
+       "      <td>6</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>44143</th>\n",
+       "      <td>things know nobel prizes washington post</td>\n",
+       "      <td>6</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>44144</th>\n",
+       "      <td>brief calm protests killing 2 students rock im...</td>\n",
+       "      <td>6</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>44145</th>\n",
+       "      <td>one safe france vows action bedbugs sweep paris</td>\n",
+       "      <td>6</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>44146</th>\n",
+       "      <td>slovakia election polls open knife edge vote u...</td>\n",
+       "      <td>6</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>44147 rows × 2 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                    Text  Category\n",
+       "0      chainlink link falters hedera hbar wobbles yet...         0\n",
+       "1      funds punished owning nvidia shares stunning 2...         0\n",
+       "2         crude oil prices stalled hedge funds sold kemp         0\n",
+       "3                grayscale bitcoin win still half battle         0\n",
+       "4       home shopping editor miss labor day deals eyeing         0\n",
+       "...                                                  ...       ...\n",
+       "44142       slovakia election could echo ukraine expect          6\n",
+       "44143           things know nobel prizes washington post         6\n",
+       "44144  brief calm protests killing 2 students rock im...         6\n",
+       "44145    one safe france vows action bedbugs sweep paris         6\n",
+       "44146  slovakia election polls open knife edge vote u...         6\n",
+       "\n",
+       "[44147 rows x 2 columns]"
+      ]
+     },
+     "execution_count": 17,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "ds, class_to_index, index_to_class = preprocess(df)\n",
+    "ds"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "index_to_class"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {
+    "id": "zGlMz2UJsswi",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# Data splits\n",
+    "train_ds, val_ds = train_test_split(ds, test_size=Cfg.test_size, stratify=ds[\"Category\"])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {
+    "id": "zTeAsruMsswi",
+    "outputId": "bffed91d-04c6-490e-d682-03537d3182dd",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'input_ids': tensor([    0,   462, 25744,  7188,   155,    23,   462, 11485,   112,     2,\n",
+       "            1,     1,     1,     1,     1,     1,     1,     1,     1,     1,\n",
+       "            1,     1,     1,     1,     1,     1,     1,     1,     1,     1,\n",
+       "            1,     1,     1,     1,     1,     1,     1,     1,     1,     1,\n",
+       "            1,     1,     1,     1,     1,     1,     1,     1,     1,     1]), 'attention_mask': tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
+       "        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
+       "        0, 0])}"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "def prepare_input(tokenizer: RobertaTokenizer, text: str) -> Dict:\n",
+    "    \"\"\"Tokenize and prepare the input text using the provided tokenizer.\n",
+    "\n",
+    "    Args:\n",
+    "        tokenizer (RobertaTokenizer): The Roberta tokenizer to encode the input.\n",
+    "        text (str): The input text to be tokenized.\n",
+    "\n",
+    "    Returns:\n",
+    "        inputs (dict): A dictionary containing the tokenized input with keys such as 'input_ids',\n",
+    "            'attention_mask', etc.\n",
+    "    \"\"\"\n",
+    "    inputs = tokenizer.encode_plus(\n",
+    "        text,\n",
+    "        return_tensors=None,\n",
+    "        add_special_tokens=Cfg.add_special_tokens,\n",
+    "        max_length=Cfg.max_len,\n",
+    "        pad_to_max_length=Cfg.pad_to_max_length,\n",
+    "        truncation=Cfg.truncation,\n",
+    "    )\n",
+    "    for k, v in inputs.items():\n",
+    "        inputs[k] = torch.tensor(v, dtype=torch.long)\n",
+    "    return inputs\n",
+    "\n",
+    "\n",
+    "class NewsDataset(Dataset):\n",
+    "    def __init__(self, ds):\n",
+    "        self.texts = ds[\"Text\"].values\n",
+    "        self.labels = ds[\"Category\"].values\n",
+    "\n",
+    "    def __len__(self):\n",
+    "        return len(self.texts)\n",
+    "\n",
+    "    def __getitem__(self, item):\n",
+    "        inputs = prepare_input(tokenizer, self.texts[item])\n",
+    "        labels = torch.tensor(self.labels[item], dtype=torch.float)\n",
+    "        return inputs, labels\n",
+    "\n",
+    "\n",
+    "def collate(inputs: Dict) -> Dict:\n",
+    "    \"\"\"Collate and modify the input dictionary to have the same sequence length for a particular input batch.\n",
+    "\n",
+    "    Args:\n",
+    "        inputs (dict): A dictionary containing input tensors with varying sequence lengths.\n",
+    "\n",
+    "    Returns:\n",
+    "        modified_inputs (dict): A modified dictionary with input tensors trimmed to have the same sequence length.\n",
+    "    \"\"\"\n",
+    "    max_len = int(inputs[\"input_ids\"].sum(axis=1).max())\n",
+    "    for k, v in inputs.items():\n",
+    "        inputs[k] = inputs[k][:, :max_len]\n",
+    "    return inputs\n",
+    "\n",
+    "\n",
+    "tokenizer = RobertaTokenizer.from_pretrained(\"roberta-base\")\n",
+    "\n",
+    "sample_input = prepare_input(tokenizer, train_ds[\"Text\"].values[10])\n",
+    "sample_input"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "-qp-4d-aN503"
+   },
+   "source": [
+    "## Model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {
+    "id": "XIJ6ARJfsswj",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "class CustomModel(nn.Module):\n",
+    "    def __init__(self, num_classes, change_config=False, dropout_pb=0.0):\n",
+    "        super(CustomModel, self).__init__()\n",
+    "        if change_config:\n",
+    "            pass\n",
+    "        self.model = RobertaModel.from_pretrained(\"roberta-base\")\n",
+    "        self.hidden_size = self.model.config.hidden_size\n",
+    "        self.num_classes = num_classes\n",
+    "        self.dropout_pb = dropout_pb\n",
+    "        self.dropout = torch.nn.Dropout(self.dropout_pb)\n",
+    "        self.fc = nn.Linear(self.hidden_size, self.num_classes)\n",
+    "\n",
+    "    def forward(self, inputs):\n",
+    "        output = self.model(**inputs)\n",
+    "        z = self.dropout(output[1])\n",
+    "        z = self.fc(z)\n",
+    "        return z\n",
+    "\n",
+    "    @torch.inference_mode()\n",
+    "    def predict(self, inputs):\n",
+    "        self.eval()\n",
+    "        z = self(inputs)\n",
+    "        y_pred = torch.argmax(z, dim=1).cpu().numpy()\n",
+    "        return y_pred\n",
+    "\n",
+    "    @torch.inference_mode()\n",
+    "    def predict_proba(self, inputs):\n",
+    "        self.eval()\n",
+    "        z = self(inputs)\n",
+    "        y_probs = F.softmax(z, dim=1).cpu().numpy()\n",
+    "        return y_probs\n",
+    "\n",
+    "    def save(self, dp):\n",
+    "        with open(Path(dp, \"args.json\"), \"w\") as fp:\n",
+    "            contents = {\n",
+    "                \"dropout_pb\": self.dropout_pb,\n",
+    "                \"hidden_size\": self.hidden_size,\n",
+    "                \"num_classes\": self.num_classes,\n",
+    "            }\n",
+    "            json.dump(contents, fp, indent=4, sort_keys=False)\n",
+    "        torch.save(self.state_dict(), os.path.join(dp, \"model.pt\"))\n",
+    "\n",
+    "    @classmethod\n",
+    "    def load(cls, args_fp, state_dict_fp):\n",
+    "        with open(args_fp, \"r\") as fp:\n",
+    "            kwargs = json.load(fp=fp)\n",
+    "        llm = RobertaModel.from_pretrained(\"roberta-base\")\n",
+    "        model = cls(llm=llm, **kwargs)\n",
+    "        model.load_state_dict(torch.load(state_dict_fp, map_location=torch.device(\"cpu\")))\n",
+    "        return model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "YZEM0lIlsswj",
+    "outputId": "c05d70cf-e75d-4514-b730-3070484ceee3",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# Initialize model check\n",
+    "num_classes = len(ds[\"Category\"].unique())\n",
+    "model = CustomModel(num_classes=num_classes, dropout_pb=Cfg.dropout_pb)\n",
+    "print(model.named_parameters)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "ztUd4m9CN8qM"
+   },
+   "source": [
+    "## Training"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "a3VPiwjqsswk",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def train_step(train_loader: DataLoader, model, num_classes: int, loss_fn, optimizer, epoch: int) -> float:\n",
+    "    \"\"\"Train step.\"\"\"\n",
+    "    model.train()\n",
+    "    loss = 0.0\n",
+    "    total_iterations = len(train_loader)\n",
+    "    desc = f\"Training - Epoch {epoch+1}\"\n",
+    "    for step, (inputs, labels) in tqdm(enumerate(train_loader), total=total_iterations, desc=desc):\n",
+    "        inputs = collate(inputs)\n",
+    "        for k, v in inputs.items():\n",
+    "            inputs[k] = v.to(device)\n",
+    "        labels = labels.to(device)\n",
+    "        optimizer.zero_grad()  # reset gradients\n",
+    "        y_pred = model(inputs)  # forward pass\n",
+    "        targets = F.one_hot(labels.long(), num_classes=num_classes).float()  # one-hot (for loss_fn)\n",
+    "        J = loss_fn(y_pred, targets)  # define loss\n",
+    "        J.backward()  # backward pass\n",
+    "        optimizer.step()  # update weights\n",
+    "        loss += (J.detach().item() - loss) / (step + 1)  # cumulative loss\n",
+    "    return loss\n",
+    "\n",
+    "\n",
+    "def eval_step(val_loader: DataLoader, model, num_classes: int, loss_fn, epoch: int) -> Tuple[float, np.ndarray, np.ndarray]:\n",
+    "    \"\"\"Eval step.\"\"\"\n",
+    "    model.eval()\n",
+    "    loss = 0.0\n",
+    "    total_iterations = len(val_loader)\n",
+    "    desc = f\"Validation - Epoch {epoch+1}\"\n",
+    "    y_trues, y_preds = [], []\n",
+    "    with torch.inference_mode():\n",
+    "        for step, (inputs, labels) in tqdm(enumerate(val_loader), total=total_iterations, desc=desc):\n",
+    "            inputs = collate(inputs)\n",
+    "            for k, v in inputs.items():\n",
+    "                inputs[k] = v.to(device)\n",
+    "            labels = labels.to(device)\n",
+    "            y_pred = model(inputs)\n",
+    "            targets = F.one_hot(labels.long(), num_classes=num_classes).float()  # one-hot (for loss_fn)\n",
+    "            J = loss_fn(y_pred, targets).item()\n",
+    "            loss += (J - loss) / (step + 1)\n",
+    "            y_trues.extend(targets.cpu().numpy())\n",
+    "            y_preds.extend(torch.argmax(y_pred, dim=1).cpu().numpy())\n",
+    "    return loss, np.vstack(y_trues), np.vstack(y_preds)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Sweep config"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "sweep_config = {\"method\": \"random\"}\n",
+    "\n",
+    "metric = {\"name\": \"val_loss\", \"goal\": \"minimize\"}\n",
+    "\n",
+    "sweep_config[\"metric\"] = metric\n",
+    "\n",
+    "parameters_dict = {\n",
+    "    \"dropout_pb\": {\n",
+    "        \"values\": [0.3, 0.4, 0.5],\n",
+    "    },\n",
+    "    \"learning_rate\": {\n",
+    "        \"values\": [0.0001, 0.001, 0.01],\n",
+    "    },\n",
+    "    \"batch_size\": {\n",
+    "        \"values\": [32, 64, 128],\n",
+    "    },\n",
+    "    \"lr_reduce_factor\": {\n",
+    "        \"values\": [0.5, 0.6, 0.7, 0.8],\n",
+    "    },\n",
+    "    \"lr_reduce_patience\": {\n",
+    "        \"values\": [2, 3, 4, 5],\n",
+    "    },\n",
+    "    \"epochs\": {\"value\": 1},\n",
+    "}\n",
+    "\n",
+    "sweep_config[\"parameters\"] = parameters_dict"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# create sweep\n",
+    "if Cfg.wandb_sweep:\n",
+    "    sweep_id = wandb.sweep(sweep_config, project=\"NewsClassifier\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "oG-4tz-Lsswk",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def train_loop(config=None):\n",
+    "    # ====================================================\n",
+    "    # loader\n",
+    "    # ====================================================\n",
+    "\n",
+    "    if not Cfg.wandb_sweep:\n",
+    "        config = dict(\n",
+    "            batch_size=Cfg.batch_size,\n",
+    "            num_classes=7,\n",
+    "            epochs=Cfg.epochs,\n",
+    "            dropout_pb=Cfg.dropout_pb,\n",
+    "            learning_rate=Cfg.lr,\n",
+    "            lr_reduce_factor=Cfg.lr_redfactor,\n",
+    "            lr_reduce_patience=Cfg.lr_redpatience,\n",
+    "        )\n",
+    "\n",
+    "    with wandb.init(project=\"NewsClassifier\", config=config):\n",
+    "        config = wandb.config\n",
+    "\n",
+    "        train_ds, val_ds = train_test_split(ds, test_size=Cfg.test_size, stratify=ds[\"Category\"])\n",
+    "\n",
+    "        train_dataset = NewsDataset(train_ds)\n",
+    "        valid_dataset = NewsDataset(val_ds)\n",
+    "\n",
+    "        train_loader = DataLoader(train_dataset, batch_size=config.batch_size, shuffle=True, num_workers=4, pin_memory=True, drop_last=True)\n",
+    "        valid_loader = DataLoader(valid_dataset, batch_size=config.batch_size, shuffle=False, num_workers=4, pin_memory=True, drop_last=False)\n",
+    "\n",
+    "        # ====================================================\n",
+    "        # model\n",
+    "        # ====================================================\n",
+    "        num_classes = 7\n",
+    "        device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+    "\n",
+    "        model = CustomModel(num_classes=num_classes, dropout_pb=config.dropout_pb)\n",
+    "        model.to(device)\n",
+    "\n",
+    "        # ====================================================\n",
+    "        # Training components\n",
+    "        # ====================================================\n",
+    "        criterion = nn.BCEWithLogitsLoss()\n",
+    "        optimizer = torch.optim.Adam(model.parameters(), lr=config.learning_rate)\n",
+    "        scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(\n",
+    "            optimizer, mode=\"min\", factor=config.lr_reduce_factor, patience=config.lr_reduce_patience\n",
+    "        )\n",
+    "\n",
+    "        # ====================================================\n",
+    "        # loop\n",
+    "        # ====================================================\n",
+    "        wandb.watch(model, criterion, log=\"all\", log_freq=10)\n",
+    "\n",
+    "        min_loss = np.inf\n",
+    "\n",
+    "        for epoch in range(config.epochs):\n",
+    "            start_time = time.time()\n",
+    "\n",
+    "            # Step\n",
+    "            train_loss = train_step(train_loader, model, num_classes, criterion, optimizer, epoch)\n",
+    "            val_loss, _, _ = eval_step(valid_loader, model, num_classes, criterion, epoch)\n",
+    "            scheduler.step(val_loss)\n",
+    "\n",
+    "            # scoring\n",
+    "            elapsed = time.time() - start_time\n",
+    "            wandb.log({\"epoch\": epoch + 1, \"train_loss\": train_loss, \"val_loss\": val_loss})\n",
+    "            print(f\"Epoch {epoch+1} - avg_train_loss: {train_loss:.4f}  avg_val_loss: {val_loss:.4f}  time: {elapsed:.0f}s\")\n",
+    "\n",
+    "            if min_loss > val_loss:\n",
+    "                min_loss = val_loss\n",
+    "                print(\"Best Score : saving model.\")\n",
+    "                os.makedirs(\"../artifacts\", exist_ok=True)\n",
+    "                model.save(\"../artifacts\")\n",
+    "            print(f\"\\nSaved Best Model Score: {min_loss:.4f}\\n\\n\")\n",
+    "\n",
+    "        wandb.save(\"../artifacts/model.pt\")\n",
+    "        torch.cuda.empty_cache()\n",
+    "        gc.collect()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "tIBl_kvssswk",
+    "outputId": "4bff057f-a3a7-45ca-f3c2-5b5fbd15bab5",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# Train/Tune\n",
+    "if not Cfg.wandb_sweep:\n",
+    "    train_loop()\n",
+    "else:\n",
+    "    wandb.agent(sweep_id, train_loop, count=10)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "qxXv-FaNNtKJ"
+   },
+   "source": [
+    "## Inference"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 34,
+   "metadata": {
+    "id": "SHCGJBhABesw",
+    "outputId": "a62f9ff6-d47d-46d0-f971-cfeb76adc6d5",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Some weights of RobertaModel were not initialized from the model checkpoint at roberta-base and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']\n",
+      "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "CustomModel(\n",
+       "  (model): RobertaModel(\n",
+       "    (embeddings): RobertaEmbeddings(\n",
+       "      (word_embeddings): Embedding(50265, 768, padding_idx=1)\n",
+       "      (position_embeddings): Embedding(514, 768, padding_idx=1)\n",
+       "      (token_type_embeddings): Embedding(1, 768)\n",
+       "      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
+       "      (dropout): Dropout(p=0.1, inplace=False)\n",
+       "    )\n",
+       "    (encoder): RobertaEncoder(\n",
+       "      (layer): ModuleList(\n",
+       "        (0-11): 12 x RobertaLayer(\n",
+       "          (attention): RobertaAttention(\n",
+       "            (self): RobertaSelfAttention(\n",
+       "              (query): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (key): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (value): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (dropout): Dropout(p=0.1, inplace=False)\n",
+       "            )\n",
+       "            (output): RobertaSelfOutput(\n",
+       "              (dense): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
+       "              (dropout): Dropout(p=0.1, inplace=False)\n",
+       "            )\n",
+       "          )\n",
+       "          (intermediate): RobertaIntermediate(\n",
+       "            (dense): Linear(in_features=768, out_features=3072, bias=True)\n",
+       "            (intermediate_act_fn): GELUActivation()\n",
+       "          )\n",
+       "          (output): RobertaOutput(\n",
+       "            (dense): Linear(in_features=3072, out_features=768, bias=True)\n",
+       "            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
+       "            (dropout): Dropout(p=0.1, inplace=False)\n",
+       "          )\n",
+       "        )\n",
+       "      )\n",
+       "    )\n",
+       "    (pooler): RobertaPooler(\n",
+       "      (dense): Linear(in_features=768, out_features=768, bias=True)\n",
+       "      (activation): Tanh()\n",
+       "    )\n",
+       "  )\n",
+       "  (dropout): Dropout(p=0.0, inplace=False)\n",
+       "  (fc): Linear(in_features=768, out_features=7, bias=True)\n",
+       ")"
+      ]
+     },
+     "execution_count": 34,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model = CustomModel(num_classes=7)\n",
+    "model.load_state_dict(torch.load(\"../artifacts/model.pt\", map_location=torch.device(\"cpu\")))\n",
+    "model.to(device)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "BjupBkbOCI22",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "def test_step(test_loader: DataLoader, model, num_classes: int) -> Tuple[np.ndarray, np.ndarray]:\n",
+    "    \"\"\"Eval step.\"\"\"\n",
+    "    model.eval()\n",
+    "    y_trues, y_preds = [], []\n",
+    "    with torch.inference_mode():\n",
+    "        for step, (inputs, labels) in tqdm(enumerate(test_loader)):\n",
+    "            inputs = collate(inputs)\n",
+    "            for k, v in inputs.items():\n",
+    "                inputs[k] = v.to(device)\n",
+    "            labels = labels.to(device)\n",
+    "            y_pred = model(inputs)\n",
+    "            y_trues.extend(labels.cpu().numpy())\n",
+    "            y_preds.extend(torch.argmax(y_pred, dim=1).cpu().numpy())\n",
+    "    return np.vstack(y_trues), np.vstack(y_preds)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "QimlSstFDsbJ",
+    "outputId": "8c903f7f-eddd-417c-c85e-4d57a4206501",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "test_dataset = NewsDataset(val_ds)\n",
+    "test_loader = DataLoader(test_dataset, batch_size=Cfg.batch_size, shuffle=False, num_workers=4, pin_memory=True, drop_last=False)\n",
+    "\n",
+    "y_true, y_pred = test_step(test_loader, model, 7)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "CLz_GuoeEEgz",
+    "outputId": "8870b27c-46a6-4695-e526-e5c1e778f96a",
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "print(\n",
+    "    f'Precision: {precision_score(y_true, y_pred, average=\"weighted\")} \\n Recall: {recall_score(y_true, y_pred, average=\"weighted\")} \\n F1: {f1_score(y_true, y_pred, average=\"weighted\")} \\n Accuracy: {accuracy_score(y_true, y_pred)}'\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "j_D8B0aNOBiI"
+   },
+   "source": [
+    "## Prediction on single sample"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "val_ds"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 36,
+   "metadata": {
+    "id": "-wU3xnKkH0Tt",
+    "outputId": "171245e5-4844-4e71-82b7-a0f3e97879e7",
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Ground Truth: 5, Sports\n",
+      "Predicted: 5, Sports\n",
+      "Predicted Probabilities: [9.8119999e-05 1.0613000e-04 7.7200002e-06 3.2520002e-05 8.3100003e-06\n",
+      " 9.9973667e-01 1.0560000e-05]\n"
+     ]
+    }
+   ],
+   "source": [
+    "sample = 2\n",
+    "sample_input = prepare_input(tokenizer, val_ds[\"Text\"].values[sample])\n",
+    "\n",
+    "cats = df[\"Category\"].unique().tolist()\n",
+    "num_classes = len(cats)\n",
+    "class_to_index = {tag: i for i, tag in enumerate(cats)}\n",
+    "index_to_class = {v: k for k, v in class_to_index.items()}\n",
+    "\n",
+    "label = val_ds[\"Category\"].values[sample]\n",
+    "input_ids = torch.unsqueeze(sample_input[\"input_ids\"], 0).to(device)\n",
+    "attention_masks = torch.unsqueeze(sample_input[\"attention_mask\"], 0).to(device)\n",
+    "test_sample = dict(input_ids=input_ids, attention_mask=attention_masks)\n",
+    "\n",
+    "with torch.no_grad():\n",
+    "    y_pred_test_sample = model.predict_proba(test_sample)\n",
+    "    print(f\"Ground Truth: {label}, {index_to_class[int(label)]}\")\n",
+    "    print(f\"Predicted: {np.argmax(y_pred_test_sample)}, {index_to_class[int(np.argmax(y_pred_test_sample))]}\")\n",
+    "    print(f\"Predicted Probabilities: {np.round(y_pred_test_sample, 8)[0]}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.13"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,34 @@

+aiosignal==1.3.1
+attrs==23.1.0
+certifi==2023.7.22
+charset-normalizer==3.3.1
+click==8.1.7
+colorama==0.4.6
+contourpy==1.1.1
+cycler==0.12.1
+filelock==3.12.4
+fonttools==4.43.1
+frozenlist==1.4.0
+idna==3.4
+jsonschema==4.19.1
+jsonschema-specifications==2023.7.1
+kiwisolver==1.4.5
+matplotlib==3.8.0
+msgpack==1.0.7
+numpy==1.26.1
+packaging==23.2
+pandas==2.1.2
+Pillow==10.1.0
+protobuf==4.24.4
+pyparsing==3.1.1
+python-dateutil==2.8.2
+pytz==2023.3.post1
+PyYAML==6.0.1
+ray==2.7.1
+referencing==0.30.2
+requests==2.31.0
+rpds-py==0.10.6
+seaborn==0.13.0
+six==1.16.0
+tzdata==2023.3
+urllib3==2.0.7

setup.py ADDED Viewed

	@@ -0,0 +1,23 @@

+from typing import List
+from setuptools import find_packages, setup
+def get_requirements(file_path: str) -> List[str]:
+    """Get the requirements/dependencies (packages) in a list."""
+    with open(file_path) as f:
+        lines = f.readlines()
+        requirements = [line.rstrip("\n") for line in lines]
+        return requirements
+setup(
+    name="NewsClassifier",
+    version="1.0",
+    author="ManishW",
+    author_email="[email protected]",
+    description="",
+    packages=find_packages(),
+    install_requires=get_requirements("requirements.txt"),
+)