First version of the your-model-name model and tokenizer.

Browse files

Files changed (4) hide show

__pycache__/preprocess.cpython-37.pyc +0 -0
main.py +37 -36
preprocess.py +71 -1
pytorch_model.bin +1 -1

__pycache__/preprocess.cpython-37.pyc CHANGED Viewed

Binary files a/__pycache__/preprocess.cpython-37.pyc and b/__pycache__/preprocess.cpython-37.pyc differ

main.py CHANGED Viewed

@@ -6,55 +6,56 @@ import torch
 import subprocess
 data = Model()
-train_contexts, train_questions, train_answers = data.ArrangeData("livecheckcontainer")
-val_contexts, val_questions, val_answers = data.ArrangeData("livecheckcontainer")
-print(train_answers)
-train_answers, train_contexts = data.add_end_idx(train_answers, train_contexts)
-val_answers, val_contexts = data.add_end_idx(val_answers, val_contexts)
-train_encodings, val_encodings = data.Tokenizer(train_contexts, train_questions, val_contexts, val_questions)
-train_encodings  = data.add_token_positions(train_encodings, train_answers)
-val_encodings = data.add_token_positions(val_encodings, val_answers)
-train_dataset = SquadDataset(train_encodings)
-val_dataset = SquadDataset(val_encodings)
-model = DistilBertForQuestionAnswering.from_pretrained("distilbert-base-uncased")
-device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
-model.to(device)
-model.train()
-train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
-optim = AdamW(model.parameters(), lr=5e-5)
-for epoch in range(2):
-    print(epoch)
-    for batch in train_loader:
-        optim.zero_grad()
-        input_ids = batch['input_ids'].to(device)
-        attention_mask = batch['attention_mask'].to(device)
-        start_positions = batch['start_positions'].to(device)
-        end_positions = batch['end_positions'].to(device)
-        outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions, end_positions=end_positions)
-        loss = outputs[0]
-        loss.backward()
-        optim.step()
-print("Done")
-model.eval()
-model.save_pretrained("./")
-data.tokenizer.save_pretrained("./")
-subprocess.call(["git", "add","--all"])
-subprocess.call(["git", "status"])
-subprocess.call(["git", "commit", "-m", "First version of the your-model-name model and tokenizer."])
-subprocess.call(["git", "push"])

 import subprocess
 data = Model()
+data.ModelExecution()
+# train_contexts, train_questions, train_answers = data.ArrangeData("livecheckcontainer")
+# val_contexts, val_questions, val_answers = data.ArrangeData("livecheckcontainer")
+# print(train_answers)
+# train_answers, train_contexts = data.add_end_idx(train_answers, train_contexts)
+# val_answers, val_contexts = data.add_end_idx(val_answers, val_contexts)
+# train_encodings, val_encodings = data.Tokenizer(train_contexts, train_questions, val_contexts, val_questions)
+# train_encodings  = data.add_token_positions(train_encodings, train_answers)
+# val_encodings = data.add_token_positions(val_encodings, val_answers)
+# train_dataset = SquadDataset(train_encodings)
+# val_dataset = SquadDataset(val_encodings)
+# model = DistilBertForQuestionAnswering.from_pretrained("distilbert-base-uncased")
+# device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
+# model.to(device)
+# model.train()
+# train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
+# optim = AdamW(model.parameters(), lr=5e-5)
+# for epoch in range(2):
+#     print(epoch)
+#     for batch in train_loader:
+#         optim.zero_grad()
+#         input_ids = batch['input_ids'].to(device)
+#         attention_mask = batch['attention_mask'].to(device)
+#         start_positions = batch['start_positions'].to(device)
+#         end_positions = batch['end_positions'].to(device)
+#         outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions, end_positions=end_positions)
+#         loss = outputs[0]
+#         loss.backward()
+#         optim.step()
+# print("Done")
+# model.eval()
+# model.save_pretrained("./")
+# data.tokenizer.save_pretrained("./")
+# subprocess.call(["git", "add","--all"])
+# subprocess.call(["git", "status"])
+# subprocess.call(["git", "commit", "-m", "First version of the your-model-name model and tokenizer."])
+# subprocess.call(["git", "push"])

preprocess.py CHANGED Viewed

@@ -4,7 +4,9 @@ from pathlib import Path
 from azure.cosmos import CosmosClient, PartitionKey, exceptions
 from transformers import DistilBertTokenizerFast
 import torch
 class Model:
@@ -80,6 +82,55 @@ class Model:
     # train_contexts, train_questions, train_answers = read_squad('squad/train-v2.0.json')
     # val_contexts, val_questions, val_answers = read_squad('squad/dev-v2.0.json')
@@ -94,3 +145,22 @@ class SquadDataset(torch.utils.data.Dataset):
     def __len__(self):
         return len(self.encodings.input_ids)

 from azure.cosmos import CosmosClient, PartitionKey, exceptions
 from transformers import DistilBertTokenizerFast
 import torch
+from transformers import DistilBertForQuestionAnswering, AdamW
+from torch.utils.data import DataLoader
+import subprocess
 class Model:
     # train_contexts, train_questions, train_answers = read_squad('squad/train-v2.0.json')
     # val_contexts, val_questions, val_answers = read_squad('squad/dev-v2.0.json')
+    def ModelExecution(self):
+        train_contexts, train_questions, train_answers = self.ArrangeData("livecheckcontainer")
+        val_contexts, val_questions, val_answers = self.ArrangeData("livecheckcontainer")
+        print(train_answers)
+        train_answers, train_contexts = self.add_end_idx(train_answers, train_contexts)
+        val_answers, val_contexts = self.add_end_idx(val_answers, val_contexts)
+        train_encodings, val_encodings = self.Tokenizer(train_contexts, train_questions, val_contexts, val_questions)
+        train_encodings  = self.add_token_positions(train_encodings, train_answers)
+        val_encodings = self.add_token_positions(val_encodings, val_answers)
+        train_dataset = SquadDataset(train_encodings)
+        val_dataset = SquadDataset(val_encodings)
+        model = DistilBertForQuestionAnswering.from_pretrained("distilbert-base-uncased")
+        device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
+        model.to(device)
+        model.train()
+        train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
+        optim = AdamW(model.parameters(), lr=5e-5)
+        for epoch in range(2):
+            print(epoch)
+            for batch in train_loader:
+                optim.zero_grad()
+                input_ids = batch['input_ids'].to(device)
+                attention_mask = batch['attention_mask'].to(device)
+                start_positions = batch['start_positions'].to(device)
+                end_positions = batch['end_positions'].to(device)
+                outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions, end_positions=end_positions)
+                loss = outputs[0]
+                loss.backward()
+                optim.step()
+        print("Done")
+        model.eval()
+        model.save_pretrained("./")
+        self.tokenizer.save_pretrained("./")
+        subprocess.call(["git", "add","--all"])
+        subprocess.call(["git", "status"])
+        subprocess.call(["git", "commit", "-m", "First version of the your-model-name model and tokenizer."])
+        subprocess.call(["git", "push"])
     def __len__(self):
         return len(self.encodings.input_ids)
+# import requests
+# API_URL = "https://api-inference.huggingface.co/models/Ateeb/QA"
+# headers = {"Authorization": "Bearer api_DHnvjPKdjmjkmEYQubgvmIKJqWaNNYljaF"}
+# def query(payload):
+# 	data = json.dumps(payload)
+# 	response = requests.request("POST", API_URL, headers=headers, data=data)
+# 	return json.loads(response.content.decode("utf-8"))
+# data = query(
+#     {
+#         "inputs": {
+#             "question": "What is my name?",
+#             "context": "My name is Clara and I live in Berkeley.",
+#         }
+#     }
+# )
+# print(data)

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0312fd8f3cd55009ac7804e8c649c21663e3de8834cc805a21259a15d8dd3917
 size 265498527

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e93e749fc2915653de7b297c5bae0125876890474e01ad3fd9c196680bd2fa3
 size 265498527