Introduction

These repository consist of EluetherAI/pythia-1b finetuned to Polish language on translated alpaca-dolly dataset. Main task is to perform accurate answers to instruction asked.

Below you can find an instruction of how to infer with that model.

Update: tokenizer added

Evaluation part



import pandas as pd
import torch
from torch.utils.data import AutTokenizer
from typing import List, Dict, Union
from typing import Any, TypeVar

import pandas as pd
import pickle 

MODEL_NAME: str = 'Lajonbot/pythia-1b-13000-steps-polish'
  
  
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCasualLM.from_pretrained(MODEL_NAME).cuda()
#Resize model  for tokenizer size 
n_tokens: int = len(tokenizer)
model.resize_token_embeddings(n_tokens)


def _generate_prompt(instruction, input=None):
    if input:
        return f"""Poniżej znajduje się instrukcja opisująca zadanie, połączona z danymi wejściowymi, które zapewniają dalszy konktekst. Napisz odpowiedź, która odpowiednio odpowie na pytanie.
### Instruction:
{instruction}
### Input:
{input}
### Response:"""

manual_instruction: str = "Napisz mi proszę jakie są rodzaje telefonów komórkowych"
manual_input: str = "Telefony komórkowe, w przeciwieństwie do np. satelitarnych, charakteryzuje to, że działają w obrębie naziemnych fal radiowych w technologii GSM (i w różnych jej wariantach: 3G, 4G czy niebawem 5G). Zasadniczo można jednak wyróżnić wiele ich rodzajów i podzielić je na różne kryteria. I tak, ze względu na rodzaj obudowy, można mówić o telefonach jednobryłowych, rozsuwanych, obrotowych czy też z klapką. Obecnie jednak najbardziej popularne i – ze względu na posiadane parametry – najlepsze telefony komórkowe to smartfony dotykowe."

print(f"Valueation for {manual_instruction} \n\n\n  {manual_input}\n\n")
evaluate(instruction = manual_instruction, 
         input = manual_input)  
Downloads last month
14
Safetensors
Model size
1.08B params
Tensor type
F32
·
U8
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train Lajonbot/pythia-1b-13000-steps-polish