neuralbioinfo
/

prokbert-mini-long

sequence embedding

genomic language models

promoter-prediction

Model card Files Files and versions Community

ligeti commited on 23 days ago

Commit

c2af699

·

verified ·

1 Parent(s): ab722a4

Update README.md

Files changed (1) hide show

README.md +10 -17

README.md CHANGED Viewed

@@ -23,24 +23,17 @@ ProkBERT-mini-long (also prokbert-mini-k6s2) is part of the ProkBERT family of g
 The following example demonstrates how to use the ProkBERT-mini-long model for processing a DNA sequence:
 ```python
-from transformers import MegatronBertForMaskedLM
-from prokbert.prokbert_tokenizer import ProkBERTTokenizer
-# Tokenization parameters
-tokenization_parameters = {
-    'kmer': 6,
-    'shift': 2
-}
-# Initialize the tokenizer and model
-tokenizer = ProkBERTTokenizer(tokenization_params=tokenization_parameters, operation_space='sequence')
-model = MegatronBertForMaskedLM.from_pretrained("neuralbioinfo/prokbert-mini-long")
-# Example DNA sequence
-sequence = 'ATGTCCGCGGGACCT'
-# Tokenize the sequence
-inputs = tokenizer(sequence, return_tensors="pt")
-# Ensure that inputs have a batch dimension
-inputs = {key: value.unsqueeze(0) for key, value in inputs.items()}
-# Generate outputs from the model
 outputs = model(**inputs)
 ```

 The following example demonstrates how to use the ProkBERT-mini-long model for processing a DNA sequence:
 ```python
+from transformers import AutoTokenizer, AutoModelForMaskedLM
+tokenizer = AutoTokenizer.from_pretrained("neuralbioinfo/prokbert-mini-long", trust_remote_code=True)
+model = AutoModel.from_pretrained("neuralbioinfo/prokbert-mini-long", trust_remote_code=True)
+segment = "ATGTCCGCGGGACCT"
+# Tokenize the input and return as PyTorch tensors
+inputs = tokenizer(segment, return_tensors="pt")
+# Pass the tokenized input to the model
 outputs = model(**inputs)
 ```