Spaces:

idkash1
/

detect-edits-in-ai-generated-text

Sleeping

App Files Files Community

idkash1 commited on Mar 18

Commit

327ae61

verified ·

1 Parent(s): e135674

Update human_text_detect.py

Browse files

Files changed (1) hide show

human_text_detect.py +27 -0

human_text_detect.py CHANGED Viewed

@@ -11,6 +11,8 @@ from src.fit_survival_function import fit_per_length_survival_function
 from glob import glob
 import spacy
 import re
 logging.basicConfig(level=logging.INFO)
@@ -96,12 +98,37 @@ def detect_human_text(model_name, topic, text):
     min_tokens_per_sentence = 10
     max_tokens_per_sentence = 100
     # Init model
     print('Init model')
     lm_name = 'gpt2-xl' if model_name == 'GPT2XL' else 'microsoft/phi-2'
     cache_dir = "/cache/huggingface"
     tokenizer = AutoTokenizer.from_pretrained(lm_name, cache_dir=cache_dir)
     model = AutoModelForCausalLM.from_pretrained(lm_name, cache_dir=cache_dir)
     print('Init PerplexityEvaluator')
     sentence_detector = PerplexityEvaluator(model, tokenizer)

 from glob import glob
 import spacy
 import re
+import os
+from transformers.utils import logging
 logging.basicConfig(level=logging.INFO)
     min_tokens_per_sentence = 10
     max_tokens_per_sentence = 100
+    ####
+    cache_dir = "/cache/huggingface"
+    # Check if the directory exists and is writable
+    print(f"Cache directory exists: {os.path.exists(cache_dir)}")
+    print(f"Cache directory is writable: {os.access(cache_dir, os.W_OK)}")
+    # List contents of the directory
+    print("Contents of cache directory before loading model:")
+    os.system(f"ls -lah {cache_dir}")
+    ###
     # Init model
     print('Init model')
     lm_name = 'gpt2-xl' if model_name == 'GPT2XL' else 'microsoft/phi-2'
     cache_dir = "/cache/huggingface"
     tokenizer = AutoTokenizer.from_pretrained(lm_name, cache_dir=cache_dir)
     model = AutoModelForCausalLM.from_pretrained(lm_name, cache_dir=cache_dir)
+    ###
+    print("Contents of cache directory after loading model:")
+    os.system(f"ls -lah {cache_dir}")
+    logging.set_verbosity_info()
+    print(f"Current HF_HOME: {os.getenv('HF_HOME')}")
+    print(f"Current TRANSFORMERS_CACHE: {os.getenv('TRANSFORMERS_CACHE')}")
+    # Check where the tokenizer and model are actually downloaded
+    print(f"Tokenizer saved at: {tokenizer.save_pretrained(cache_dir)}")
+    print(f"Model saved at: {model.save_pretrained(cache_dir)}")
+    ###
     print('Init PerplexityEvaluator')
     sentence_detector = PerplexityEvaluator(model, tokenizer)