Spaces:

dwb2023
/

hf_extractor

Running on Zero

dwb2023 commited on May 31, 2024

Commit

e33200c

verified ·

1 Parent(s): 1ca0012

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,11 @@ import subprocess
 import gradio as gr
 from magika import Magika
 def clone_repo(url, repo_dir):
     env = os.environ.copy()
     env['GIT_LFS_SKIP_SMUDGE'] = '1'
@@ -41,13 +46,16 @@ def validate_file_types(directory):
     return file_types
 def extract_repo_content(url):
     repo_dir = "./temp_repo"
     if os.path.exists(repo_dir):
         subprocess.run(["rm", "-rf", repo_dir])
     success, error = clone_repo(url, repo_dir)
     if not success:
-        return [{"header": {"name": "Error", "type": "error", "size": 0}, "content": error}]
     file_types = validate_file_types(repo_dir)
     extracted_content = []
@@ -55,7 +63,7 @@ def extract_repo_content(url):
         file_summary = get_file_summary(file_path, file_type)
         content = {"header": file_summary}
-        if file_type in ["txt", "python", "markdown", "yaml", "json", "csv", "tsv", "xml", "html"] and file_summary["size"] <= 1024 * 1024:
             try:
                 content["content"] = read_file_content(file_path)
             except Exception as e:
@@ -65,6 +73,9 @@ def extract_repo_content(url):
         extracted_content.append(content)
     return extracted_content
 def format_output(extracted_content):

 import gradio as gr
 from magika import Magika
+SUPPORTED_FILE_TYPES = ["txt", "python", "markdown", "yaml", "json", "csv", "tsv", "xml", "html"]
+def validate_url(url):
+    return url.startswith('https://')
 def clone_repo(url, repo_dir):
     env = os.environ.copy()
     env['GIT_LFS_SKIP_SMUDGE'] = '1'
     return file_types
 def extract_repo_content(url):
+    if not validate_url(url):
+        return [{"header": {"name": "Error", "type": "error", "size": 0}, "content": "Invalid URL"}]
     repo_dir = "./temp_repo"
     if os.path.exists(repo_dir):
         subprocess.run(["rm", "-rf", repo_dir])
     success, error = clone_repo(url, repo_dir)
     if not success:
+        return [{"header": {"name": "Error", "type": "error", "size": 0}, "content": f"Failed to clone repository: {error}"}]
     file_types = validate_file_types(repo_dir)
     extracted_content = []
         file_summary = get_file_summary(file_path, file_type)
         content = {"header": file_summary}
+        if file_type in SUPPORTED_FILE_TYPES and file_summary["size"] <= 1024 * 1024:
             try:
                 content["content"] = read_file_content(file_path)
             except Exception as e:
         extracted_content.append(content)
+    # Cleanup temporary directory
+    subprocess.run(["rm", "-rf", repo_dir])
     return extracted_content
 def format_output(extracted_content):