Spaces:

dwb2023
/

hf_extractor

Running on Zero

App Files Files Community

dwb2023 commited on May 31, 2024

Commit

0f701bd

verified ·

1 Parent(s): dc7c719

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -17

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import subprocess
 import gradio as gr
 def clone_repo(url, repo_dir):
     env = os.environ.copy()
@@ -23,6 +24,23 @@ def read_file_content(file_path):
     with open(file_path, "r", encoding="utf-8", errors="ignore") as file:
         return file.read()
 def extract_repo_content(url):
     repo_dir = "./temp_repo"
     if os.path.exists(repo_dir):
@@ -32,24 +50,21 @@ def extract_repo_content(url):
     if not success:
         return [{"header": {"name": "Error", "type": "error", "size": 0}, "content": error}]
     extracted_content = []
-    for root, _, files in os.walk(repo_dir):
-        if '.git' in root:
-            continue  # Skip the .git directory
-        for file in files:
-            file_path = os.path.join(root, file)
-            file_summary = get_file_summary(file_path)
-            content = {"header": file_summary}
-            if file_summary["type"] == "text" and file_summary["size"] <= 1024 * 1024:
-                try:
-                    content["content"] = read_file_content(file_path)
-                except Exception as e:
-                    content["content"] = f"Failed to read file content: {str(e)}"
-            else:
-                content["content"] = "File too large or binary, content not captured."
-            extracted_content.append(content)
     return extracted_content

 import os
 import subprocess
 import gradio as gr
+from magika import Magika
 def clone_repo(url, repo_dir):
     env = os.environ.copy()
     with open(file_path, "r", encoding="utf-8", errors="ignore") as file:
         return file.read()
+def validate_file_types(directory):
+    m = Magika()
+    file_types = {}
+    for root, _, files in os.walk(directory):
+        if '.git' in root:
+            continue
+        for file_name in files:
+            file_path = os.path.join(root, file_name)
+            try:
+                with open(file_path, 'rb') as file:
+                    file_bytes = file.read()
+                result = m.identify_bytes(file_bytes)
+                file_types[file_path] = result.output.ct_label
+            except Exception as e:
+                file_types[file_path] = f"Error: {str(e)}"
+    return file_types
 def extract_repo_content(url):
     repo_dir = "./temp_repo"
     if os.path.exists(repo_dir):
     if not success:
         return [{"header": {"name": "Error", "type": "error", "size": 0}, "content": error}]
+    file_types = validate_file_types(repo_dir)
     extracted_content = []
+    for file_path, file_type in file_types.items():
+        file_summary = get_file_summary(file_path)
+        content = {"header": file_summary}
+        if file_type.startswith("text") and file_summary["size"] <= 1024 * 1024:
+            try:
+                content["content"] = read_file_content(file_path)
+            except Exception as e:
+                content["content"] = f"Failed to read file content: {str(e)}"
+        else:
+            content["content"] = "File too large or binary, content not captured."
+        extracted_content.append(content)
     return extracted_content