Spaces:

broadfield-dev
/

repo_to_md

Running

App Files Files Community

broadfield-dev commited on Feb 25

Commit

d6d177a

verified ·

1 Parent(s): a8175e6

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -19

app.py CHANGED Viewed

@@ -25,15 +25,20 @@ def generate_file_tree(paths):
 def get_all_files(owner, repo, path="", is_hf=False):
     """Recursively fetch all files from a repository."""
     if is_hf:
-        api_url = f"https://huggingface.co/api/spaces/{owner}/{repo}/tree/main/{path}".rstrip('/')
     else:
         api_url = f"{GITHUB_API}{owner}/{repo}/contents/{path}".rstrip('/')
     try:
-        response = requests.get(api_url)
         response.raise_for_status()
         items = response.json()
         files = []
         for item in items:
             if item['type'] == 'file':
@@ -50,9 +55,15 @@ def get_repo_contents(url):
         if "huggingface.co" in url:
             parts = url.rstrip('/').split('/')
             owner, repo = parts[-2], parts[-1]
-            files = get_all_files(owner, repo, "", True)
-            if files is None:
-                raise Exception("Failed to fetch Hugging Face Space contents")
             return owner, repo, files, True
         else:  # Assume GitHub URL
             parts = url.rstrip('/').split('/')
@@ -71,7 +82,7 @@ def process_file_content(file_info, owner, repo, is_hf=False):
     try:
         if is_hf:
-            file_url = f"https://huggingface.co/spaces/{owner}/{repo}/resolve/main/{file_path}"
         else:
             file_url = f"{GITHUB_API}{owner}/{repo}/contents/{file_path}"
@@ -200,31 +211,36 @@ def index():
 @app.route('/process', methods=['POST'])
 def process():
     if 'files[]' in request.files:
         files = request.files.getlist('files[]')
         if not files:
-            return jsonify({'error': 'No files uploaded'}), 400
         markdown_content = create_markdown_document(files=files)
-        html_content = markdown.markdown(markdown_content)
-        filename = "uploaded_files_summary.md"
     else:
         repo_url = request.json.get('repo_url')
         if not repo_url:
-            return jsonify({'error': 'Please provide a repository URL or upload files'}), 400
         markdown_content = create_markdown_document(repo_url)
-        html_content = markdown.markdown(markdown_content)
-        owner, repo, _, is_hf = get_repo_contents(repo_url)
         if not owner:
-            return jsonify({'error': markdown_content}), 400
-        filename = f"{owner}_{repo}_summary.md"
-    return jsonify({
-        'markdown': markdown_content,
-        'html': html_content,
-        'filename': filename
-    })
 @app.route('/download', methods=['POST'])
 def download():

 def get_all_files(owner, repo, path="", is_hf=False):
     """Recursively fetch all files from a repository."""
     if is_hf:
+        # Attempt to fetch file list from Hugging Face Space (publicly accessible files)
+        api_url = f"https://huggingface.co/spaces/{owner}/{repo}/tree/main/{path}".rstrip('/')
     else:
         api_url = f"{GITHUB_API}{owner}/{repo}/contents/{path}".rstrip('/')
     try:
+        response = requests.get(api_url, headers={"Accept": "application/json"})
         response.raise_for_status()
         items = response.json()
+        # Hugging Face might not return JSON in the same format; adjust if HTML is returned
+        if isinstance(items, str):  # If response isn’t JSON, it’s likely HTML
+            return None  # Fallback to error handling
         files = []
         for item in items:
             if item['type'] == 'file':
         if "huggingface.co" in url:
             parts = url.rstrip('/').split('/')
             owner, repo = parts[-2], parts[-1]
+            # Fallback approach: manually fetch known files or use a simpler file list
+            # For now, assume a flat structure and fetch known files directly
+            # This is a workaround until a proper API token or endpoint is confirmed
+            known_files = [
+                {'path': 'app.py', 'type': 'file'},
+                {'path': 'README.md', 'type': 'file'}
+                # Add more known paths or implement HTML scraping if needed
+            ]
+            files = get_all_files(owner, repo, "", True) or known_files
             return owner, repo, files, True
         else:  # Assume GitHub URL
             parts = url.rstrip('/').split('/')
     try:
         if is_hf:
+            file_url = f"https://huggingface.co/spaces/{owner}/{repo}/raw/main/{file_path}"
         else:
             file_url = f"{GITHUB_API}{owner}/{repo}/contents/{file_path}"
 @app.route('/process', methods=['POST'])
 def process():
+    # Ensure consistent response structure
+    response_data = {'markdown': '', 'html': '', 'filename': '', 'error': None}
     if 'files[]' in request.files:
         files = request.files.getlist('files[]')
         if not files:
+            response_data['error'] = 'No files uploaded'
+            return jsonify(response_data), 400
         markdown_content = create_markdown_document(files=files)
+        response_data['markdown'] = markdown_content
+        response_data['html'] = markdown.markdown(markdown_content)
+        response_data['filename'] = "uploaded_files_summary.md"
     else:
         repo_url = request.json.get('repo_url')
         if not repo_url:
+            response_data['error'] = 'Please provide a repository URL or upload files'
+            return jsonify(response_data), 400
         markdown_content = create_markdown_document(repo_url)
+        owner, repo, contents, is_hf = get_repo_contents(repo_url)
         if not owner:
+            response_data['error'] = markdown_content  # Error message from get_repo_contents
+            return jsonify(response_data), 400
+        response_data['markdown'] = markdown_content
+        response_data['html'] = markdown.markdown(markdown_content)
+        response_data['filename'] = f"{owner}_{repo}_summary.md"
+    return jsonify(response_data)
 @app.route('/download', methods=['POST'])
 def download():