Spaces:

MKJ-TOE
/

repository_reader

Sleeping

App Files Files Community

DeL-TaiseiOzaki commited on Dec 24, 2024

Commit

e50fc98

verified ·

1 Parent(s): b7b8cc1

Update core/file_scanner.py

Browse files

Files changed (1) hide show

core/file_scanner.py +65 -42

core/file_scanner.py CHANGED Viewed

@@ -1,5 +1,8 @@
 from pathlib import Path
-from typing import List, Dict, Optional
 from dataclasses import dataclass
 @dataclass
@@ -9,66 +12,86 @@ class FileInfo:
     extension: str
     content: Optional[str] = None
     encoding: Optional[str] = None
     @property
     def formatted_size(self) -> str:
         if self.size < 1024:
             return f"{self.size} B"
         elif self.size < 1024 * 1024:
-            return f"{self.size/1024:.1f} KB"
         else:
-            return f"{self.size/(1024*1024):.1f} MB"
 class FileScanner:
-    # スキャン対象の拡張子
-    TARGET_EXTENSIONS = {
-        '.py', '.js', '.java', '.cpp', '.hpp', '.c', '.h',
-        '.go', '.rs', '.php', '.rb', '.ts', '.scala', '.kt',
-        '.cs', '.swift', '.m', '.sh', '.pl', '.r'
-    }
-    # スキャン対象から除外するディレクトリ
     EXCLUDED_DIRS = {
-        '.git', '__pycache__', 'node_modules', 'venv', '.env',
-        'build', 'dist', 'target', 'bin', 'obj'
     }
-    def __init__(self, base_dir: Path):
         self.base_dir = base_dir
     def _should_scan_file(self, path: Path) -> bool:
         if any(excluded in path.parts for excluded in self.EXCLUDED_DIRS):
             return False
-        return path.suffix.lower() in self.TARGET_EXTENSIONS
-    def _read_file_content(self, file_path: Path) -> Optional[str]:
         try:
-            # まずUTF-8で試す
             try:
-                with file_path.open('r', encoding='utf-8') as f:
-                    return f.read()
             except UnicodeDecodeError:
-                # UTF-8で失敗したらcp932を試す
                 with file_path.open('r', encoding='cp932') as f:
-                    return f.read()
-        except (OSError, UnicodeDecodeError):
-            return None
     def scan_files(self) -> List[FileInfo]:
         if not self.base_dir.exists():
-            raise FileNotFoundError(f"Directory not found: {self.base_dir}")
-        files = []
-        for entry in self.base_dir.rglob('*'):
             if entry.is_file() and self._should_scan_file(entry):
-                content = self._read_file_content(entry)
-                if content is not None:
-                    files.append(FileInfo(
-                        path=entry.relative_to(self.base_dir),
-                        size=entry.stat().st_size,  # ファイルサイズを追加
-                        extension=entry.suffix,      # 拡張子を追加
-                        content=content
-                    ))
-        return sorted(files, key=lambda x: str(x.path))

+# core/file_scanner.py
+import chardet
 from pathlib import Path
+from typing import List, Optional, Set
 from dataclasses import dataclass
 @dataclass
     extension: str
     content: Optional[str] = None
     encoding: Optional[str] = None
     @property
     def formatted_size(self) -> str:
+        """ファイルサイズを見やすい単位で表示"""
         if self.size < 1024:
             return f"{self.size} B"
         elif self.size < 1024 * 1024:
+            return f"{self.size / 1024:.1f} KB"
         else:
+            return f"{self.size / (1024 * 1024):.1f} MB"
 class FileScanner:
+    """
+    指定された拡張子のファイルだけを再帰的に検索し、ファイル内容を読み込むクラス。
+    """
     EXCLUDED_DIRS = {
+        '.git', '__pycache__', 'node_modules', 'venv',
+        '.env', 'build', 'dist', 'target', 'bin', 'obj'
     }
+    def __init__(self, base_dir: Path, target_extensions: Set[str]):
+        """
+        base_dir: 解析を開始するディレクトリ(Path)
+        target_extensions: 対象とする拡張子の集合 (例: {'.py', '.js', '.md'})
+        """
         self.base_dir = base_dir
+        # 大文字・小文字のブレを吸収するために小文字化して保持
+        self.target_extensions = {ext.lower() for ext in target_extensions}
     def _should_scan_file(self, path: Path) -> bool:
+        """対象外フォルダ・拡張子を除外"""
+        # 除外フォルダ判定
         if any(excluded in path.parts for excluded in self.EXCLUDED_DIRS):
             return False
+        # 拡張子チェック
+        if path.suffix.lower() in self.target_extensions:
+            return True
+        return False
+    def _read_file_content(self, file_path: Path) -> (Optional[str], Optional[str]):
+        """
+        ファイル内容を読み込み、エンコーディングを判定して返す。
+        先頭4096バイトをchardetで解析し、失敗時はcp932も試す。
+        """
         try:
+            with file_path.open('rb') as rb:
+                raw_data = rb.read(4096)
+                detect_result = chardet.detect(raw_data)
+                encoding = detect_result['encoding'] if detect_result['confidence'] > 0.7 else 'utf-8'
+            # 推定エンコーディングで読み込み
             try:
+                with file_path.open('r', encoding=encoding) as f:
+                    return f.read(), encoding
             except UnicodeDecodeError:
+                # cp932 を再試行 (Windows向け)
                 with file_path.open('r', encoding='cp932') as f:
+                    return f.read(), 'cp932'
+        except Exception:
+            return None, None
     def scan_files(self) -> List[FileInfo]:
+        """
+        再帰的にファイルを探して、指定拡張子だけをFileInfoオブジェクトのリストとして返す。
+        """
         if not self.base_dir.exists():
+            raise FileNotFoundError(f"指定ディレクトリが見つかりません: {self.base_dir}")
+        collected_files = []
+        for entry in self.base_dir.glob("**/*"):
             if entry.is_file() and self._should_scan_file(entry):
+                content, encoding = self._read_file_content(entry)
+                file_info = FileInfo(
+                    path=entry.resolve(),
+                    size=entry.stat().st_size,
+                    extension=entry.suffix.lower(),
+                    content=content,
+                    encoding=encoding
+                )
+                collected_files.append(file_info)
+        # path の文字列表現でソート
+        return sorted(collected_files, key=lambda x: str(x.path))