File size: 2,446 Bytes
be44d6b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
# 多言語・簡易多モーダルWeb参照AIエージェント(Hugging Face Spaces対応)

## 概要

このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。

**Hugging Face Spaces(無料ティア)でのデプロイを想定**して設計されています。

---

## 主な機能

* テキスト、画像、動画のマルチモーダル入力に対応
* 入力言語の自動検出と処理
* タスクの自動分解と並列処理(非同期実行)
* Web検索とページ要約(Serper API + BeautifulSoup)
* アップロードされた画像・動画のLLMによる簡易分析(GPT-4oなど)
* 指定言語での統合出力(日本語、英語、スペイン語、フランス語、中国語)

---

## 使用技術

* **フロントエンド/UI**: Gradio
* **バックエンド**: Python + asyncio + OpenAI API
* **Web検索**: Serper API([https://serper.dev)](https://serper.dev))
* **LLM**: GPT-4o(openaiライブラリ経由)
* **画像処理**: Pillow(軽量な画像サイズ取得など)
* **動画処理**: MoviePy(キーフレーム抽出)

---

## インストールと実行方法

```bash
# 依存ライブラリのインストール
pip install -r requirements.txt

# 環境変数の設定(.envファイルまたはシェルで)
export OPENAI_API_KEY=your_openai_key
export SERPER_API_KEY=your_serper_key

# アプリ起動
python app.py
```

---

## Hugging Face Spacesでの注意点

* **無料ティアでは** CPUリソースとディスク容量に制限があります。
* 画像・動画の処理はアップロードされた小ファイル(短時間の.mp4等)に限定してください。
* Webからの画像・動画の**ダウンロード・保存は行わず、URLと要約のみ表示**されます。
* GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。
* 外部APIキーは Spaces の Secrets に登録してください(例: `OPENAI_API_KEY`, `SERPER_API_KEY`)。

---

## 今後の拡張可能性

* Gemini API や Claude API 対応
* 音声抽出および文字起こし対応(短時間動画)
* 出力形式のカスタマイズ(Markdown, JSONなど)

---

## 作者

tugaa

---

## ライセンス

MIT