YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
多言語・簡易多モーダルWeb参照AIエージェント(Hugging Face Spaces対応)
概要
このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。
Hugging Face Spaces(無料ティア)でのデプロイを想定して設計されています。
主な機能
- テキスト、画像、動画のマルチモーダル入力に対応
- 入力言語の自動検出と処理
- タスクの自動分解と並列処理(非同期実行)
- Web検索とページ要約(Serper API + BeautifulSoup)
- アップロードされた画像・動画のLLMによる簡易分析(GPT-4oなど)
- 指定言語での統合出力(日本語、英語、スペイン語、フランス語、中国語)
使用技術
- フロントエンド/UI: Gradio
- バックエンド: Python + asyncio + OpenAI API
- Web検索: Serper API(https://serper.dev)
- LLM: GPT-4o(openaiライブラリ経由)
- 画像処理: Pillow(軽量な画像サイズ取得など)
- 動画処理: MoviePy(キーフレーム抽出)
インストールと実行方法
# 依存ライブラリのインストール
pip install -r requirements.txt
# 環境変数の設定(.envファイルまたはシェルで)
export OPENAI_API_KEY=your_openai_key
export SERPER_API_KEY=your_serper_key
# アプリ起動
python app.py
Hugging Face Spacesでの注意点
- 無料ティアでは CPUリソースとディスク容量に制限があります。
- 画像・動画の処理はアップロードされた小ファイル(短時間の.mp4等)に限定してください。
- Webからの画像・動画のダウンロード・保存は行わず、URLと要約のみ表示されます。
- GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。
- 外部APIキーは Spaces の Secrets に登録してください(例:
OPENAI_API_KEY
,SERPER_API_KEY
)。
今後の拡張可能性
- Gemini API や Claude API 対応
- 音声抽出および文字起こし対応(短時間動画)
- 出力形式のカスタマイズ(Markdown, JSONなど)
作者
tugaa
ライセンス
MIT
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support