tugaa
/

testAgentForHFSpace

Model card Files Files and versions Community

YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

多言語・簡易多モーダルWeb参照AIエージェント（Hugging Face Spaces対応）

概要

このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。

Hugging Face Spaces（無料ティア）でのデプロイを想定して設計されています。

主な機能

テキスト、画像、動画のマルチモーダル入力に対応
入力言語の自動検出と処理
タスクの自動分解と並列処理（非同期実行）
Web検索とページ要約（Serper API + BeautifulSoup）
アップロードされた画像・動画のLLMによる簡易分析（GPT-4oなど）
指定言語での統合出力（日本語、英語、スペイン語、フランス語、中国語）

使用技術

フロントエンド/UI: Gradio
バックエンド: Python + asyncio + OpenAI API
Web検索: Serper API（https://serper.dev）
LLM: GPT-4o（openaiライブラリ経由）
画像処理: Pillow（軽量な画像サイズ取得など）
動画処理: MoviePy（キーフレーム抽出）

インストールと実行方法

# 依存ライブラリのインストール
pip install -r requirements.txt

# 環境変数の設定（.envファイルまたはシェルで）
export OPENAI_API_KEY=your_openai_key
export SERPER_API_KEY=your_serper_key

# アプリ起動
python app.py

Hugging Face Spacesでの注意点

無料ティアでは CPUリソースとディスク容量に制限があります。
画像・動画の処理はアップロードされた小ファイル（短時間の.mp4等）に限定してください。
Webからの画像・動画のダウンロード・保存は行わず、URLと要約のみ表示されます。
GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。
外部APIキーは Spaces の Secrets に登録してください（例: OPENAI_API_KEY, SERPER_API_KEY）。

今後の拡張可能性

Gemini API や Claude API 対応
音声抽出および文字起こし対応（短時間動画）
出力形式のカスタマイズ（Markdown, JSONなど）

作者

tugaa

ライセンス

MIT

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support