YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

多言語・簡易多モーダルWeb参照AIエージェント(Hugging Face Spaces対応)

概要

このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。

Hugging Face Spaces(無料ティア)でのデプロイを想定して設計されています。


主な機能

  • テキスト、画像、動画のマルチモーダル入力に対応
  • 入力言語の自動検出と処理
  • タスクの自動分解と並列処理(非同期実行)
  • Web検索とページ要約(Serper API + BeautifulSoup)
  • アップロードされた画像・動画のLLMによる簡易分析(GPT-4oなど)
  • 指定言語での統合出力(日本語、英語、スペイン語、フランス語、中国語)

使用技術

  • フロントエンド/UI: Gradio
  • バックエンド: Python + asyncio + OpenAI API
  • Web検索: Serper API(https://serper.dev)
  • LLM: GPT-4o(openaiライブラリ経由)
  • 画像処理: Pillow(軽量な画像サイズ取得など)
  • 動画処理: MoviePy(キーフレーム抽出)

インストールと実行方法

# 依存ライブラリのインストール
pip install -r requirements.txt

# 環境変数の設定(.envファイルまたはシェルで)
export OPENAI_API_KEY=your_openai_key
export SERPER_API_KEY=your_serper_key

# アプリ起動
python app.py

Hugging Face Spacesでの注意点

  • 無料ティアでは CPUリソースとディスク容量に制限があります。
  • 画像・動画の処理はアップロードされた小ファイル(短時間の.mp4等)に限定してください。
  • Webからの画像・動画のダウンロード・保存は行わず、URLと要約のみ表示されます。
  • GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。
  • 外部APIキーは Spaces の Secrets に登録してください(例: OPENAI_API_KEY, SERPER_API_KEY)。

今後の拡張可能性

  • Gemini API や Claude API 対応
  • 音声抽出および文字起こし対応(短時間動画)
  • 出力形式のカスタマイズ(Markdown, JSONなど)

作者

tugaa


ライセンス

MIT

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support