MakiAi commited on
Commit
043bac4
·
1 Parent(s): a7a2535

✨ feat: WikipediaデータからのQ&Aデータセット生成機能追加

Browse files

- README.mdに、WikipediaデータからセンテンスプールQA方式を用いたQ&Aデータセット生成機能を追加した旨を記載しました。
- 新機能の説明として、センテンスプールQA方式によるデータセット生成、チャンクサイズ調整機能、詳細ドキュメントへのリンクを追加しました。
- 新しいColabノートブックへのリンクを追加しました。

Files changed (1) hide show
  1. README.md +7 -0
README.md CHANGED
@@ -86,6 +86,13 @@ license: mit
86
  - GeminiとLiteLLMを使用した効率的な評価システム
87
  - [📒ノートブックはこちら](https://colab.research.google.com/drive/1haO44IeseQ3OL92HlsINAgBI_yA1fxcJ?usp=sharing)
88
 
 
 
 
 
 
 
 
89
  ## 🛠️ 環境構築
90
 
91
  1. リポジトリのクローン:
 
86
  - GeminiとLiteLLMを使用した効率的な評価システム
87
  - [📒ノートブックはこちら](https://colab.research.google.com/drive/1haO44IeseQ3OL92HlsINAgBI_yA1fxcJ?usp=sharing)
88
 
89
+ ### WikipediaデータからのQ&Aデータセット生成(センテンスプールQA方式)
90
+ - センテンスプールQA方式による高品質Q&Aデータセット生成
91
+ - → 句点区切りの文をプールして文脈を保持しながらQ&Aペアを生成する新しいデータセット作成手法
92
+ - → チャンクサイズを柔軟に調整可能(デフォルト200文字)で、用途に応じた最適な文脈範囲でQ&Aペアを生成
93
+ - → 詳細は [`wikipedia-qa-dataset-generator.md`](sandbox/wikipedia-qa-dataset-generator.md) をご参照ください。
94
+ - [📒ノートブックはこちら](https://colab.research.google.com/drive/1mmK5vxUzjk3lI6OnEPrQqyjSzqsEoXpk?usp=sharing)
95
+
96
  ## 🛠️ 環境構築
97
 
98
  1. リポジトリのクローン: