Spaces:
Sleeping
Sleeping
✨ feat: WikipediaデータからのQ&Aデータセット生成機能追加
Browse files- README.mdに、WikipediaデータからセンテンスプールQA方式を用いたQ&Aデータセット生成機能を追加した旨を記載しました。
- 新機能の説明として、センテンスプールQA方式によるデータセット生成、チャンクサイズ調整機能、詳細ドキュメントへのリンクを追加しました。
- 新しいColabノートブックへのリンクを追加しました。
README.md
CHANGED
@@ -86,6 +86,13 @@ license: mit
|
|
86 |
- GeminiとLiteLLMを使用した効率的な評価システム
|
87 |
- [📒ノートブックはこちら](https://colab.research.google.com/drive/1haO44IeseQ3OL92HlsINAgBI_yA1fxcJ?usp=sharing)
|
88 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
89 |
## 🛠️ 環境構築
|
90 |
|
91 |
1. リポジトリのクローン:
|
|
|
86 |
- GeminiとLiteLLMを使用した効率的な評価システム
|
87 |
- [📒ノートブックはこちら](https://colab.research.google.com/drive/1haO44IeseQ3OL92HlsINAgBI_yA1fxcJ?usp=sharing)
|
88 |
|
89 |
+
### WikipediaデータからのQ&Aデータセット生成(センテンスプールQA方式)
|
90 |
+
- センテンスプールQA方式による高品質Q&Aデータセット生成
|
91 |
+
- → 句点区切りの文をプールして文脈を保持しながらQ&Aペアを生成する新しいデータセット作成手法
|
92 |
+
- → チャンクサイズを柔軟に調整可能(デフォルト200文字)で、用途に応じた最適な文脈範囲でQ&Aペアを生成
|
93 |
+
- → 詳細は [`wikipedia-qa-dataset-generator.md`](sandbox/wikipedia-qa-dataset-generator.md) をご参照ください。
|
94 |
+
- [📒ノートブックはこちら](https://colab.research.google.com/drive/1mmK5vxUzjk3lI6OnEPrQqyjSzqsEoXpk?usp=sharing)
|
95 |
+
|
96 |
## 🛠️ 環境構築
|
97 |
|
98 |
1. リポジトリのクローン:
|