Spaces:
Configuration error
Configuration error
[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/howard-haowen/Formosan-languages/HEAD) | |
# 台灣南島語-華語句庫資料集 | |
(Dataset of Formosan-Mandarin sentence pairs) | |
[點我](https://share.streamlit.io/howard-haowen/formosan-languages/main/app.py)進入互動式查詢系統 | |
## 資料概要 | |
- 🎢 資料集合計約13萬筆台灣南島語-華語句對 | |
- ⚠️ 此查詢系統僅供教學與研究之用,內容版權歸原始資料提供者所有 | |
- 💻 隨機顯示10筆資料 | |
![data_sample](sample-dataframe.png) | |
## 資料來源 | |
- 以下資料經由網路爬蟲取得。 | |
+ 🥅 九階教材: [族語E樂園](http://web.klokah.tw) | |
+ 💬 生活會話: [族語E樂園](http://web.klokah.tw) | |
+ 🧗 句型: [族語E樂園](http://web.klokah.tw) | |
+ 🔭 文法: [臺灣南島語言叢書](https://alilin.apc.gov.tw/tw/) | |
- 詞典資料使用`PDFMiner` 將2019版的PDF檔轉成HTML,再用`BeautifulSoup`抓取句對,偶爾會出現族語跟華語對不上的情形。若發現錯誤,請[聯絡我📩](https://github.com/howard-haowen)。詞典中重複出現的句子已從資料集中刪除。 | |
+ 📚 詞典: [原住民族語言線上詞典](https://e-dictionary.apc.gov.tw/Index.htm?fbclid=IwAR18XBJPj2xs7nhpPlIUZ-P3joQRGXx22rbVcUvp14ysQu6SdrWYvo7gWCc) | |
## 統計報告 | |
- 💻 點擊下面的預覽圖即可進入統計報告互動式查看頁面。報告中新增`word_counts`欄位,計算族語句子的字數。 | |
[![pandas-profile](Pandas-profile-screenshot.png)](https://howard-haowen.github.io/Formosan-languages/Pandas-profile-report-of-the-dataset.html) | |
*** | |
![](https://octodex.github.com/images/yaktocat.png) | |