metadata

title: TranslationError Gradio
emoji: 🌝
colorFrom: yellow
colorTo: blue
sdk: gradio
sdk_version: 5.12.0
app_file: app.py
pinned: false

翻譯標記工具使用規則

1. 介紹

本專案旨在透過人工評估，提升機器翻譯系統的效能。
此資料集欲使用一個全面的人工翻譯品質評估框架，根據不同的錯誤類型、嚴重程度和分數，提供了一個標準化的方式來衡量翻譯的品質
- 錯誤類型 ： 正確性、流暢度、專有名詞、風格、在地化 ，每個類別都還有它的子類別。
- 嚴重程度 ：分為三個等級，分別是 Major、Minor
- 分數：對機器翻譯的文本(「翻譯文本」欄位內容)進行評分。
評估流程：
1. 我們會提供給您原文和多個機器翻譯系統產生的翻譯後的句子。
2. 您需要仔細閱讀原文和譯文，找出翻譯中的錯誤區間。
3. 對於每個錯誤區間，您需要標記其錯誤類型和嚴重程度。
4. 標記完所有錯誤區間以後，對每個翻譯文本的整體品質進行評分 (0-100分，0分最差，100分最好)。

2. 評估設置細節

若機器翻譯的文本(「翻譯文本」欄位內容)無錯誤，則直接選擇按鈕【完全正確】，無需標註錯誤。

⚠️請注意：即使選擇了【完全正確】也只表示此句沒有任何可見錯誤，不代表譯文已達 100 分的通順水準，因此仍須進行評分，請勿直接跳過。

若翻譯句子中具有五個以上的錯誤，或是翻譯錯誤的太嚴重，無法識別出各個錯誤，則直接選擇按鈕【錯誤過多】，無需標註錯誤，但仍需評分。

錯誤區間 :
- 發現翻譯錯誤時，將錯誤部分標註到「錯誤區間」欄位。
- 將錯誤連接成最長的可能區間。
- 若中間有正確的翻譯，需分段標註，不可連續標記。
- 範例：
  
  句子：私人滑雪場決定了條件，但沒有什麼能阻止滑雪者去那裡，因為該房產毗鄰貝克山-斯諾誇米國家森林的公共土地。 而你認為決定了條件與該房產均有語句不通順的問題，則你可以在「錯誤區間」欄位分別輸入決定了條件，選擇完錯誤類別與嚴重程度後，按下【保存並繼續標記當前資料】按鈕，再進行錯誤區間該房產的標註
錯誤類別 : 子類別並非完全固定，標記者可以根據具體情況，在「其他子類別」進行調整或補充
- 正確性 : 翻譯是否準確地傳達了原文的意思
  - 誤譯：錯譯或曲解，翻譯結果與原文的意思不符。
  - 多譯：加入原文中不存在的內容。
  - 漏譯：省略了原文中的重要資訊。
- 流暢度 : 翻譯是否自然流暢，符合目標語言(翻譯後的語言)的語法和習慣用法
  - 文法：文法錯誤，譯文不符合目標語言的語法規則。
  - 拼字：拼字錯誤，譯文中有錯別字或拼寫錯誤。
  - 標點符號：標點符號錯誤或使用不當。
  - 前後不一致：譯文內部或與上下文的表達不一致。例如：同一術語「car」在前後文翻譯為「汽車」與「車輛」。
  - 語域：語氣不合適，譯文的語調不符合原文的正式或非正式風格。例如：原文為正式語氣，翻譯卻過於口語化。
- 專有名詞 : 翻譯中使用的術語(專業用語)是否準確、一致，並符合目標領域的慣例
  - 使用不當：使用不正確的術語，未考慮專業領域慣例。例如：法律文本中的「contract」翻譯為「協議」而非「契約」。
  - 不一致：術語翻譯不一致，影響專業性和連貫性。
- 風格 : 翻譯的風格是否恰當，是否符合讀者的期望
  - 用字尷尬：表達不自然或拗口，影響可讀性。
- 在地化 : 翻譯是否考慮了目標文化的特定要求，例如日期、時間、貨幣、度量衡等
  - 貨幣格式：貨幣格式是否正確。
  - 時間格式：時間格式是否符合地區習慣。
  - 姓名格式：姓名格式是否正確。
  - 日期格式：日期格式是否正確。
  - 地址格式：地址格式是否正確。
嚴重程度級別

每個錯誤都會被分配一個嚴重程度級別，用於表示錯誤對翻譯質量的影響程度。嚴重程度級別分為兩級：
- 嚴重 : 實際翻譯錯誤或語法錯誤。
- 輕微 : 較小的瑕疵。
整體評分

在標記完所有錯誤範圍並設定嚴重程度後，標註者需要對整個翻譯段落給予一個0到100的整體評分。評分標準大致如下：
- 0：幾乎沒有保留原文意思，大部分資訊遺失。
- 33：保留部分原文意思，但有明顯遺漏，敘述難以理解，文法可能很差。
- 66：保留大部分原文意思，有一些文法錯誤或輕微不一致。
- 100：原文意思和文法完全正確。