350016z's picture
Update README.md
9dfbd1e verified

A newer version of the Gradio SDK is available: 5.23.3

Upgrade
metadata
title: TranslationError Gradio
emoji: 🌝
colorFrom: yellow
colorTo: blue
sdk: gradio
sdk_version: 5.12.0
app_file: app.py
pinned: false

翻譯標記工具使用規則

1. 介紹

  • 本專案旨在透過人工評估,提升機器翻譯系統的效能。
  • 此資料集欲使用一個全面的人工翻譯品質評估框架,根據不同的錯誤類型、嚴重程度和分數,提供了一個標準化的方式來衡量翻譯的品質
    • 錯誤類型正確性流暢度專有名詞風格在地化 ,每個類別都還有它的子類別。
    • 嚴重程度 :分為三個等級, 分別是 MajorMinor
    • 分數:對機器翻譯的文本(「翻譯文本」欄位內容)進行評分。
  • 評估流程:
    1. 我們會提供給您原文和多個機器翻譯系統產生的翻譯後的句子。
    2. 您需要仔細閱讀原文和譯文,找出翻譯中的錯誤區間。
    3. 對於每個錯誤區間,您需要標記其錯誤類型嚴重程度
    4. 標記完所有錯誤區間以後,對每個翻譯文本的整體品質進行評分 (0-100分,0分最差,100分最好)。

2. 評估設置細節

若機器翻譯的文本(「翻譯文本」欄位內容)無錯誤,則直接選擇按鈕【完全正確】,無需標註錯誤。

⚠️請注意:即使選擇了【完全正確】也只表示此句沒有任何可見錯誤,不代表譯文已達 100 分的通順水準,因此仍須進行評分,請勿直接跳過。

若翻譯句子中具有五個以上的錯誤,或是翻譯錯誤的太嚴重,無法識別出各個錯誤,則直接選擇按鈕【錯誤過多】,無需標註錯誤,但仍需評分。

  • 錯誤區間 :

    • 發現翻譯錯誤時,將錯誤部分標註到「錯誤區間」欄位。
    • 將錯誤連接成最長的可能區間。
    • 若中間有正確的翻譯,需分段標註,不可連續標記。
    • 範例:

      句子:私人滑雪場決定了條件,但沒有什麼能阻止滑雪者去那裡,因為該房產毗鄰貝克山-斯諾誇米國家森林的公共土地。 而你認為決定了條件該房產均有語句不通順的問題,則你可以在「錯誤區間」欄位分別輸入決定了條件,選擇完錯誤類別與嚴重程度後,按下【保存並繼續標記當前資料】按鈕,再進行錯誤區間該房產的標註

  • 錯誤類別 : 子類別並非完全固定,標記者可以根據具體情況,在「其他子類別」進行調整或補充

    • 正確性 : 翻譯是否準確地傳達了原文的意思
      • 誤譯:錯譯或曲解,翻譯結果與原文的意思不符。
      • 多譯:加入原文中不存在的內容。
      • 漏譯:省略了原文中的重要資訊。
    • 流暢度 : 翻譯是否自然流暢,符合目標語言(翻譯後的語言)的語法和習慣用法
      • 文法:文法錯誤,譯文不符合目標語言的語法規則。
      • 拼字:拼字錯誤,譯文中有錯別字或拼寫錯誤。
      • 標點符號:標點符號錯誤或使用不當。
      • 前後不一致:譯文內部或與上下文的表達不一致。例如:同一術語「car」在前後文翻譯為「汽車」與「車輛」。
      • 語域:語氣不合適,譯文的語調不符合原文的正式或非正式風格。例如:原文為正式語氣,翻譯卻過於口語化。
    • 專有名詞 : 翻譯中使用的術語(專業用語)是否準確、一致,並符合目標領域的慣例
      • 使用不當:使用不正確的術語,未考慮專業領域慣例。例如:法律文本中的「contract」翻譯為「協議」而非「契約」。
      • 不一致:術語翻譯不一致,影響專業性和連貫性。
    • 風格 : 翻譯的風格是否恰當,是否符合讀者的期望
      • 用字尷尬:表達不自然或拗口,影響可讀性。
    • 在地化 : 翻譯是否考慮了目標文化的特定要求,例如日期、時間、貨幣、度量衡等
      • 貨幣格式:貨幣格式是否正確。
      • 時間格式:時間格式是否符合地區習慣。
      • 姓名格式:姓名格式是否正確。
      • 日期格式:日期格式是否正確。
      • 地址格式:地址格式是否正確。
  • 嚴重程度級別

    每個錯誤都會被分配一個嚴重程度級別,用於表示錯誤對翻譯質量的影響程度。嚴重程度級別分為兩級:

    • 嚴重 : 實際翻譯錯誤或語法錯誤。
    • 輕微 : 較小的瑕疵。
  • 整體評分

    在標記完所有錯誤範圍並設定嚴重程度後,標註者需要對整個翻譯段落給予一個0到100的整體評分。 評分標準大致如下:

    • 0:幾乎沒有保留原文意思,大部分資訊遺失。
    • 33:保留部分原文意思,但有明顯遺漏,敘述難以理解,文法可能很差。
    • 66:保留大部分原文意思,有一些文法錯誤或輕微不一致。
    • 100:原文意思和文法完全正確。