marker-io / marker /ocr /tesseract.py
Ritvik19's picture
Add all files and directories
c8a32e7
LANGUAGE_TO_TESSERACT_CODE = {
'Afrikaans': 'afr',
'Amharic': 'amh',
'Arabic': 'ara',
'Assamese': 'asm',
'Azerbaijani': 'aze',
'Belarusian': 'bel',
'Bulgarian': 'bul',
'Bengali': 'ben',
'Breton': 'bre',
'Bosnian': 'bos',
'Catalan': 'cat',
'Czech': 'ces',
'Welsh': 'cym',
'Danish': 'dan',
'German': 'deu',
'Greek': 'ell',
'English': 'eng',
'Esperanto': 'epo',
'Spanish': 'spa',
'Estonian': 'est',
'Basque': 'eus',
'Persian': 'fas',
'Finnish': 'fin',
'French': 'fra',
'Western Frisian': 'fry',
'Irish': 'gle',
'Scottish Gaelic': 'gla',
'Galician': 'glg',
'Gujarati': 'guj',
'Hausa': 'hau',
'Hebrew': 'heb',
'Hindi': 'hin',
'Croatian': 'hrv',
'Hungarian': 'hun',
'Armenian': 'hye',
'Indonesian': 'ind',
'Icelandic': 'isl',
'Italian': 'ita',
'Japanese': 'jpn',
'Javanese': 'jav',
'Georgian': 'kat',
'Kazakh': 'kaz',
'Khmer': 'khm',
'Kannada': 'kan',
'Korean': 'kor',
'Kurdish': 'kur',
'Kyrgyz': 'kir',
'Latin': 'lat',
'Lao': 'lao',
'Lithuanian': 'lit',
'Latvian': 'lav',
'Malagasy': 'mlg',
'Macedonian': 'mkd',
'Malayalam': 'mal',
'Mongolian': 'mon',
'Marathi': 'mar',
'Malay': 'msa',
'Burmese': 'mya',
'Nepali': 'nep',
'Dutch': 'nld',
'Norwegian': 'nor',
'Oromo': 'orm',
'Oriya': 'ori',
'Punjabi': 'pan',
'Polish': 'pol',
'Pashto': 'pus',
'Portuguese': 'por',
'Romanian': 'ron',
'Russian': 'rus',
'Sanskrit': 'san',
'Sindhi': 'snd',
'Sinhala': 'sin',
'Slovak': 'slk',
'Slovenian': 'slv',
'Somali': 'som',
'Albanian': 'sqi',
'Serbian': 'srp',
'Sundanese': 'sun',
'Swedish': 'swe',
'Swahili': 'swa',
'Tamil': 'tam',
'Telugu': 'tel',
'Thai': 'tha',
'Tagalog': 'tgl',
'Turkish': 'tur',
'Uyghur': 'uig',
'Ukrainian': 'ukr',
'Urdu': 'urd',
'Uzbek': 'uzb',
'Vietnamese': 'vie',
'Xhosa': 'xho',
'Yiddish': 'yid',
'Chinese': 'chi_sim',
}
TESSERACT_CODE_TO_LANGUAGE = {v:k for k,v in LANGUAGE_TO_TESSERACT_CODE.items()}