Spaces:

Ritvik19
/

marker-io

Running

App Files Files Community

marker-io / marker /ocr /tesseract.py

Ritvik19

Add all files and directories

c8a32e7 6 months ago

raw

history blame contribute delete

2.18 kB

	LANGUAGE_TO_TESSERACT_CODE = {
	'Afrikaans': 'afr',
	'Amharic': 'amh',
	'Arabic': 'ara',
	'Assamese': 'asm',
	'Azerbaijani': 'aze',
	'Belarusian': 'bel',
	'Bulgarian': 'bul',
	'Bengali': 'ben',
	'Breton': 'bre',
	'Bosnian': 'bos',
	'Catalan': 'cat',
	'Czech': 'ces',
	'Welsh': 'cym',
	'Danish': 'dan',
	'German': 'deu',
	'Greek': 'ell',
	'English': 'eng',
	'Esperanto': 'epo',
	'Spanish': 'spa',
	'Estonian': 'est',
	'Basque': 'eus',
	'Persian': 'fas',
	'Finnish': 'fin',
	'French': 'fra',
	'Western Frisian': 'fry',
	'Irish': 'gle',
	'Scottish Gaelic': 'gla',
	'Galician': 'glg',
	'Gujarati': 'guj',
	'Hausa': 'hau',
	'Hebrew': 'heb',
	'Hindi': 'hin',
	'Croatian': 'hrv',
	'Hungarian': 'hun',
	'Armenian': 'hye',
	'Indonesian': 'ind',
	'Icelandic': 'isl',
	'Italian': 'ita',
	'Japanese': 'jpn',
	'Javanese': 'jav',
	'Georgian': 'kat',
	'Kazakh': 'kaz',
	'Khmer': 'khm',
	'Kannada': 'kan',
	'Korean': 'kor',
	'Kurdish': 'kur',
	'Kyrgyz': 'kir',
	'Latin': 'lat',
	'Lao': 'lao',
	'Lithuanian': 'lit',
	'Latvian': 'lav',
	'Malagasy': 'mlg',
	'Macedonian': 'mkd',
	'Malayalam': 'mal',
	'Mongolian': 'mon',
	'Marathi': 'mar',
	'Malay': 'msa',
	'Burmese': 'mya',
	'Nepali': 'nep',
	'Dutch': 'nld',
	'Norwegian': 'nor',
	'Oromo': 'orm',
	'Oriya': 'ori',
	'Punjabi': 'pan',
	'Polish': 'pol',
	'Pashto': 'pus',
	'Portuguese': 'por',
	'Romanian': 'ron',
	'Russian': 'rus',
	'Sanskrit': 'san',
	'Sindhi': 'snd',
	'Sinhala': 'sin',
	'Slovak': 'slk',
	'Slovenian': 'slv',
	'Somali': 'som',
	'Albanian': 'sqi',
	'Serbian': 'srp',
	'Sundanese': 'sun',
	'Swedish': 'swe',
	'Swahili': 'swa',
	'Tamil': 'tam',
	'Telugu': 'tel',
	'Thai': 'tha',
	'Tagalog': 'tgl',
	'Turkish': 'tur',
	'Uyghur': 'uig',
	'Ukrainian': 'ukr',
	'Urdu': 'urd',
	'Uzbek': 'uzb',
	'Vietnamese': 'vie',
	'Xhosa': 'xho',
	'Yiddish': 'yid',
	'Chinese': 'chi_sim',
	}

	TESSERACT_CODE_TO_LANGUAGE = {v:k for k,v in LANGUAGE_TO_TESSERACT_CODE.items()}