Проблем
Један од најчешћих, а можда и најважнијих, пројеката је транслитерација латинице у ћирилицу. Проблем, није тривијалан јер мапирања латинице, а нарочито ошишане латинице, на ћирилицу није 1 на 1. Транслитератори користе речнике али то није потпуно решење проблема јер:
- Квалитет речника утиче на квалитет транслитерације
- Постоји пуно примера где се рецимо варијанта речи са ц и варијанта са ч налазе у речнику
Сваки транслитертор који сам пробао прави следећу грешку коју није могуће решити применом речника, већ се мора узети у обзир контекст у коме се реч појављује.
улаз: Ишао сам цестом.
излаз: Ишао сам честом.
Дакле, проблем транслитерације треба решити једном за свагда 🙂 Први корак ка томе је да се направи тест сет и дефинише метрика којом би упоредили различите приступе и одабрали најбољи.
Предлог
Прво морамо направити ћирилични корпус који обухвата разне домене: новински чланци, википедија, комерцијални сајтови, друштвене мреже. Затим ћемо тај корпус конвертовати у латиницу и ошишану латиницу. Идеја је да транслитераторе тестирамо на латиничној верзији а метрику квалитета рачунамо поређењем са оригиналном ћириличном верзијом.
За оцењивање предлажем WER (word error rate) дакле од укупног броја речи, који проценат речи је погрешно конвертован. Такође добра оцена би била и број погрешно конвертованих карактера. Пошто су грешке релативно ретке, без обзира на приступ, могли би да приликом рачунања игноришемо речи које не садрже ни једно од проблематичних слова (њ, љ, ч, ћ, ж, ђ, џ, ш).
Битна ствар, је да се текстови који су у тест сету (корпусу) не смеју да се користе за генерисање речника за транслитераторе. Овакво нешто би вештачки побољшало оцену транслитератора иако не би пуно побољшало његов квалитет.