За било какву обраду језика, тренирање језичких модела или статистичку анализу потребно је прикупити што већи број текстова из разноразних области и стилова како бисмо могли да имамо увид у различите начине изражавања.
Ово су ресурси на које сам ја наишао до сада. Слободно допуните ако знате за још неки.
Common Language Resources and Technology Infrastructure, Slovenia
Интерфејси за преглед разних корпуса европских језика, укључујући и српски.
На њиховом сајту се може пронаћи и опширан списак различитих ресурса за обраду и анализу ових података: https://www.clarin.si/info/k-centre/faq4serbian/.
TESLA - Text Embeddings - Serbian Language Applications
Овде су најзанимљивији корпуси Знање, настао од скупа разноврсних научних публикација, и Кишобран, који обједињује већину објављених српских корпуса до сада.
Друштво за језичке ресурсе и технологије - ЈеРТех:
Потребна је бесплатна регистрација пре приступа садржају.
ReLDI центар - Regional Linguistic Data Initiative Centre
Језичка лабораторија
Покушај да се уради crowdsource-ује израда речника.
High Performance Language Technologies
Укључује корпусе бројних светских језика. Српски корпус је ћирилични.
OSCAR - Open Super-large Crawled Aggregated coRpus
Укључује корпусе бројних светских језика, генерисаних на основу пројекта Common Crawl.
Serbian web corpus MaCoCu-sr 1.0
CC-100: Monolingual Datasets from Web Crawl Data
Leipzig Corpora Collection
Списак српских речи