Вељко Миљанић Намена мог речника је од старта био не класичан речник, већ речник за исправку словних грешака. За ту сврху де факто стандард формат је Хунспел.
Речи су прикупљене и пробране из разних извора, укључујући ОЦР-оване скениране постојеће речнике, ОЦР-ован скениран телефонски именик, сав изворни ћирилични текст са српске Википедије, архивирана онлајн бесплатна издања новина као и многи други извори...
Речи су затим разврстане према врсти и унете у базу података, где свакој врсти, а у неким случајевима и подврсти, одговара једна табела.
Логика придруживања правила мењања речима је писана у SQL-u, и за сваку групу завршетака речи одређује корен и могуће наставке. Редослед извршавања је притом битан. На пример, за именице које се завршавају на "ост", опште правило је различито од правила за неке њихове подгрупе:
--------------------------------------------------- ост ------------------------------------------------
update imenica set imen_koren = left(imen_ime,-2),
imen_sufix = 'ст-сти-стима-шћу'
where imen_ime ~ 'ост$';
-----------------------------------------------------
update imenica set imen_koren = left(imen_ime,-1),
imen_sufix = 'т-та-те-ти-тију-тима-том-ту'
where imen_ime in ('гост');
-----------------------------------------------------
update imenica set imen_koren = left(imen_ime,-1),
imen_sufix = 'т-ти-тију-тима-шћу'
where imen_ime in ('кост');
-----------------------------------------------------
update imenica set imen_koren = left(imen_ime,-1),
imen_sufix = 'т-та-те-това-тови-товима-тове-том-ту'
where imen_ime in ('мост','пост','тост','хост','контрапост','мултикаст');
-----------------------------------------------------
update imenica set imen_koren = left(imen_ime,-1),
imen_sufix = 'т-та-те-ти-тима-том-ту'
where imen_ime in ('опрост','компост');
--------------------------------------------------------------------------------------------------------
На тај начин 1800+ правила покрива свих 200,000 речи, колико их има у речнику, и генерише 3,4 милиона исправних облика речи.
Верујем да постоји и концизнија и прецизнија група правила, која би ако не сасвим аутоматизовала процес уношења нових речи, онда бар смањила његове трошкове. Будући да се то чини комплексним процесом, као и да и постојећи речник одрађује солидан посао, не осећам баш претерану жељу да кренем у том правцу... :-)