Київський Вісник Київського національного університету імені Тараса Шевченка / Київський, університет імені національний; редкол.: голов. ред. Анісімов А.В. ; Хусаінов Д.Я., Arturs Medvids, Miklos Ronto [та ін.]. - Київ, 2017
Анотація:
У роботі проведено дослідження інтелектуалізації введення інформації за допомогою системи прискореного введення тексту в цифрові пристрої з метою побудови моделі корпусу розмовної української мови та системи набору тексту, яка базується на цій моделі. Така система використовує меншу кількість команд для введення букв та прогнозує варіанти слів, базуючись на даних корпусу слів та словосполучень для спілкування. Описано принцип збору текстів, що містять
такі діалоги та порядок дій для формування навчального корпусу слів. Детально описано статистичну модель мови, яку пропонується застосувати для прогнозування слів. Для оцінки ймовірностей використано модель Katz"s backoff, що "відступає" до N-грами меншого порядку у випадку, коли використання більш високого порядку неможливе. Для побудованого корпусу слів експериментально показана достатньо висока якість прогнозування наступних слів речення при введенні тексту за допомогою 4-х клавіш-команд.
This paper investigates the intellectualization of text input using a system for accelerated input of texts into digital devices with a view to constructing a model of a corpus of the Ukrainian spoken language and a text typing system based on this model. Such a system uses a smaller number of commands to inpu&t letters
and predicts variants of words on the basis of the corpus of words and word combinations for communication. The described procedure for collecting texts containing such dialogues and order of actions for the formation of the educational co&rpus of words. The described in detail a statistical language model, which is proposed to be applied to the prediction of words. To estimate the probability used Katz"s backoff model, that "backoff" to the N-gram of lower order, when use of higher or&der impossible. For the constructed corpus of words is shown experimentally a rather high quality of predicting the following words of the sentence when entering text with using of four commands keys.