The paper describes the results of comparison of two nonparametric methods of authorship identification in English literature. It describes testing methods with and without clustering. A method was also proposed to select the n-grams that would best serve as a marker to identify the author. More than 800 texts of 16 authors were used for testing. The method using the density of the distribution is suitable for identifying authors of both large texts (50000+ characters) and small (10000+ characters) ones. A method that uses p-statistics is only suitable for large texts.
У статтi описанi результати порiвняння двох непараметричних методiв iдентифiкацiї невiдомого автора на прикладах англiйської лiтератури. У нiй описано реалiзацiю методу кластеризацiї та застосування методiв тестування з кластеризацiєю та без неї. Запропоновано метод вибору n-грам, якi є кращими маркерами для iдентифiкацiї автора. Для тестування було використано понад 800 текстiв 16 авторiв. В результатi було встановлено, що метод, який використовує щiльнiсть розподiлу, придатний для iдентифiкацiї авторiв як великих текстiв (50000 + символiв), так i малих (10000+ символiв). Метод, який використовує p-статистику, придатний тiльки для великих текстiв. За допомогою кластеризацiї текс&тiв на тестовiй вибiрцi для обох методiв була досягнута значно кращi результати. Робота продовжує дослiдження ефективностi методiв iдентифiкацiї авторства, виконану ранiше на прикладi творiв класичної росiйської лiтератури. Результати пiдтверджують, &що ефективнiсть методiв не залежить вiд вибраної мови твору.
В статье описаны результаты сравнения двух непараметрических методов идентификации неизвестного автора на примерах английской литературы. В ней описана реализацию метода кластеризации и пр&именение методов тестирования с кластеризацией и без нее. Предложен метод выбора n- грамм, которые являются лучшими маркерами для идентификации автора. Для тестирования было использовано более 800 текстов 16 авторов. В результате было установлено, чт&о метод, использующий плотность распределения, подходит для идентификации авторов как больших текстов (50000+ символов), так и малых (10000+ символов). Метод, использующий p-статистику, подходит для использования только в больших текстах. С помощью к&ластеризации текстов на тестовой выборке для обоих методов была достигнута значительно лучшие результаты. Работа продолжает исследования эффективности методов идентификации авторства, выполненную ранее на примере произведений классической русской лит&ературы. Результаты подтверждают, что эффективность методов не зависит от выбранного языка произведения.