APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS
Journal Title: Інформатика та математичні методи в моделюванні - Year 2018, Vol 8, Issue 2
Abstract
The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.
Authors and Affiliations
V. G. Penko, I. H. Gafar Abdula
ОПТИМИЗАЦИЯ МЕТОДОВ ПРОГНОЗИРОВАНИЯ, ОБРАБОТКИ И АНАЛИЗА ИНФОРМАЦИИ В РАЗНОСТУКТУРНЫХ ХРАНИЛИЩАХ ДАННЫХ OPTIMIZATION OF PREDICTION METHODS, PROCESSING AND ANALYSIS OF INFORMATION IN DIFFERENT STRUCTURE DATA
В статье предложен метод оптимизации обработки большого объема данных, предназначенный для диагностирования состояния оборудования сложных технических систем. Такое диагностирование позволяет повысить эффективность анали...
ТЕОРЕТИЧЕСКОЕ РАЗВИТИЕ ОБЩЕГО ПОДХОДА К ПРОБЛЕМЕ ВЫЯВЛЕНИЯ НАРУШЕНИЙ ЦЕЛОСТНОСТИ ЦИФРОВЫХ КОНТЕНТОВ, ОСНОВАННОГО НА АНАЛИЗЕ ПОЛНОГО НАБОРА ИХ ФОРМАЛЬНЫХ ПАРАМЕТРОВ THEORETICAL DEVELOPMENT OF THE GENERAL APPROACH TO SOLVING THE PROBLEM OF DETECTING THE INTEGRITY VIOLATIONS OF DIGITAL CONTENT BASED ON THE ANALYSIS OF A COMPLETE SET OF FORMAL PARAMETERS
Целостность информации является одним из основных критериев ее безопасности. Сегодня информационные объекты все чаще имеют цифровое представление: изображения, аудио, цифровое видео. Использование таких объектов с целью,...
V-МОДЕЛЬ ПРОЦЕДУРИ ДІАГНОСТУВАННЯ В УМОВАХ НЕПОВНОЇ АПРІОРНОЇ ІНФОРМАЦІЇ MODEL-ORIENTED INFORMATION TECHNOLOGY OF DIAGNOSTICATION OF VAT IN THE CONDITIONS OF APRILINE INFORMATION INFRASTRUCTURE
Розглядається клас задач непрямого контролю і діагностики складних неперервних нелінійних динамічних об’єктів різної фізичної природи. Ці задачі відносяться до класу задач індуктивного моделювання, суть яких полягає в пе...
ОПТИМІЗАЦІЯ МЕТОДИКИ КОМПЛЕКСНОГО ОЦІНЮВАННЯ СКЛАДНИХ СИСТЕМ НА ПІДСТАВІ ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ THE OPTIMIZATION OF METHODS OF COMPLEX EVALUATION FOR COMPLEX SYSTEMS ON THE BASE OF PARALLEL COMPUTATIONS
В роботі описана методика комплексного оцінювання стану та якості функціонування складних ієрархічно-мережевих систем. Для одержання адекватних оцінок вона залучає велику кількість характеристик та параметрів оцінювання,...
МЕТОД ВІДОКРЕМЛЕННЯ КЛОНУ ВІД ПРООБРАЗУ В ЦИФРОВОМУ ЗОБРАЖЕННІ В УМОВАХ ВІДСУТНОСТІ ВІДМІННОСТЕЙ ПРИ ЇХ ПОСТОБРОБЦІ METHOD FOR SEPARATING OF CLONE AND PROTOTYPE IN A DIGITAL IMAGE IN THE CONDITIONS OF THE ABSENCE OF DIFFERENCES IN THEIR POST-PROCESSING
Одним з найпоширеніших інструментів, що використовується при несанкціонованих змінах цифрових зображень (ЦЗ), залишається клонування. Цей програмний інструмент реалізований у всіх сучасних графічних редакторах, роблячи з...