APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

МЕТОДЫ И АЛГОРИТМЫ ПОКРЫТИЯ (Часть 2) COVERING METHODS AND ALGORITHMS (Part 2)

В статье продолжается анализ методов и алгоритмов решения задачи о покрытии на предмет выделения макроопераций (МО), как моделей вычислительного процесса нахождения покрытия. Рассматриваются методы и алгоритмы с использо...

ПРОГРАМНЕ ТА АПАРАТНЕ ТЕСТУВАННЯ ДЕКОДЕРУ TURBO-PRODUCT-КОДІВ

У роботі представлена методика тестування декодеру Turbo-Product-кодів на програмному та апаратному рівнях. Дана методика дозволяє отримати результати відносно корегуючої здатності декодеру, а також пропускної здатності....

АНАЛІЗ ЯКОСТІ ОЦІНЮВАННЯ СТУДЕНТІВ В СИСТЕМАХ КОМП’ЮТЕРИЗОВАНОЇ ПІДГОТОВКИ ЗА ДОПОМОГОЮ СТАТИСТИЧНИХ МЕТОДІВ ANALYSIS OF QUALITY OF EVALUATION OF STUDENTS IN SYSTEMS OF THE COMPUTERIZED PREPARATION BY MEANS OF STATISTICAL METHODS

Роботу присвячено аналізу якості оцінювання студентів в системах комп’ютеризованої підготовки (СКП) за допомогою статистичних методів. Пропонується використовувати непряме оцінювання (НО) в СКП, яке надає можливість прос...

УДОСКОНАЛЕННЯ СТЕГАНОАНАЛІТИЧНОГО МЕТОДУ ВИЯВЛЕННЯ ВКЛАДЕНЬ ДОДАТКОВОЇ ІНФОРМАЦІЇ В ЦИФРОВИХ ЗОБРАЖЕННЯХ, ЗАСНОВАНОГО НА АНАЛІЗІ ПОСЛІДОВНИХ ТРІАД КОЛІРНИХ ТРИПЛЕТІВ IMPROVEMENT OF THE STEGANALYTIC METHOD FOR DETECTING THE ADDITIONAL INFORMATION ATTACHMENTS IN DIGITAL IMAGES, BASED ON THE ANALYSIS OF SEQUENTIAL TRIADS OF COLOR TRIPLETS

В роботі проводиться дослідження впливу модифікацій коефіцієнтів дискретного косінусного перетворення (ДКП) на просторову область цифрових зображень за допомогою аналіза послідовних тріад колірних триплетів в матриці уні...

DEVELOPMENT OF EFFECTIVE VOCABULARY STRUCTURES FOR THE SPEECH RECOGNITION TASKS

In this paper we describe a speech recognition method, which is optimized for mobile devices with limited computing power. This article is focused on reducing the size of a necessary dictionary and development of method...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 119
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://europub.co.uk./articles/-A-341622