APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

MATHEMATICAL MODELLING OF DISTANCE MEASURING MULTIFREQUENCY PHASE METHOD

The article is developed algorithm of mathematical modelling of the formation process of the reflected monophonic signal in the presence of several reflection objects has been worked out. The algorithm consists of the fo...

АНАЛИЗ МЕХАНИЗМА ВОЗНИКНОВЕНИЯ ПАРАЗИТНЫХ ПРОЦЕССОВ В АППАРАТУРЕ ЦИФРОВОЙ ФОТО И ВИДЕОЗАПИСИ, ПРИГОДНЫХ ДЛЯ ИСПОЛЬЗОВАНИЯ ПРИ ЭКСПЕРТИЗЕ ТАКИХ УСТРОЙСТВ THE ANALYSIS OF MECHANISM OF ORIGIN OF PARASITE PROCESSES IN AN APPARATUS IS DIGITAL PHOTO AND VIDEOTAPE RECORDING, SUITABLE FOR USING FOR TO EXAMINATION OF SUCH DEVICES

Проведен анализ конструктивных и технологических особенностей модели аппаратуры цифровой фото и видеозаписи. Показано, что паразитные процессы, возникающие в элементах матриц и аналого-цифровых преобразователей, носят ус...

ОБОСНОВАНИЕ ПРИМЕНЕНИЯ ФРАКТАЛЬНОГО ПОДХОДА ДЛЯ СОЗДАНИЯ КОМПЛЕКСА АППАРАТУРЫ КОНТРОЛЯ ПОДЛИННОСТИ ЦИФРОВЫХ ФОНОГРАММ ПРИ ЭКСПЕРТИЗЕ МАТЕРИАЛОВ И СРЕДСТВ ЦИФРОВОЙ ЗВУКОЗАПИСИ JUSTIFICATION OF FRACTAL APPROACH USING TO CREATE COMPLEX EQUIPMENT FOR CONTROL OF AUTHENTIC DIGITAL PHONOGRAMS AT THE EXAMINATION OF DIGITAL AUDIO MATERIALS AND TOOLS

Показан фрактальный характер оцифрованного аналогового сигнала при записи информации на аппаратуре цифровой звукозаписи и фрактальный характер проявлений паразитных параметров такой аппаратуры, фиксируемых в информационн...

ПРОГРАМНЕ ТА АПАРАТНЕ ТЕСТУВАННЯ ДЕКОДЕРУ TURBO-PRODUCT-КОДІВ

У роботі представлена методика тестування декодеру Turbo-Product-кодів на програмному та апаратному рівнях. Дана методика дозволяє отримати результати відносно корегуючої здатності декодеру, а також пропускної здатності....

УСОВЕРШЕНСТВОВАНИЕ СТЕГАНОГРАФИЧЕСКОГО АЛГОРИТМА, ОСНОВАННОГО НА SIGN-НЕЧУВСТВИТЕЛЬНОСТИ СИНГУЛЯРНЫХ ВЕКТОРОВ БЛОКОВ МАТРИЦЫ ИЗОБРАЖЕНИЯ IMPROVEMENT OF THE STEGANOGRAPHY ALGORITHM BASED ON THE SIGN-INSENSITIVITY OF THE SINGULAR VECTORS OF BLOCKS OF THE DIGITAL IMAGE MATRIX

В работе предложен способ обработки цифрового изображения, результатом которой является понижение числа обусловленности большинства блоков его матрицы, полученных путем стандартного разбиения, за счет предобуславливания...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 106
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://europub.co.uk./articles/-A-341622