ЗАСТОСУВАННЯ ОБРОБКИ ПРИРОДНОЇ МОВИ ТА НЕЧІТКОЇ ЛОГІКИ ДЛЯ ВИЯВЛЕННЯ ДЕЗІНФОРМАЦІЇ
Анотація
В умовах сучасного iнформацiйного середовища проблема автоматичного виявлення дезiнформацiї є актуальним завданням, що потребує новiтнiх пiдходiв для аналiзу текстових даних. У данiй статтi представлено модель, яка поєднує методи обробки природної мови (NLP) — такi як TF-IDF та n-грамний аналiз — iз застосуванням нечiткої логiки для бiльш точної iдентифiкацiї дезiнформацiйних текстiв. Використання TF-IDF (термiн-частота, обернена частота документа) дозволяє кiлькiсно оцiнити важливiсть термiнiв у контекстi документу, а n-грамний аналiз забезпечує виявлення лексичних патернiв, що часто супроводжують дезiнформацiю.
Проте класичнi NLP пiдходи, включаючи TF-IDF та n-грамнi моделi, демонструють обмеження у виглядi високої частоти хибнопозитивних класифiкацiй. Для усунення цiєї проблеми, запропоновано iнтеграцiю правил нечiткої логiки, що моделюють невизначенiсть та градацiї iстинностi. Конкретно, нечiтка логiка дозволяє врахувати множиннi фактори, включаючи надiйнiсть джерела, лексичнi показники змiсту та емоцiйний тон тексту, використовуючи функцiї належностi для кожного фактору. Вихiдна оцiнка ймовiрностi дезiнформацiї обчислюється через композицiю функцiй належностi та нечiтких правил типу «Якщо... то...», що дозволяє отримати нечiтке рiшення, яке вiдображає ступiнь вiдповiдностi тексту критерiям дезiнформацiї.
Експериментальнi результати свiдчать про те, що запропонований пiдхiд iз застосуванням нечiткої логiки забезпечує зниження кiлькостi хибнопозитивних спрацьовувань та пiдвищення загальної точностi у порiвняннi з базовими моделями, такими як метод опорних векторiв (SVM) та гiбриднi системи на основi правил. Компаративний аналiз показав переваги моделi нечiткої логiки в умовах неповної або суперечливої iнформацiї, що характерно для завдань виявлення дезiнформацiї. Запропонована модель вiдкриває новi можливостi для розвитку iнструментiв аналiзу тексту, що можуть адаптивно реагувати на рiзнi рiвнi невизначеностi в лiнгвiстичному контентi.
Завантаження
Посилання
[1] Practical Natural Language Processing / S. Vajjala et al. O’Reilly Media, Inc., 2020. (https://www.oreilly.com/library/view/practical-natural-language/9781492054047/ )
[2] Bressert E. SciPy and Numpy. O’Reilly, 2012. (https://www.oreilly.com/library/view/scipy-andnumpy/9781449361600/)
[3] Robertson S. E. Understanding Inverse Document Frequency: On Theoretical Arguments for IDF. Journal of Documentation. 2004. Vol. 60, no. 5. P. 503–507.
[4] Interpreting TF-IDF term weights as making relevance decisions / H. C. Wu et al. ACM Transactions on Information Systems. 2008. Vol. 26, no. 3.
[5] Cavnar W., Trenkle J. M. N-Gram-Based Text Categorization. Environmental Research Institute of Michigan. 2001.
[6] B. Cardone, F. Di Martino, and S. Senatore, "Improving the emotion-based classification by exploiting the fuzzy entropy in FCM clustering," International Journal of Intelligent Systems, 2021, 36(11).
[7] O. Iparraguirre-Villanueva, V. Guevara-Ponce, F. Sierra-Liñan, S. Beltozar-Clemente, and M. Cabanillas-Carbonell, "Sentiment Analysis of Tweets using Unsupervised Learning Techniques and the KMeans Algorithm," International Journal of Advanced Computer Science and Applications, 2022, 13(6), 571-578.
[8] L. A. Zadeh, "Fuzzy sets," Information and control, vol. 8 (1965), pp. 338-353.
[9] Chakraborty, K., Bhattacharyya, S., Bag, R. (2022). A Three-Step Fuzzy-Based BERT Model for Sentiment Analysis. In: Bhattacharyya, S., Das, G., De, S. (eds) Intelligence Enabled Research. Studies in Computational Intelligence, vol 1029. Springer, Singapore. https://doi.org/10.1007/978-981-19-0489-9_4
[10] Aytug Onan, Hesham A. Alhumyani,FuzzyTP-BERT: Enhancing extractive text summarization with fuzzy topic modeling and transformer networks,Journal of King Saud University - Computer and Information Sciences, Volume 36, Issue 6,2024,102080,ISSN 1319-1578, https://doi.org/10.1016/j.jksuci.2024.102080. (https://www.sciencedirect.com/science/article/pii/S1319157824001691)
[11] Ch. Sun (2024). Combining Fuzzy Logic and Transformers for Improved Text Classification under Uncertainty. Vol. 5 (2024): 2nd International Conference on Artificial Intelligence, Database and Machine Learning (AIDML 2024).
[12] R. Seth and A. Sharaff, "Sentiment-Aware Detection Method of Fake News Based on Linguistic Fuzzy Bi-LSTM," 2023 OITS International Conference on Information Technology (OCIT), Raipur, India, 2023, pp. 628-633, doi: 10.1109/OCIT59427.2023.10430669.
[13] https://github.com/diptamath/covid_fake_news
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
3. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).