РОЗРОБЛЕННЯ УКРАЇНСЬКОМОВНОГО КОРПУСУ МЕРЕЖЕВИХ ТЕКСТІВ З АГРЕСИВАМИ

Автор(и)

  • Марія Малишева Одеський національний університет імені І. І. Мечникова, кафедра прикладної лінгвістики, Україна https://orcid.org/0000-0002-1910-4833

DOI:

https://doi.org/10.18524/2307-8332.2025.2(32).350473

Ключові слова:

вербальна агресія, мережевий дискурс, корпус текстів, українська мова, застосунок для створення корпусу текстів, комп’ютерна лінгвістика

Анотація

Дослідження мережевого дискурсу як простору розгортання агресивної комунікативної поведінки потребує застосування автоматизованих методів аналізу даних. Це вимагає великих масивів текстів, проте українськомовні корпуси текстів, придатні для вивчення агресії в мережевому дискурсі, у відкритому доступі відсутні. У дослідженні висвітлено процес створення українськомовного корпусу текстів з маркерами агресії у межах проєкту з вивчення вербальної агресії в мережевому дискурсі. Обґрунтовано вибір джерела текстів для корпусу, запропоновано розроблений автором застосунок для збирання коментарів за допомогою вебскрейпінгу, окреслено процедуру опрацювання отриманих текстів, що включає очищення, визначення мови та полярності, додаткове очищення, токенізацію та лематизацію, вилучення стоп-слів. Джерелом текстів є інтернет-портал Censor.Net. Застосунок розроблено мовою програмування Python із використанням модуля Beautiful Soup, для очищення текстів застосовано регулярні вирази, для визначення мови — бібліотеку langdetect, полярність визначено за допомогою інструменту polyglot, для токенізації та лематизації використано бібліотеку simplemma, а для виокремлення біграм — nltk. Для додаткового етапу лематизації створено словник частотних токенів (частота ≥ 5) та їхніх лем. Отриманий українськомовний корпус текстів мережевого дискурсу, що містять маркери агресії, містить 16 769 коментарів, 188 825 токенів, із яких 39 975 є унікальними, а також 168 702 унікальні біграми; у корпусі додатково зазначено нікнейм автора, текст коментаря, мову та полярність. Словники токенів і біграм містять інформацію про їхню частотність. Обсяг корпусу не є фіксованим, його й надалі буде поповнювано новими коментарями. Корпус, словники та застосунки для їх створення доступні у відкритому доступі.

Посилання

Andrusyak, B., Rimel, M., & Kern, R. (2018). Dataset of YouTube comments and dictionary of abusive words [Data set]. Retrieved on May 14, 2022, from https://cutt.ly/jDSdIhc

Andrusyak, B., Rimel, M., & Kern, R. (2018). Detection of abusive speech for mixed sociolects of Russian and Ukrainian languages. In A. Horák, P. Rychlý, A. Rambousek (Eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2018 (pp. 77–84). Tribun EU. Retrieved May 14, 2025, from https://nlp.fi.muni.cz/raslan/2018/paper04-Andrusyak.pdf

Bhattacharya, S., Singh, S., Kumar, R., Bansal, A., Bhagat, A., Dawer, Y., Lahiri, B., & Ojha, A. K. (2020). Developing a multilingual annotated corpus of misogyny and aggression. arXiv. https://doi.org/10.48550/arXiv.2003.07428

Bobrovnyk, K. (n.d.). A corpus of Ukrainian Twitter texts + instructions for downloading and filtering texts [Data set]. GitHub. Retrieved May 14, 2025, from https://cutt.ly/TDSdLYY

Bobrovnyk, K. (2019). Automated building and analysis of Ukrainian Twitter Corpus for toxic text detection. Proceedings of the 3d International Conference ‘Computational Linguistics and Intelligent Systems (Vol. 2, pp. 55–56). Retrieved May 14, 2025, from https://ena.lpnu.ua/handle/ntb/45496

Censor.Net. https://censor.net/

Chen, Ya., & Skiena, S. (2014). Building sentiment lexicons for all major languages. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pp. 383–289). Retrieved May 14, 2025, from https://cutt.ly/VF3AY60

Golbeck, J., Ashktorab, Z., Banjo, R. O., Berlinger, A., Bhagwan, S., Buntain, C., Cheakalos, P., Geller, A. A., Gergory, Q., Gnanasekaran, R. K., Gunasekaran, R. R., Hoffman, K. M., Hottle, J., Jienjitlert, V., Khare, S., Lau, R., Martindale, M. J., Naik, S., Nixon, H. L., . . . Wu, D. M. (2017). A large labeled corpus for online harassment research. WebSci’17: Proceedings of the 2017 ACM on Web Science Conference (pp. 229–233). https://doi.org/10.1145/3091478.3091509

Hate Speech Dataset catalogue. (n.d.). Hatespeechdata. Retrieved May 14, 2025, from https://hatespeechdata.com

Kupriienko, S. (n.d.). Ukrainian-Stopwords: the list of ~2000 Ukrainian stopwords (with numbers) [Data set]. GitHub. Retrieved May 14, 2025, from https://cutt.ly/lF3IYjY

Malysheva, M. (n.d.). Ukr_corpus_affression: Ukrainian-language corpus of aggressive texts of network discourse [Data set]. GitHub. Retrieved May 14, 2025, from https://github.com/mariia-malysheva/ukr_corpus_aggression [Access date: 14.05.2022]

Vidgen, B., & Derczynski, L. (2020). Directions in abusive language training data, a systematic review: garbage in, garbage out. PLoS ONE, 15(12), e0243300. https://doi.org/10.1371/journal.pone.0243300

Vidgen, B., Harris, A., Nguyen, D., Tromble, R., Hale, S., & Margetts, H. (2019). Challenges and frontiers in abusive content detection. Proceedings of the Third Workshop on Abusive Language Online (pp. 80–93). https://doi.org/10.18653/v1/W19-3509

Waseem, Z., Davidson, T., Warmsley, D., & Weber, I. (2017). Understanding abuse: a typology of abusive language detection subtasks. Proceedings of the First Workshop on Abusive Language Online (pp. 78–84). https://doi.org/10.18653/v1/W17-3012

Zhao, B. (2017). Web scraping. In L. Schintler, & C. McNeely (Eds.), Encyclopedia of Big Data (pp. 1–3). Cham: Springer. https://doi.org/10.1007/978-3-319-32001-4_483-1

##submission.downloads##

Опубліковано

2025-12-25

Як цитувати

Малишева, М. (2025). РОЗРОБЛЕННЯ УКРАЇНСЬКОМОВНОГО КОРПУСУ МЕРЕЖЕВИХ ТЕКСТІВ З АГРЕСИВАМИ. Вісник Одеського національного університету. Філологія, 30(2(32), 7–14. https://doi.org/10.18524/2307-8332.2025.2(32).350473

Номер

Розділ

МОВОЗНАВСТВО