РОЗРОБЛЕННЯ УКРАЇНСЬКОМОВНОГО КОРПУСУ МЕРЕЖЕВИХ ТЕКСТІВ З АГРЕСИВАМИ
DOI:
https://doi.org/10.18524/2307-8332.2025.2(32).350473Ключові слова:
вербальна агресія, мережевий дискурс, корпус текстів, українська мова, застосунок для створення корпусу текстів, комп’ютерна лінгвістикаАнотація
Дослідження мережевого дискурсу як простору розгортання агресивної комунікативної поведінки потребує застосування автоматизованих методів аналізу даних. Це вимагає великих масивів текстів, проте українськомовні корпуси текстів, придатні для вивчення агресії в мережевому дискурсі, у відкритому доступі відсутні. У дослідженні висвітлено процес створення українськомовного корпусу текстів з маркерами агресії у межах проєкту з вивчення вербальної агресії в мережевому дискурсі. Обґрунтовано вибір джерела текстів для корпусу, запропоновано розроблений автором застосунок для збирання коментарів за допомогою вебскрейпінгу, окреслено процедуру опрацювання отриманих текстів, що включає очищення, визначення мови та полярності, додаткове очищення, токенізацію та лематизацію, вилучення стоп-слів. Джерелом текстів є інтернет-портал Censor.Net. Застосунок розроблено мовою програмування Python із використанням модуля Beautiful Soup, для очищення текстів застосовано регулярні вирази, для визначення мови — бібліотеку langdetect, полярність визначено за допомогою інструменту polyglot, для токенізації та лематизації використано бібліотеку simplemma, а для виокремлення біграм — nltk. Для додаткового етапу лематизації створено словник частотних токенів (частота ≥ 5) та їхніх лем. Отриманий українськомовний корпус текстів мережевого дискурсу, що містять маркери агресії, містить 16 769 коментарів, 188 825 токенів, із яких 39 975 є унікальними, а також 168 702 унікальні біграми; у корпусі додатково зазначено нікнейм автора, текст коментаря, мову та полярність. Словники токенів і біграм містять інформацію про їхню частотність. Обсяг корпусу не є фіксованим, його й надалі буде поповнювано новими коментарями. Корпус, словники та застосунки для їх створення доступні у відкритому доступі.
Посилання
Andrusyak, B., Rimel, M., & Kern, R. (2018). Dataset of YouTube comments and dictionary of abusive words [Data set]. Retrieved on May 14, 2022, from https://cutt.ly/jDSdIhc
Andrusyak, B., Rimel, M., & Kern, R. (2018). Detection of abusive speech for mixed sociolects of Russian and Ukrainian languages. In A. Horák, P. Rychlý, A. Rambousek (Eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2018 (pp. 77–84). Tribun EU. Retrieved May 14, 2025, from https://nlp.fi.muni.cz/raslan/2018/paper04-Andrusyak.pdf
Bhattacharya, S., Singh, S., Kumar, R., Bansal, A., Bhagat, A., Dawer, Y., Lahiri, B., & Ojha, A. K. (2020). Developing a multilingual annotated corpus of misogyny and aggression. arXiv. https://doi.org/10.48550/arXiv.2003.07428
Bobrovnyk, K. (n.d.). A corpus of Ukrainian Twitter texts + instructions for downloading and filtering texts [Data set]. GitHub. Retrieved May 14, 2025, from https://cutt.ly/TDSdLYY
Bobrovnyk, K. (2019). Automated building and analysis of Ukrainian Twitter Corpus for toxic text detection. Proceedings of the 3d International Conference ‘Computational Linguistics and Intelligent Systems (Vol. 2, pp. 55–56). Retrieved May 14, 2025, from https://ena.lpnu.ua/handle/ntb/45496
Censor.Net. https://censor.net/
Chen, Ya., & Skiena, S. (2014). Building sentiment lexicons for all major languages. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pp. 383–289). Retrieved May 14, 2025, from https://cutt.ly/VF3AY60
Golbeck, J., Ashktorab, Z., Banjo, R. O., Berlinger, A., Bhagwan, S., Buntain, C., Cheakalos, P., Geller, A. A., Gergory, Q., Gnanasekaran, R. K., Gunasekaran, R. R., Hoffman, K. M., Hottle, J., Jienjitlert, V., Khare, S., Lau, R., Martindale, M. J., Naik, S., Nixon, H. L., . . . Wu, D. M. (2017). A large labeled corpus for online harassment research. WebSci’17: Proceedings of the 2017 ACM on Web Science Conference (pp. 229–233). https://doi.org/10.1145/3091478.3091509
Hate Speech Dataset catalogue. (n.d.). Hatespeechdata. Retrieved May 14, 2025, from https://hatespeechdata.com
Kupriienko, S. (n.d.). Ukrainian-Stopwords: the list of ~2000 Ukrainian stopwords (with numbers) [Data set]. GitHub. Retrieved May 14, 2025, from https://cutt.ly/lF3IYjY
Malysheva, M. (n.d.). Ukr_corpus_affression: Ukrainian-language corpus of aggressive texts of network discourse [Data set]. GitHub. Retrieved May 14, 2025, from https://github.com/mariia-malysheva/ukr_corpus_aggression [Access date: 14.05.2022]
Vidgen, B., & Derczynski, L. (2020). Directions in abusive language training data, a systematic review: garbage in, garbage out. PLoS ONE, 15(12), e0243300. https://doi.org/10.1371/journal.pone.0243300
Vidgen, B., Harris, A., Nguyen, D., Tromble, R., Hale, S., & Margetts, H. (2019). Challenges and frontiers in abusive content detection. Proceedings of the Third Workshop on Abusive Language Online (pp. 80–93). https://doi.org/10.18653/v1/W19-3509
Waseem, Z., Davidson, T., Warmsley, D., & Weber, I. (2017). Understanding abuse: a typology of abusive language detection subtasks. Proceedings of the First Workshop on Abusive Language Online (pp. 78–84). https://doi.org/10.18653/v1/W17-3012
Zhao, B. (2017). Web scraping. In L. Schintler, & C. McNeely (Eds.), Encyclopedia of Big Data (pp. 1–3). Cham: Springer. https://doi.org/10.1007/978-3-319-32001-4_483-1
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Вісник Одеського національного університету. Філологія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
