КОРПУС ТЕКСТІВ ПУБЛІЧНИХ КАНАЛІВ МЕСЕНДЖЕРА TELEGRAM: СТВОРЕННЯ ТА ПРАКТИЧНЕ ЗАСТОСУВАННЯ

Автор(и)

  • Марія Малишева Одеський національний університет імені І. І. Мечникова, Одеса, Україна https://orcid.org/0000-0002-1910-4833

DOI:

https://doi.org/10.18524/2307-8332.2024.2(30).320406

Ключові слова:

корпусна лінгвістика, корпус текстів, Telegram, українська мова, мережевий дискурc, Sketch Engine

Анотація

У статті представлено процес створення та конкретні приклади практичного застосування корпусу текстів публічних каналів месенджера Telegram. Метою розвідки обрано розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram, що передбачало розв’язання таких завдань: розробити методику формування корпусу текстів із публічних Telegram-каналів, створити та апробувати скрипти для автоматизованого збирання, очищення і аналізу текстових даних, завантажити опрацьовані тексти в корпусний менеджер, визначити перспективи подальшого використання корпусу та його удосконалення. Розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram виконано в три етапи: на першому етапі обрано в месенджері Telegram публічний канал, який став джерелом текстових даних, і завантажено історію публікацій; на другому етапі переведено отримані дані у формат, який можна використовувати в спеціалізованому програмному забезпеченні для створення корпусів текстів та керування ними; на третьому етапі завантажено попередньо-опрацьовані тексти в обраний корпус-менеджер. Для підготовки файлу написано два скрипти на мові програмування Python із використанням бібліотек SpaCy, pandas тощо (один скрипт для вилучення текстів дописів та збереження їх в окремий файл, і другий скрипт для очищення текстів та статистичного аналізу). Для ілюстрації можливостей корпусу в контексті дослідження мережевого дискурсу зроблено запити: пошук дієслів довжиною понад 15 літер, пошук хештегів, пошук власних назв, пошук атрибутивних словосполучень. Запити сформульовано за допомогою мови корпусних запитів CQL та регулярних виразів. Перспективи дослідження передбачають розширення корпусу текстами з Telegram каналів інших блогерів, вдосконалення етапу підготовки та фільтрування текстів, залучення іншого програмного забезпечення для створення та керування корпусами текстів.

Посилання

Bobrovnyk, K. (2019). Automated Building and Analysis of Ukrainian Twitter Corpus for Toxic Text Detection. Proceedings of the 3rd International Conference Computational Linguistics And Intelligent Systems, COLINS’2019 (Vol. 2: Workshop, pp. 55–56). Retrieved December 24, 2024, from https://goo.su/smSyTB8

Laboratoriia Ukrainskoi [Laboratory of Ukrainian]. (n.d.). Retrieved December 24, 2024, from https://mova.institute/ [in Ukrainian].

Prohrama pidvyshchennia kvalifikatsii naukovo-pedahohichnykh pratsivnykiv [Professional development programme for academic staff]. (2024). University of Jena. Retrieved December 24, 2024, from https://cutt.ly/ze0YrDwt [in Ukrainian].

Shvedova, M., fon Valdenfels, R., Yaryhin, S., Rysin, A., Starko, V., Nikolaienko, T., et al. (2017–2024). Heneralnyi rehionalno anotovanyi korpus ukrainskoi movy (HRAK) [General Regionally Annotated Corpus of the Ukrainian Language (GRAC)]. Kyiv, Lviv, Jena. Retrieved December 24, 2024, from https://uacorpus.org/Kyiv/ [in Ukrainian].

Chaplynskyi, D. (2023). Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale. Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP) (pp. 1–10). Dubrovnik, Croatia: Association for Computational Linguistics.

Kieraś, W., Kobyliński, Ł., Komosińska, D., Nitoń, B., Rudolf, M., Shvedova, M., & Zwierzchowska, A. (2023). PAWUK: Polish Automatic Web Corpus of Ukrainian Language. Warszawa: Instytut Podstaw Informatyki PAN. Retrieved December 24, 2024, from https://pawuk.ipipan.waw.pl [in Ukrainian].

Malysheva, M. (2024). Telegram Public Channel Corpus. GitHub. Retrieved December 24, 2024, from https://github.com/mariiamalysheva/Telegram-Public-Channel-Corpus [in Ukrainian].

Pandas Development Team. (2025). Pandas. Retrieved December 24, 2024, from https://pandas.pydata.org/ [in Ukrainian].

Python Software Foundation. (2025). Python. Retrieved December 24, 2024, from https://www.python.org/

Sketch Engine. (n.d.). Sketch Engine. Retrieved December 24, 2024, from https://www.sketchengine.eu/

spaCy. (2025). spaCy. Retrieved December 24, 2024, from https://spacy.io/

Sternenko, S. (2025). STERNENKO. Retrieved December 24, 2024, from https://t.me/ssternenko [in Ukrainian].

##submission.downloads##

Опубліковано

2024-12-27

Як цитувати

Малишева, М. (2024). КОРПУС ТЕКСТІВ ПУБЛІЧНИХ КАНАЛІВ МЕСЕНДЖЕРА TELEGRAM: СТВОРЕННЯ ТА ПРАКТИЧНЕ ЗАСТОСУВАННЯ. Вісник Одеського національного університету. Філологія, 29(2(30), 47–56. https://doi.org/10.18524/2307-8332.2024.2(30).320406

Номер

Розділ

МОВОЗНАВСТВО