ВИЯВЛЕННЯ КЛЮЧОВИХ СЛІВ НА ОСНОВІ МЕТОДУ КОНТЕНТ-МОНІТОРИНГУ УКРАЇНОМОВНИХ ТЕКСТІВ

O. V. Bisikalo, V. A. Vysotska

Анотація


Вирішено завдання розробки алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі визначення ключових слів україномовного тексту. Розглянуто формальне обґрунтування методу контент-моніторінгу тексту за допомогою стеммера Портера, в основу модифікації стемінгу покладено відомі результати класифікації морфемної і словотвірної структури дериватів української мови, виявлення закономірностей комбінаторики афіксів, моделювання структурної організації дієслів і суфіксальних іменників, а також морфонологічних модифікацій у процесі словозміни дієслова та словозміні і словотворенні прикметників української мови. Проведено декомпозицію методу та розроблено алгоритмічне забезпечення його основних структурних складових за результатами контент-аналізу тексту. Теоретично виявлено способи покращення показників ефективності пошуку ключових слів, зокрема щільності ключовиків у тексті. На основі розробленого програмного забезпечення отримано результати експериментальної апробації запропонованого методу контент-моніторінгу для визначення ключових слів в наукових текстах технічного профілю. Виявлено, що для обраної експериментальної бази зі 100 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації і без списку літератури, але із перевіркою уточнених заблокованих слів та уточненого тематичного словника.

Ключові слова


текст, україномовний, алгоритм, контент-моніторінг, ключові слова, контент-аналіз, стеммер Портера, лінгвістичний аналіз, синтаксичний аналіз.

Повний текст:

PDF

Посилання


Берко А. Системи електронної контент-комерції / А. Берко, В. Висоцька, В. Пасічник. – Л. : НУЛП, 2009. – 612 с. 2. Математична лінґвістика / [В. Висоцька, В. Пасічник, Ю. Щербина, Т. Шестакевич]. – Л. : «Новий Світ-2000», 2012. – 359 с. 3. Найефективніші методи залучення потенційних клієнтів [Електронний ресурс] / Центр ресурсів якості трафіку оголошень, Google AdWords. – Режим доступу: http://www.google.com/intl/ uk_ALL/ads/adtrafficquality/advertisers/best-practices-forgenerating-leads.html. – Назва з титул. екрану. 4. Нечеткий поиск в тексте и словаре [Електронний ресурс]. – Режим доступу: http://habrahabr.ru/post/114997/. – Назва з титул. екрану. 5. Реализации алгоритмов. Расстояние Левенштейна [Електронний ресурс]. – Режим доступу: http://ru.wikibooks.org/wiki/ Реализации_алгоритмов/Расстояние_Левенштейна. – Назва з титул. екрану. 6. Задача о расстоянии Дамерау-Левенштейна [Електронний ресурс]. – Режим доступу: http://neerc.ifmo.ru/wiki/i n d e x . p h p ? t i t l e = % D 0 % 9 7 % D 0%B0 %D0%B4 %D0%B0 %D1%8 7 %D0%B0 _%D0 %B E _ % D 1 % 8 0 % D 0 % B 0 % D 1 % 8 1 % D 1 %81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B8_%D0% 94%D0%B0%D0%BCD0%B5%D1%80%D0%B0%D1%83-% D 0 % 9 B % D 0 % B 5 % D 0 % B 2 % D 0 % B 5 % D0%BDD1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0. – Назва з титул. екрану. 7. Насонов Д. Функция Левенштейна [Електронний ресурс] / Д. Насонов. – Режим доступу: http://rain.ifmo.ru/cat/data/theory/unsorted/levenshtein-2006/article.pdf. – Назва з титул. екрану.






Адреса редакції журналу:
Редакція журналу «РІУ», Запорізький національний технічний університет, 
вул. Жуковського, 64, м. Запоріжжя, 69063, Україна. 
Телефон: 0 (61) 769-82-96 – редакційно-видавничий відділ
E-mail: rvv@zntu.edu.ua

При повному або частковому використаннi матерiалiв посилання на журнал є обов’язковим.