ІННОВАЦІЙНІ МОВНІ ТЕХНОЛОГІЇ ТА ШТУЧНИЙ ІНТЕЛЕКТ: РОЗРОБКА ТА ЗАСТОСУВАННЯ ПЛАТФОРМИ POLYHEDRON НА ОСНОВІ УКРАЇНСЬКИХ ЛЕКСИКОГРАФІЧНИХ ТЕОРІЙ
PDF (English)

Ключові слова

методи штучного інтелекту; обробка природної мови; лексикографічні технології; динамічні онтології; морфолого-семантичний аналіз; нейронні мережі; мультикритеріальний аналіз; POLYHEDRON artificial intelligence methods; natural language processing; lexicographic technologies; dynamic ontologies; morphological and semantic analysis; neural networks; multi-criteria decision analysis; POLYHEDRON

Як цитувати

НАДУТЕНКО, М. В., НАДУТЕНКО, М. В., & ФАСТ, О. Л. (2024). ІННОВАЦІЙНІ МОВНІ ТЕХНОЛОГІЇ ТА ШТУЧНИЙ ІНТЕЛЕКТ: РОЗРОБКА ТА ЗАСТОСУВАННЯ ПЛАТФОРМИ POLYHEDRON НА ОСНОВІ УКРАЇНСЬКИХ ЛЕКСИКОГРАФІЧНИХ ТЕОРІЙ. АКАДЕМІЧНІ СТУДІЇ. СЕРІЯ «ГУМАНІТАРНІ НАУКИ», (3), 38-48. https://doi.org/10.52726/as.humanities/2024.3.6

Анотація

У статті представлено комплексний підхід до створення та впровадження інтелектуальних мовних технологій, розроблених авторами POLYHEDRON, що ґрунтуються на фундаментальних лексикографічних теоріях, розроблених Українським мовно-інформаційним фондом НАН України. Автори акцентують увагу на сімействі технологій POLYHEDRON, яке включає інструменти для лексикографічного та корпусного опрацювання текстів, системи парсингу файлів різних форматів, модулі морфолого-семантичного аналізу, а також інноваційні засоби побудови динамічних онтологій і підтримки прийняття рішень. Завдяки цьому забезпечується багаторівнева обробка природної мови (української, англійської, російської, французької, німецької та італійської) та створення масштабованих інформаційних ресурсів, орієнтованих як на науковий, так і на прикладний використок. Центральний елемент дослідження – гібридна архітектура, що об’єднує статистичні методи (глибокі нейронні мережі типу трансформерів) із лексикографічно-онтологічними моделями. Такий підхід дозволяє водночас ефективно аналізувати синтаксичну й семантичну структуру речень, виявляти латентні зв’язки між термінами й концептами та формувати динамічні онтології, які постійно оновлюються на основі нових текстових даних. У роботі особливо підкреслено роль технологій динамічного стискання знань, які забезпечують оптимізоване зберігання та обробку інформації, даючи змогу використовувати менші за обсягом нейронні моделі без погіршення точності аналізу. Одним із ключових напрямів застосування описаних технологій є автоматизований моніторинг та аналіз великих масивів тексту, включно з документами правового характеру, науково-технічними публікаціями, медіа-матеріалами тощо. Для цього було розроблено окремі підсистеми парсингу (MxParse, MxDocArch, OCR-модулі), що підтримують формати DOC, PDF, TXT, HTML та інші, а також розпізнають відскановані зображення й аудіо/ відео-файли. Важливу роль відіграють технології «AVALANCHE» та «INVISIBLE», розроблені авторами, які забезпечують унікальні можливості для швидкої індексації та пошуку даних у багатомовних корпусах: перша відповідає за постійне зберігання мільярдів об’єктів на диску, а друга – за ефективну роботу з великими структурами в оперативній пам’яті. У статті також представлено платформу INTELLIGENCE-ANALYTICS, що поєднує три важливі складові: нейронну мережу, онтологічний модуль і механізми мультикритеріального аналізу (MCDA). Така інтеграція дає змогу знаходити неочевидні зв’язки між документами, визначати пріоритети серед множини альтернатив, а також формувати гнучкі аналітичні звіти для прийняття рішень у реальному часі. Серед перспективних напрямів застосування – галузі національної безпеки, освіти, правової експертизи, наукових досліджень, а також інформаційного менеджменту у великих організаціях. Автори наголошують на критичній важливості розвитку власних національних мовних моделей, зокрема українськомовних, які можуть бути конкурентоспроможними з зарубіжними аналогами. Запропоновані концепції підтверджують, що укорінення лексикографічно-онтологічного підходу разом із сучасними нейронними алгоритмами дозволяє зберегти якість обробки при зменшенні розміру моделей та обчислювальних ресурсів. Це особливо актуально з огляду на обмеження цільового фінансування та інфраструктурні виклики. Завдяки проведеним дослідженням та співпраці з партнерами з наукових і освітніх установ створено унікальні напрацювання, які здатні прискорити темпи оцифрування документів, підтримати розвиток високотехнологічних продуктів в Україні та зміцнити інформаційну безпеку. У статті підкреслено потребу консолідації науково-технічного потенціалу, формування державно-приватних проєктів і розширення партнерства між установами НАН України, університетами й приватним сектором. Автори вбачають у цьому головний імпульс до створення інтегрованої мовно-інформаційної екосистеми, здатної вирішувати інтелектуальні виклики сучасності та стимулювати науково-технологічний прогрес у країні.

https://doi.org/10.52726/as.humanities/2024.3.6
PDF (English)

Посилання

УМІФ: Український мовно-інформаційний фонд НАН України. URL: https://www.ulif.org.ua/about.

УМІФ. Проекти. URL: https://ulif.org.ua/projects

Програмні продукти. URL: https://central.ulif.org.ua/

УМІФ. Ресурси. URL: https://lcorp.ulif.org.ua/LSlist

Nadutenko M., Prykhodniuk V., Shyrokov V., Stryzhak O. Ontology-Driven Lexicographic Systems. Advances in Information and Communication. FICC 2022. Lecture Notes in Networks and Systems. Cham : Springer. 2022. С. 204–215. DOI: 10.1007/978-3-030-98012-2_16

Широков В.А. Лінгвістичні виміри проблем національної безпеки та оборони України. Вісник Національної академії наук України. 2024. № 1. С. 56–71. https://doi.org/10.15407/visn2024.01.056