Модификация автоматического метода извлечения причинно-следственных связей, основанного на шаблонах и Байесовском классификаторе
https://doi.org/10.21822/2073-6185-2025-52-1-162-172
Аннотация
Цель. Целью исследования является модификация автоматического метода извлечения причинно-следственных связей.
Метод. Исследование основано на оригинальном методе Антоние Соргенте с его последующей модификацией.
Результат. Предложен метод извлечения причинно-следственных связей. Метод предполагает комбинированное использование статистических данных и машинных методов. Оригинальный метод был модифицирован переводом работы метода на современные библиотеки, такие как NLTK и Spacy. Правила, сформированные автором, были переработаны и добавлены в модуль Dependency Matcher библиотеки Spacy. Количество ключевых слов по каждому правилу были увеличены. Метод так же предполагает учет синонимов, подсчет Байесовской статистики и сглаживание Лапласа для нулевых вероятностей. Исходя из разности данных с ПСС и без, был введен коэффициент multiplier для компенсации перекоса классов в данных.
Вывод. Разработанный метод был протестирован на исходных данных оригинального метода и показал улучшенные метрики относительно оригинального метода на тренировочных и тестовых данных.
Об авторах
Х. Б. ШтанчаевРоссия
Штанчаев Хайрутин Баширович, кандидат технических наук, доцент, кафедра программного обеспечения вычислительной техники и автоматизированных систем, старший инженер АСУТП,
1367015, г. Махачкала проспект Имама Шамиля 70
З. Т. Мугутдинов
Россия
Мугутдинов Залибек Темирланович, аспирант, кафедра программного обеспечения вычислительной техники и автоматизированных систем,
2368080, Республика Дагестан, с. Коркмаскала, Заводская ул, зд.1 стр.1
Список литературы
1. Штанчаев Х.Б. Нестатистические методы автоматического извлечения причинно-следственных связей из текста / Х.Б. Штанчаев // Известия ЮФУ. Технические науки. – 2023. – № 2(232). – С. 273- 280. – DOI 10.18522/2311-3103-2023-2-273-280. – EDN JZUBSO.1
2. Штанчаев, Х.Б. Статистические и машинные методы автоматического извлечения причинноследственных связей из текста (обзор) / Х.Б. Штанчаев // Известия ЮФУ. Технические науки. – 2023. – № 6(236). – С. 105-114. – DOI 10.18522/2311-3103-2023-6-105-114. – EDN TBHUWW.
3. Fellbaum, Christiane (2005). WordNet and wordnets. In: Brown, Keith et al. (eds.), Encyclopedia of Language and Linguistics, Second Edition, Oxford: Elsevier, 665-670.
4. VerbNet. A Computational Lexical Resourse for Verbs. Интернет-ресурс. Способ доступа - https://verbs.colorado.edu/verbnet/
5. Text Rettieval Conference(TREC). Интернет-ресурс. Способ доступа - https://en.wikipedia.org/wiki/Text_Retrieval_Conference
6. G.V. a. F.M. Antonio Sorgente, "Automatic extraction of cause-effect relations in," Institute of Cybernetics “Eduardo Caianiello” of the National Research Council, Январь 2013.
7. L.A. Dalton, E.R. Dougherty. Optimal Bayesian Classification, SPIE--The International Society for Optical Engineering, 2020, 363p.
8. Sayed, A.H. Inference and Learning from Data: Learning. Cambridge: Cambridge University Press. – 2022, Chapter 55, 2341-2356
9. Ananda P. Noto, Dewi R.S. Saputro; Classification data mining with Laplacian Smoothing on Naïve Bayes method. AIP Conf. Proc. 28 November 2022; 2566 (1): 030004.
10. Dependency Matcher Интернет-ресурс. Способ доступа - https://spacy.io/usage/rule-basedmatching#dependencymatcher.
11. SpaCy 101. Все что нам нужно знать. Интернет-ресурс. Способ доступа - https://webdevblog.ru/spacy101-vse-chto-vam-nuzhno-znat-chast-1
12. Метрики качества моделей бинарной классификации. Интернет-ресурс. Способ доступа - https://loginom.ru/blog/classification-quality
Рецензия
Для цитирования:
Штанчаев Х.Б., Мугутдинов З.Т. Модификация автоматического метода извлечения причинно-следственных связей, основанного на шаблонах и Байесовском классификаторе. Вестник Дагестанского государственного технического университета. Технические науки. 2025;52(1):162-172. https://doi.org/10.21822/2073-6185-2025-52-1-162-172
For citation:
Shtanchaev Н.В., Mugutdinov Z.T. Modification of an automatic method for extracting causal relationships based on templates and a Bayesian classifier. Herald of Dagestan State Technical University. Technical Sciences. 2025;52(1):162-172. (In Russ.) https://doi.org/10.21822/2073-6185-2025-52-1-162-172