ОЦЕНКА РЕЗУЛЬТАТИВНОСТИ ПРИМЕНЕНИЯ РАССТОЯНИЙ ЕВКЛИДА И МАХАЛАНОБИСА ДЛЯ РЕШЕНИЯ ОДНОЙ ИЗ ЗАДАЧ КЛАССИФИКАЦИИ ТЕКСТОВ


https://doi.org/10.21822/2073-6185-2017-44-1-86-93

Полный текст:


Аннотация

Резюме: Цель. Целью работы является проведение сравнения эффективности применения метрик Евклида и Махаланобиса для решения задачи определения категории потенциальных адресатов текста. Актуальность поставленной задачи определена необходимостью развития средств идентификации адресата электронного документа, возросшей в связи с введением возрастных ограничений на контент интернет-страниц и содержимое текстовых ресурсов, а также малой освещенностью данной проблемы в работах российских исследователей. Метод. Сравнение эффективности использования расстояний Евклида и Махаланобиса проведено в рамках реализации интеллектуальной системы автоматической классификации текстов на основании возрастной категории их адресатов. Результат. Рассмотрены основные подходы к установлению меры близости объектов, представленных в виде наборов классификационных признаков, а также обоснован выбор метрик Евклида и Махаланобиса для проведения численного сравнения результатов классификации. Приведено описание выборок текстов, предоставленных для вычислительного эксперимента, и классификационных признаков, характеризующих категории. Проведен вычислительный эксперимент с использованием текстов, входящих в состав Национального корпуса русского языка. Вывод. Вычислительный эксперимент позволяет выбрать наиболее эффективный метод решения задачи определения возрастной категории потенциальных адресатов текста. Результаты эксперимента показали возможность использования метрик Евклида и Махаланобиса для решения задач классификации текстов, а также подтвердили предпочтительность использования метрики Махаланобиса для оценивания расстояний объектами, представленными коррелированными признаками. Представленное сравнение проведено в рамках реализации интеллектуальной системы автоматической классификации текстов на основании возрастной категории их адресатов. 


Об авторе

А. В. Глазкова
Тюменский государственный университет
Россия

ассистент кафедры программного обеспечения

625003, г. Тюмень, ул. Перекопская, д. 15а



Список литературы

1. Кадиев, П.А. Пакет программ для скремблирования информационного потока / П.А. Кадиев, И.П. Кадиев, Т.М. Мирзабеков // Вестник Дагестанского государственного технического университета. Технические науки. – 2016. – № 2. – С. 83-92.

2. Шихиев, Ф.Ш. Графовая модель синтаксиса / Ф.Ш. Шихиев // Вестник Дагестанского государственного технического университета. Техническиенауки. – 2012. – № 25. – С. 32-37.

3. Nguyen, D. Author Age Prediction from Text using Linear Regression / D. Nguyen, N. Smith, C. Rose // Proc. of ICASSP. – New-York, 2011. – P. 267-276.

4. Кубарев, А.И. Сравнительный анализ эффективности распознавания авторского стиля текстов различными классификаторами / А.И. Кубарев, К.А. Михалева, В.В. Поддубный // Известия высших учебных заведений. Физика. – 2015. – Т. 58. № 11-2. – С. 252-258.

5. Муха, А.В. Автоматизированный подход к определению авторства текста / А.В. Муха, В.Л. Розалиев, Ю.А. Орлова, А.В. Заболеева-Зотова // Известия Волгоградского государственного технического университета. – 2013. – Т. 17. № 14 (117). – С. 51-54.

6. Akker, R. A comparison of addressee detection methods for multiparty conversations / R. Akker, D. Traum // Proc. of methods for multiparty conversations. – Amsterdam, 2009. – P. 99-106.

7. Choi, D. Text Analysis for Detecting Terrorism-Related Articles on the Web / D. Choi, B. Ko, H. Kim, P. Kim // Journal of Network and Computer Applications. – 2013. – Vol. 8, №5. – P. 37-46.

8. Колесникова, С.И. Методы анализа информативности разнотипных признаков / С.И. Колесникова // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. – 2009. – №1(6). – С. 69-80.

9. Поляков, И.В. Проблема классификации текстов и дифференцирующие признаки/ И.В. Поляков, Т.В. Соколова, А.А. Чеповский, А.М. Чеповский // Вестник Новосибирского государственного университета. Серия: Информационные технологии. – 2015. – Т. 13. № 2. – С. 55-63.

10. Толчеев, В.О. Модифицированный и обобщенный метод ближайшего соседа для классификации библиографических текстовых документов / В.О. Толчеев // Заводская лаборатория. Диагностика материалов. – 2009. – №7. – С. 63-70.

11. Мешкова, Е.В. Методика построения классификатора текста на основе гибридной нейросетевой модели / Е.В. Мешкова // Известия ЮФУ. Технические науки. – 2008. – № 4 (81). – С. 212-215.

12. Козоброд, А.В. Анализ архитектур гибридных нейросетевых моделей в задачах автоматической классификации текстовой информации / А.В. Козоброд, В.Е. Мешков, Е.В. Мешкова // Известия ЮФУ. Технические науки. – 2010. – № 12 (113). – С. 185-190.

13. Ким, Дж.-О. Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка, М.С. Олдендерфер, Р.К. Блэшфилд. – М.: Финансы и статистика, 1989. – 215 с.

14. Хачумов, М.В. Расстояния, метрики и кластерный анализ / М.В. Хачумов // Искусственный интеллект и принятие решений. – 2012. – №1. – С. 81-89.

15. Толмачев, И.Л. Бинарная классификация на основе варьирования размерности пространства признаков и выбора эффективной метрики / И.Л. Толмачев, М.В. Хачумов // Искусственный интеллект и принятие решений. – 2010. – №2. – С. 3-10.

16. Хачумов, М.В. Применение нейрона и расстояния Евклида-Махаланобиса в задаче бинарной классификации / М.В. Хачумов // Наука и современность. – 2010. – №2-3. – С. 82-86.

17. Шумская, А.О. Оценка эффективности метрик расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста / А.О. Шумская // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2013. – №3 (29). – С. 141-145.

18. «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)». 2014.

19. Национальный корпус русского языка [Электронный ресурс]. 2015. URL: http:// ruscorpora.ru/ (дата обращения: 26.07.2016).

20. Глазкова, А.В. Проверка информативности классификационных признаков в задаче автоматической классификации текстов на естественном языке / А.В. Глазкова // Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2015): материалы конференции. – 2015. – С. 541-544.

21. Буреева, Н.Н. Многомерный статистический анализ с использованием ППП ―STATISTICA‖ / Н.Н. Буреева. – Нижний Новгород: Нижегородский государственный университет им. Н.И. Лобачевского, 2007. – 112 с.


Дополнительные файлы

Для цитирования: Глазкова А.В. ОЦЕНКА РЕЗУЛЬТАТИВНОСТИ ПРИМЕНЕНИЯ РАССТОЯНИЙ ЕВКЛИДА И МАХАЛАНОБИСА ДЛЯ РЕШЕНИЯ ОДНОЙ ИЗ ЗАДАЧ КЛАССИФИКАЦИИ ТЕКСТОВ. Вестник Дагестанского государственного технического университета. Технические науки. 2017;44(1):86-93. https://doi.org/10.21822/2073-6185-2017-44-1-86-93

For citation: Glazkova A.V. EFFICIENCY ASSESSMENT OF EUCLIDEAN AND MAKHALANOBIS DISTANCES FOR SOLVING A MAJOR TEXT CLASSIFICATION PROBLEM. Herald of Dagestan State Technical University. Technical Sciences. 2017;44(1):86-93. (In Russ.) https://doi.org/10.21822/2073-6185-2017-44-1-86-93

Просмотров: 141

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2073-6185 (Print)
ISSN 2542-095X (Online)