Preview

Ученые записки Казанского университета. Серия Физико-математические науки

Расширенный поиск

О разрешимости оптимизационной задачи построения вполне интерпретируемых линейных регрессий

https://doi.org/10.26907/2541-7746.2025.4.627-640

Аннотация

Статья посвящена совершенствованию технологии построения интерпретируемых регрессионных моделей, параметры которых оцениваются с помощью метода наименьших квадратов. Введено определение вполне интерпретируемой линейной регрессии. К ней предъявлены требования согласованности знаков оценок параметров содержательному смыслу переменных, значимости оценок, низкой степени мультиколлинеарности и высокого качества аппроксимации. Принадлежность модели к классу вполне интерпретируемых регрессий зависит от уровня значимости. В терминах аппарата частично-булевого линейного программирования, прогрессирующего за последние годы в вычислительном плане, сформулирована оптимизационная задача построения вполне интерпретируемых линейных регрессий с довольно большим количеством линейных ограничений. Доказана разрешимость этой задачи при определенных условиях. Предлагаемый математический аппарат может успешно применяться для обработки больших данных, поскольку число ограничений в сформулированной задаче, в отличие от существующих зарубежных аналогов, не зависит от объема выборки. 

Об авторе

М. П. Базилевский
Иркутский государственный университет путей сообщения
Россия

Михаил Павлович Базилевский, кандидат технических наук, доцент, доцент кафедры «Математика»

г. Иркутск, Россия



Список литературы

1. Molnar C. Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. Lulu.com, 2020. 320 p.

2. Doshi-Velez F., Kim B. Towards a rigorous science of interpretable machine learning. Ver. 2. arXiv Preprint 1702.08608. 2017. https://doi.org/10.48550/arXiv.1702.08608.

3. Горбач А.Н., Цейтлин Н.А. Покупательское поведение: анализ спонтанных последовательностей и регрессионных моделей в маркетинговых исследованиях. Киев: Освiта України, 2011. 220 с.

4. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: Юнити, 1998. 1005 с.

5. Konno H., Yamamoto R. Choosing the best set of variables in regression analysis using integer programming // J. Global Optim. 2009. V. 44, No 2. P. 273–282. https://doi.org/10.1007/s10898-008-9323-9.

6. Miyashiro R., Takano Y. Mixed integer second-order cone programming formulations for variable selection in linear regression // Eur. J. Oper. Res. 2015. V. 247, No 3. P. 721–731. https://doi.org/10.1016/j.ejor.2015.06.081.

7. Miyashiro R., Takano Y. Subset selection by Mallows’ 𝐶𝑝 : A mixed integer programming approach // Expert Syst. Appl. 2015. V. 42, No 1. P. 325–331. https://doi.org/10.1016/j.eswa.2014.07.056.

8. Tamura R., Kobayashi K., Takano Y., Miyashiro R., Nakata K., Matsui T. Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor // J. Global Optim. 2019. V. 73, No 2. P. 431–446. https://doi.org/10.1007/s10898-018-0713-3.

9. Tamura R., Kobayashi K., Takano Y., Miyashiro R., Nakata K., Matsui T. Best subset selection for eliminating multicollinearity // J. Oper. Res. Soc. Jpn. 2017. V. 60, No 3. P. 321–336. https://doi.org/10.15807/jorsj.60.321.

10. Bertsimas D., King A., Mazumder R. Best subset selection via a modern optimization lens // Ann. Stat. 2016. V. 44, No 2. P. 813–852. https://doi.org/10.1214/15-AOS1388.

11. Bertsimas D., King A. OR forum—an algorithmic approach to linear regression // Oper. Res. 2016. V. 64, No 1. P. 2–16. https://doi.org/10.1287/opre.2015.1436.

12. Базилевский М.П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования // МОИТ. 2018. Т. 6, № 1 (20). С. 108–117.

13. Koch T., Berthold T., Pedersen J., Vanaret C. Progress in mathematical programming solvers from 2001 to 2020 // EURO J. Comput. Optim. 2022. V. 10. Art. 100031. https://doi.org/10.1016/j.ejco.2022.100031.

14. Базилевский М.П. Отбор информативных регрессоров с учетом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования // МОИТ. 2018. Т. 6, № 2 (21). С. 104–118.

15. Базилевский М.П. Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования // Вестн. ВГУ. Сер.: Сист. анализ и информ. технол. 2021. № 3. С. 5–16. https://doi.org/10.17308/sait.2021.3/3731.

16. Базилевский М.П. Оптимизационные задачи отбора информативных регрессоров в линейной регрессии с контролем ее значимости по критерию Фишера // Изв. Самарск. науч. центра РАН. 2024. Т. 26, № 6. С. 200–207.

17. Chung S., Park Y.W., Cheong T. A mathematical programming approach for integrated multiple linear regression subset selection and validation // Pattern Recognit. 2020. V. 108. Art. 107565. https://doi.org/10.1016/j.patcog.2020.107565.

18. Bertsimas D., Li M.L. Scalable holistic linear regression // Oper. Res. Lett. 2020. V. 48, No 3. P. 203–208. https://doi.org/10.1016/j.orl.2020.02.008.

19. Ферстер Э., Ренц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983. 303 с.

20. Лебедева А.В., Рябов В.М. О численном решении систем линейных алгебраических уравнений с плохо обусловленными матрицами // Вестн. СПбГУ. Матем. Механ. Астрон. 2019. Т. 6, № 4. С. 619–626. https://doi.org/10.21638/11701/spbu01.2019.407.


Рецензия

Для цитирования:


Базилевский М.П. О разрешимости оптимизационной задачи построения вполне интерпретируемых линейных регрессий. Ученые записки Казанского университета. Серия Физико-математические науки. 2025;167(4):627-640. https://doi.org/10.26907/2541-7746.2025.4.627-640

For citation:


Bazilevskiy M.P. On the solvability of the optimization problem for constructing quite interpretable linear regressions. Uchenye Zapiski Kazanskogo Universiteta. Seriya Fiziko-Matematicheskie Nauki. 2025;167(4):627-640. (In Russ.) https://doi.org/10.26907/2541-7746.2025.4.627-640

Просмотров: 49


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2541-7746 (Print)
ISSN 2500-2198 (Online)