Построение объяснимой модели машинного обучения для прогнозирования снижения костной массы у молодых и средних мужчин

Li Kai-Yuan ,  

Song Ze-Hui ,  

Yu Miao ,  

Yang Zhen-Wei ,  

Hou Li-Xue ,  

摘要

Целью исследования является изучение факторов риска уменьшения костной массы у молодых и средних по возрасту мужчин на основе данных медицинских осмотров, построение прогностической модели и оценка ее эффективности. Метод: в исследовании ретроспективно проанализированы данные 989 здоровых молодых и средних мужчин, проходивших обследование в госпитале №961 Войск тылового обеспечения в период с мая 2022 по май 2024 года. Набор данных был случайным образом разделен в соотношении 7:3 на обучающую выборку (n=692) и валидационную выборку (n=297). Основной конечной точкой исследования являлось возникновение снижения костной массы. Для отбора независимых прогностических факторов использовалась регрессия LASSO. Применялись 6 моделей машинного обучения: градиентный бустинг, метод опорных векторов, многофакторная логистическая регрессия, алгоритм k-ближайших соседей, легковесный градиентный бустинг и случайный лес для предсказания случаев снижения костной массы. Оптимальная модель выбиралась на основе площади под ROC-кривой (AUC), чувствительности, специфичности и рейтинга Бригера. Порог высокого риска определялся на основе максимума индекса Юдена. Калибровка и клиническая эффективность лучшей модели оценивались с помощью калибровочной кривой и кривой принятия клинических решений. Итоги интерпретировались методом SHAP. Результаты исследования выявили восемь независимых факторов, влияющих на снижение костной массы у молодых и средних по возрасту мужчин: курение, уровень липопротеинов высокой плотности, триглицериды, количество эритроцитов, регулярные физические упражнения, сывороточный альбумин, гемоглобин и уровень мочевой кислоты. Из шести моделей машинного обучения лучшая прогностическая эффективность была у модели случайного леса (RF), для валидационной выборки AUC составила 0,706 (95% ДИ 0,644~0,769), специфичность – 0,884, положительное прогнозируемое значение – 0,704, отрицательное прогнозируемое значение – 0,708, точность – 0,704, при этом рейтинг Бригера был лучшим и составил 0,0301 (0,0283~0,0322). Максимальное значение индекса Юдена составило 0,384, чувствительность – 0,579, специфичность – 0,805. Калибровочная кривая валидационной выборки имела минимальное отклонение в диапазоне вероятностей 0,20–0,65. Кривая клинических решений в валидационной выборке показывала положительную чистую выгоду при порогах риска от 0,12 до 0,65, что поддерживает использование модели в клинической практике. Вывод: курение, липопротеины высокой плотности, триглицериды, количество эритроцитов, регулярные физические упражнения, сывороточный альбумин, гемоглобин и мочевая кислота являются независимыми факторами риска снижения костной массы у молодых и средних по возрасту мужчин. Построенная на их основе прогностическая модель обладает хорошей эффективностью и может служить поддержкой принятия врачебных решений на основе доказательной медицины.

关键词

снижение костной массы; машинное обучение; метод SHAP; поддержка принятия решений

阅读全文