根据发表在《公共卫生前沿》上的一项研究,艾滋病毒感染者(PLWH)的住院时间和住院时间都可以使用机器学习模型来预测。
2021年,全球约有150万例新的艾滋病毒诊断和65万例因艾滋病毒死亡。HIV相关的合并症仍然是中国PLWH生存的主要问题。通过准确预测住院时间和确定延长住院时间的风险因素,可以帮助规划艾滋病毒诊断和管理干预措施。机器学习(ML)有潜力预测这些因素。本研究旨在使用一个以上的ML模型来预测PLWH的住院时间和延长住院时间的风险。
患者于2008年1月至2020年6月从北京入组。建立了2个模型:一个模型预测长期住院的风险,另一个模型预测个人住院时间。年龄在18岁及以上的患者被纳入研究,而那些在医院停留不到12小时的患者被排除在外。收集人口统计学数据,包括临床数据,如HIV传播途径、传播类型和入院时的基线高效抗逆转录病毒治疗(HAART)。
住院时间的数值是研究的主要结局。住院时间延长的风险是次要结局,住院时间延长定义为患者入院和出院之间超过25天。
非艾滋病定义事件(NADE)的风险在PLWH中发生的风险增加。多重机会性感染(OI)定义为2种或2种以上病原体被诊断并共存。极端梯度增强(XGB)模型是运行所有模型的基础。使用10倍交叉验证和网格搜索来收集用于4 ML和5 ML回归模型算法的超参数,以分别预测住院时间和延长的住院时间。
本研究纳入了1556例患者,其中91.1%为男性,平均年龄为45岁。平均基线CD 4计数为158个细胞/ml,50.1%的病例诊断为多个OI,3.3%的病例发现有NADE。平均住院时间为24.14天。共有36%的参与者住院时间延长,或住院超过25天。对于预测住院时间和延长住院时间的ML回归模型,所有参与者被分为2组:培训队列和验证队列。
有4种回归模型用于预测住院时间:随机森林(RF),k-最近邻(KNN),支持向量机(SVM)和XGB。KNN模型被认为具有最好的判别能力(均方根误差[RMSE],12.72;平均绝对误差[MAE],7.23;平均绝对百分比误差[MAPE],0.60)。XGB在模型中表现最好(RMSE,16.81; MAE,10.39; MAPE,0.98),KNN表现最差(RMSE,19.67; MAE,11.61; MAPE,0.99)。
有5个ML分类模型用于评估延长住院时间的风险。KNN模型具有所有模型中最好的区分能力(准确性,0.9008;阳性预测值[PPV],0.8982;阴性预测值[NPV],0.9063;灵敏度,0.9525;特异性,0.8096)。NN模型被认为是最好的整体(准确度,0.7623; PPV,0.7853; NPV,0.7092;灵敏度,0.8620;特异性,0.5882)。发现KNN模型是模型中总体最差的(准确度,0.7281; PPV,0.7607; NPV,0.6525;灵敏度,0.8350;特异性0.5647)。
这项研究有一些局限性。由于研究的回顾性,可能存在选择偏倚和信息偏倚。所有数据都来自一个中心。预后和入院可能受到患者的社会环境的影响。本研究未进行外部验证。
研究人员得出结论,ML模型可以帮助预测住院时间和长期住院的风险因素。XGB模型可用于预测住院时间,而NN模型可用于预测住院时间延长。未来可以通过使用智能医疗预测系统来帮助减少医疗资源的浪费。
参考文献
来源