新闻中心

临床数据分析大赛的参赛经历(国赛数据分析题)

2024-05-27
浏览次数:
返回列表

缘起

2018年的时候参加过一次SAS大赛,算是每年的一次SAS盛会,记得当年有1300多支代表队参加,流程大致是根据不同的报名地区分组(比如我在北京,大家统一去对外经贸大学上机考试),先上机考试作为初赛,通过后在同一考场建模,提交决赛的结果。当时和两个师妹一起组成了一只小队浑浑噩噩的进入到前100名,SAS大赛的奖状很精美,每人还会发一件纪念T-shirt,最后主办方会组织选手们统一去钓鱼台国宾馆参加颁奖典礼。但2018年的SAS大赛对我来说只能算是一次打酱油的经历。SAS大赛的内容涉猎很广,涵盖各个领域,我们日常的学习工作主要针对于医学领域的数据进行统计分析,所以如果说SAS大赛考察的是SAS技术和建模的综合能力,那么今年的首届临床数据分析大赛算是一次医学数据尤其是临床数据分析的专业盛会了。

初赛

今年临床数据分析大赛的流程和SAS大赛类似,可能因为是第一次举行专门的临床数据分析比赛,所以报名队伍没有SAS大赛超过1000支那么夸张。学生组(330支)和企业组(276支)一共有606支参加比赛。企业组各自为战,一人一支队伍;学生组1-3人组队,在报名前我也有过犹豫要不要像之前一样组队,但找了一圈也没有合适的人选,只好先单枪匹马报名了。比赛形式上也是先上机考试作为初赛(选取前50),然后给出题目作为决赛(选取前10),最后综合总决赛现场路演的专家评委打分争夺冠亚季军(选取前6)。尽管我在初赛的时候排名40多名,差点无缘决赛。但是说实话初赛的难度不是很大,比如初赛的机考题目主要范围包括SAS编程的一些基础知识以及基本的医学统计学和流行病学知识等等,赛前有一个说明会,会给出范围(虽然我没仔细听)。总之都是比较基础的,但尽管基础还是有不少有些不常用的命令和选项让我挠头(注意:要仔细听说明会)。

决赛

今年的决赛选题有两个方向,分别是流行病学数据分析方向和临床试验编程方向。我选择了前者,具体内容是一个非小细胞肺癌的数据库,包含2120例患者,数据类型包括人口学资料,临床指标,生活质量评分和基因数据。可以从平台下载5个数据集,在经过一系列数据清洗和统计分析过程后报告数据的分析结果、绘制图表和提交研究报告和SAS代码(注意:提交时的材料需匿名否则以作弊处理)。对于决赛的分析思路我并没有太复杂的模型,数据清洗之后开始描述性统计分析,之后单因素和多因素分析,其中多因素分析前做了两个数据降维的方法,分别是随机森林模型和趋势卡方检验,然后利用降维后的数据和单因素分析的结果构建预测模型。可视化方面除了常规的折线图、柱状图、生存曲线外,另外也对亚组分析做了森林图(forestplot)、桑基图(sankey diagram)和预测模型的列线图(nomogram)。生存分析的结果方面除了计算风险比(HR)之外也计算了限制性平均生存时间(RMST)。最后能够进入前10名也比较意外,毕竟大部分选手来自医科大学的公共卫生学院,我没有想到能和他们一起进入决赛。

路演

赛排名前10的选手进行现场路演,也就是总决赛了。总决赛的队伍报销差旅费(住宿条件是五星酒店,交通是往返高铁或飞机),地点是江苏无锡。路演由6位来自高校的专家评审(60%权重)和12位来自企业的专业评审(40%权重)组成。由于疫情的原因,我没有办法离开香港,所以主办方提供给我了一个在线上通过视频连线的方式进行。我通过直播看了企业组和学生组的大部分路演,感觉大家都很强,在数据分析方面用到了机器学习等方法,令人眼前一亮。最终的排名是决赛成绩(研究报告+SAS代码)的60%和路演成绩的40%组成。今年的运气比较好,最后一路跌跌撞撞走到了第7名,也让我看到了自己的水平和其他人的差距,了解自己目前大概处于什么位置。

闭幕

一人团意味着SAS programming和report writing的工作全部需要自己完成。2-3人可以分配工作+时间,对我来说1个人能分配的只有时间。我当时拿到决赛题目的时候留给自己3周的时间,对时间的分配计划是第1周programming,包括数据清洗和建模。第2周优化代码和调试模型并开始撰写部分报告。第3周完成并优化报告,对代码继续优化。养成良好的代码规范,包括代码的注释、命名规则、模块化和效率优化。数据清洗其实占了整个programming的一半以上,涉及到的操作包括不同类型数据读入、函数、数组、循环、累加、转置、表拼接、宏命令等等。至于建模过程,正如某位评委老师所说,没有标准答案,只要不犯原则性的错误即可。我想也许George Box的这句“Essentially, all models are wrong, but some are useful”可能更值得我们深入去思考。

感谢

也许今后的赛制会有调整变化,但今年的情况大概就是这个样子。如果对SAS编程统计有兴趣但是lab或者单位又没有购买SAS的话,试试教育版的SAS(SODA),很好玩的。作为第7名,算不上获奖感言,但说两句感谢的话还是可以有的。虽然这次是一人团,但是一路走来收到了很多人的帮助、鼓励和支持。感谢香港大学医学院张樟进教授、公共卫生学院Helen Zhi博士、台州医院沈建飞博士和南京医科大学李潇博士在这次比赛中对我的指导和鼓励,感谢国家神经系统疾病临床医学研究中心谷鸿秋博士的ggbaseline%帮助我快速完成了描述性统计分析和基线资料表。这次比赛唯一的遗憾是没能去现场参加路演,路演倒不重要,最重要的是尽享无锡美食,结交数统伙伴。最后,希望香港特区能尽早消灭新冠肺炎吧。

ArisQ13 次咨询5.02290 次赞同去咨询

搜索