就像两个早已配合多年的搭档,自然而然地进入了工作状态。
……
接下来的几天,两人形成了默契的工作节奏。
每天上午九点,他们会用十五分钟视频同步进度……
即使都在公司,也选择线上沟通,节省走动时间。
下午四点,再花二十分钟在会议室面对面讨论遇到的问题。
其余时间各自研究,需要配合时直接在微信上沟通,言简意赅。
兰芊翊逐渐适应了这种节奏,更准确地说,她很享受这种节奏。
周三下午,她完成了AI影像诊断技术发展脉络的分析,自信满满地将初稿发给苏宁。
图表精美,数据翔实,逻辑清晰,这是她在友为资本练就的基本功。
半小时后,苏宁回复:“方便现在讨论一下吗?”
“好的。”
两人在小会议室碰面。
苏宁打开她的文档,直接翻到准确率对比分析那一页。
“整体思路很好,结构清晰。”他先肯定,然后话锋一转,“但这个93.5%的准确率数据,我有疑问。”
他指着图表上的一个数据点:“这是基于哪个数据集测的?”
“COCO-Medical,公开数据集里质量最高的之一。”兰芊翊解释道,“我对比了五篇顶会论文,这个数据是平均值。”
苏宁微微蹙眉,兰芊翊注意到这是他思考时的习惯表情。
“公开数据集和医院实际数据差异很大。COCO-Medical的数据经过严格清洗和标注,但医院实际数据噪声大、标注不一致。同样的算法,在公开数据集上准确率能到95%,在实际医院数据上可能只有80%出头。”
兰芊翊一愣,这个角度她确实没考虑到。
“我查过几篇临床验证研究。”苏宁调出自己的笔记,“比如这篇今年二月发表在《Radiology》上的文章,同一个肺结节检测AI,在公开数据集上灵敏度97.2%,但在三家医院的实际临床数据上,灵敏度分别只有89.1%、85.7%和82.3%。”
他把屏幕转向兰芊翊,密密麻麻的文献笔记,标注着重点和数据对比。
“这个差距会影响商业化前景。”苏宁继续说,“如果只宣传公开数据集上的高准确率,医院采购后发现实际效果打折,会产生信任危机。我们应该区分‘理想场景性能’和‘实际场景性能’。”
兰芊翊脸有些发烫,这是她疏忽了。
太依赖学术论文数据,忽略了临床落地的复杂性。
“对不起,我重新做这部分分析。”她诚恳地说。
“不用道歉。”苏宁语气平静,“研究本来就是不断迭代的过程。我们一起把这块补上。”
“我联系了复旦医学院的一个师兄,可以拿到一些脱敏的实际医院数据做对比分析。大概明天能拿到。”
兰芊翊惊讶地看着他:“你什么时候联系的?”
“前天晚上,看到你初步框架时就想到了这个可能性。”苏宁说得轻描淡写,“刚好他最近在做类似的研究,数据可以共享。”
这一刻,兰芊翊心里涌起一种复杂的感受。
这个搭档,不仅能在她出错时指出问题,还能提前准备好解决方案。
不是指责,而是建设性的帮助。
太可靠了。
“谢谢。”她由衷地说道。
“互相补位而已。”苏宁关掉文档,“接下来我们分一下工:你继续完善技术发展脉络这部分,我负责临床数据对比分析。周五前合稿,怎么样?”
“好。”
……