【导读】十亿参数单细胞基础模型scLong不再只看少数高表达基因,而是把一个细胞里接近 2.8 万个基因 都纳入建模,并结合 Gene Ontology(GO) 的生物学知识,去理解更完整的基因上下文。 在单细胞转录组学领域,研究者希望从每个细胞的基因表达中读出细胞状态、调控关系,甚至预测当某个基因被敲除、某种药物被加入后,细胞会发生什么变化。 过去几年,foundation model(基础模型)开始进入这一领域,显示出强大的迁移能力;但长期以来,现有方法往往为了节省计算,只关注少量高表达基因,忽略了大量低表达甚至零表达基因,同时也缺少对外部基因功能知识的系统整合。这不仅会丢失重要调控信号,也容易让模型对复杂生物过程「只见树木,不见森林」。 近日,MBZUAI、加州大学圣地亚哥分校(UC San Diego)等机构联合团队在 Nature Communications 发表研究成果scLong。 论文链接:https://www.nature.com/articles/s41467-026-69102-y 这是一种拥有10亿参数的单细胞基础模型,基于约...
