近日,清华大学智能产业研究院(AIR)联合AI药物研发企业水木分子正式开源生物领域化学分子通用任务大模型BioMedGPT-Mol。它基于千问打造,在分子描述、性质预测等6大类任务的综合指标上均达到SOTA效果。
传统药物研发基于研究人员的手工提取、合成和筛选,药物发现依赖大量试错,这导致一款药物的研发通常需要花费10-15年,耗资超百亿资金。AI的出现,能助力分析海量生物医学文献,筛选需测试的数百万种化合物,设计临床试验方案、以助力加速药研的每个环节。
不过,此前药物研发企业使用AI需依赖复杂的编码能力。BioMedGPT-Mol基于Qwen3-8B通过微调和强化学习完成训练。部署模型后,用户可通过与模型进行自然语言对话,完成分子描述、性质预测、化学反应预测、分子编辑等分子理解和生成任务,大幅降低了合成化学家与临床研究员使用AI的门槛。
目前BioMedGPT-Mol在多类任务的综合指标上均达到SOTA效果。同时当切换至推理模式时,模型在分子编辑任务上实现了进一步的性能提升。在此基础上,水木分子首次探索了仅使用大模型进行端到端有机分子逆合成分析,在RetroBench榜单上实现了SOTA效果。
作为一家服务制药的初创企业,水木分子对成本、数据安全有极高的需求。依托阿里云ACK容器及算力虚拟化技术,水木分子为模型推理、混合模型部署等建立了独立的运行环境,保障了不同业务的数据安全,同时降低了推理成本;通过使用阿里云云效产品,水木分子实现全部运维流程云化和对CICD流程的统一管理,减少了运维成本。
据了解,水木分子和阿里云将在专业模型训练、模型推理加速、向量搜索等方面持续合作。



