清华大学自动化系汪小我团队提出知识引导与数据驱动相融合的合成启动子AI设计方法
2024/03/29
近日,清华大学自动化系汪小我团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。
近年来,合成生物学作为一门新兴交叉学科获得了蓬勃发展,为破解人类面临的资源、健康、环境等重大挑战提供全新解决途径。合成生物学的核心理念是通过对DNA等生物大分子的逆向设计重构获得具有特定功能的人工生物系统。然而,这些生物分子编码的组合排列空间十分庞大,序列与功能的映射关系复杂,对生物大分子序列进行精准设计极具挑战。近期人工智能技术的突破引发了自然语言处理、计算机视觉等领域的革命性进步,尤其是以ChatGPT等为代表的生成式智能模型的突破,彰显出AI在提取复杂模式、生成复杂对象上的强大潜力。基于人工智能技术逆向设计启动子等具有特定功能的生物大分子序列,将为合成生物学的发展提供强大的设计工具和丰富的基础元件。
启动子是决定基因在何时、何地以何种程度进行转录表达的合成生物学基础元件,设计具有特定功能的人工启动子是逆向构造人工基因系统的基础。启动子中连接不同转录因子结合位点的之间的旁侧序列被证明对启动子功能有着重要影响,但这些旁侧序列的特征难以被人为归纳总结为明确的知识和设计准则。同时,由于天然基因组中具有特定转录因子结合序列的启动子数量稀少,难以直接建立深度学习模型对这些启动子的序列的整体模式进行提取。这些因素导致旁侧序列在设计中被长期忽视,缺乏有效的对启动子进行整体优化设计的方法。

知识引导与数据驱动相融合的启动子辅助设计方法DeepSEED
针对这一问题,研究团队创新提出了一种知识引导与数据驱动相融合的智能设计策略:首先基于人类专家擅长在小样本中识别明确模式的特点,利用专家知识定义与启动子功能相关的重要显式模式作为“种子”序列;在此基础上,基于深度学习模型擅长在大型数据集中检测隐含弱模式的强大能力,在海量启动子数据中学习旁侧序列与种子序列的隐式匹配关系,进而基于条件生成式模型获得与特定种子序列相匹配的旁侧序列,对序列整体进行全局优化。在实际应用过程中,研究者可以任意指定已知生物调控模式序列作为“种子”序列,模型通过学习大数据中旁侧序列的调控规律对“种子”的旁侧序列进行补全,从而实现启动子的按需优化设计。研究团队成功将该方法应用于大肠杆菌内组成型启动子、IPTG诱导型启动子,以及哺乳动物细胞内Dox诱导型启动子的优化设计。模型设计生成的合成启动子在表现出高度序列多样性、与天然基因序列低相似性的同时,保留了天然序列中k-mer频率等关键统计特征,并优化了DNA序列大小沟偏好、偏转角等系统整体属性,大幅提升了合成启动子的转录活性和诱导率等关键性能。该成果有望为合成生物学研究提供基础性的设计工具和多样化的基因调控元件。
相关研究成果以“使用DeepSEED进行侧翼序列深度改造实现高效启动子设计”(Deep flanking sequence engineering for efficient promoter design using DeepSEED)为题,于10月9日发表于《自然·通讯》(Nature Communications)期刊。
清华大学自动化系博士研究生张鹏程、博士研究生王昊晨与硕士研究生许涵文为该论文的共同第一作者,汪小我教授为该论文的通讯作者。清华大学的魏磊、刘莉扬、胡志睿等也对本文作出了重要贡献。该研究得到国家自然科学基金、国家重点研发计划、清华大学国强研究院项目的资助。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  中国针灸推拿协会 24197

 - 
  中国化工学会培训中心 2086

 - 
  国际工学技术出版协会 8057

 - 
  电子科技大学第十三届小波智能媒体 23630

 - 
  西北工业大学 18242

 - 
  北京环球北方国际展览有限公司 18004

 - 
  重庆远谷文化交流有限公司 17981

 - 
  香港维科信息产业研究中心 23023

 - 
  中国汽车会议网 21097

 - 
  中国科学院山西煤炭化学研究所 24163

 - 
  上海浔兴拉链制造 17930

 - 
  香港维科信息产业研究中心 2065

 - 
  四川盛大会展 2030

 - 
  南方电网深圳供电局 2012

 - 
  APISE 21023

 - 
  kingsoft 20990

 - 
  河北承德盛世会议服务有限公司 23017

 - 
  天津师范大学管理学院 21112

 - 
  北京艾尚国际展览有限公司 8139

 - 
  武汉科技大学 18026

 
						
					 
					















 688











































						
						