清华大学自动化系在合成生物学基因调控序列人工智能设计领域取得进展
2024/03/29
![]() |
图 知识引导与数据驱动相融合的启动子辅助设计方法
在国家自然科学基金项目(批准号:62250007、62225307、61721003)等资助下,清华大学自动化系汪小我教授团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法DeepSEED。研究成果以“使用DeepSEED进行侧翼序列深度改造实现高效启动子设计(Deep flanking sequence engineering for efficient promoter design using DeepSEED)”为题,于2023年10月9日发表于《自然•通讯》(Nature Communications)期刊上。论文链接:https://www.nature.com/articles/s41467-023-41899-y。
人类专家擅长从小样本中发现强特征,而深度学习模型可以从大量数据中提取隐含的弱模式。基因启动子是决定基因在什么条件下以何种程度进行转录表达的DNA调控序列。设计具有特定功能的合成启动子是构建人工基因系统的基础,在代谢工程、基因治疗等领域有广泛用途。过去,对启动子序列的设计改造主要集中在修改具有显著模式特征的转录因子结合位点(TFBS)序列上,而忽视了连接不同TFBS之间的侧翼序列。尽管有证据表明侧翼序列对启动子活性具有一定影响,但其特征信号弱且规律复杂,难以被归纳总结为明确的知识和设计准则。
团队针对启动子侧翼序列维度高、模式复杂、在设计中被长期忽视的问题,提出了一种人工智能辅助的侧翼序列优化方法DeepSEED。如图所示,该方法基于知识引导与数据驱动融合的智能设计策略,一方面利用专家知识定义与启动子功能相关的强特征模式作为“种子”,另一方面利用深度学习从大量数据中学习侧翼序列满足的弱特征复杂约束,基于条件式生成模型和进化计算来优化侧翼序列与“种子”的匹配关系,以实现对启动子序列的整体优化提高其转录调控活性。该方法成功应用于细菌和哺乳动物细胞内多类启动子的优化设计,细胞实验验证了其有效性,获得了一批序列多样性强、功能优于天然序列的全新启动子。
该研究提出的知识引导与数据驱动相融合的合成启动子智能设计策略,为解决功能启动子设计中维度高、样本小的核心难题提供了新思路,为合成生物学研究提供可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年两院院士增选有效候选人116
-
2025最新JCR分区及影响因子2461
-
好学术:科研网址导航|学术头条分641
-
2025年国际期刊预警名单发布!770
-
2025年中科院期刊分区表重磅发4295
-
中国科协《重要学术会议目录(202964
-
吉林大学校长张希:学术会议中的提1619
-
2025年国自然正式放榜!08-27
-
SCI论文中的数据引用,如何避免08-15
-
EI核心期刊和普通期刊有什么本质08-15
-
国内期刊EI与核心有什么区别?三08-15
-
怎么查找前几年的EI期刊源?科研08-15
-
如何准确验证论文是否被SCI收录08-15
-
机械类EI期刊投稿全攻略:从实验08-15
-
SCI论文DOI号查找全攻略:学08-15
-
北京金华科技有限公司 17972
-
北京市北京大学 18058
-
新疆喀什师范学院外国语系 24204
-
西安财经学院 23986
-
办理国内外文凭证件 21033
-
中和创美国际文化传媒(北京)有限 23027
-
Faculty of Music 8261
-
北京大学工学院生物医学工程系 23112
-
dsa 8034
-
南京新中医学研究院 23202
-
ant 24103
-
澳門大學 24030
-
河南师范大学 18057
-
Charlesworth Chi 23040
-
玄牝传播文化有限公司 7975
-
北京联佳业广告有限公司 2002
-
北京中经蓝山文化交流有限公司 1977
-
河北卓达国际会展中心 23016
-
上海金钱豹大酒店 17942
-
武汉理工大学 23924