清华大学自动化系在合成生物学基因调控序列人工智能设计领域取得进展
2024/03/29
![]() |
图 知识引导与数据驱动相融合的启动子辅助设计方法
在国家自然科学基金项目(批准号:62250007、62225307、61721003)等资助下,清华大学自动化系汪小我教授团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法DeepSEED。研究成果以“使用DeepSEED进行侧翼序列深度改造实现高效启动子设计(Deep flanking sequence engineering for efficient promoter design using DeepSEED)”为题,于2023年10月9日发表于《自然•通讯》(Nature Communications)期刊上。论文链接:https://www.nature.com/articles/s41467-023-41899-y。
人类专家擅长从小样本中发现强特征,而深度学习模型可以从大量数据中提取隐含的弱模式。基因启动子是决定基因在什么条件下以何种程度进行转录表达的DNA调控序列。设计具有特定功能的合成启动子是构建人工基因系统的基础,在代谢工程、基因治疗等领域有广泛用途。过去,对启动子序列的设计改造主要集中在修改具有显著模式特征的转录因子结合位点(TFBS)序列上,而忽视了连接不同TFBS之间的侧翼序列。尽管有证据表明侧翼序列对启动子活性具有一定影响,但其特征信号弱且规律复杂,难以被归纳总结为明确的知识和设计准则。
团队针对启动子侧翼序列维度高、模式复杂、在设计中被长期忽视的问题,提出了一种人工智能辅助的侧翼序列优化方法DeepSEED。如图所示,该方法基于知识引导与数据驱动融合的智能设计策略,一方面利用专家知识定义与启动子功能相关的强特征模式作为“种子”,另一方面利用深度学习从大量数据中学习侧翼序列满足的弱特征复杂约束,基于条件式生成模型和进化计算来优化侧翼序列与“种子”的匹配关系,以实现对启动子序列的整体优化提高其转录调控活性。该方法成功应用于细菌和哺乳动物细胞内多类启动子的优化设计,细胞实验验证了其有效性,获得了一批序列多样性强、功能优于天然序列的全新启动子。
该研究提出的知识引导与数据驱动相融合的合成启动子智能设计策略,为解决功能启动子设计中维度高、样本小的核心难题提供了新思路,为合成生物学研究提供可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
好学术:科研网址导航|学术头条分60
-
《时代技术》投稿全攻略:一位审稿71
-
2025年国际期刊预警名单发布!188
-
2025年中科院期刊分区表重磅发1406
-
中科院已正式发布2024年预警期410
-
2025年度国家自然科学基金项目338
-
中国科协《重要学术会议目录(201248
-
2024年国家自然科学基金项目评725
-
2024年JCR影响因子正式发布706
-
吉林大学校长张希:学术会议中的提921
-
【院校速递】今日院校科研十大要闻04-30
-
学生党焦虑:With Edito04-30
-
投稿前如何避免争议?- 三步走策04-30
-
投稿系统遭遇技术瓶颈?解析Wit04-30
-
小修=录取通知书?警惕学术期刊的04-30
-
上海市沐阳医院 17903
-
武汉青博盛学术服务有限公司 22819
-
中国农学会 22871
-
中国科学技术大学 23893
-
安徽理工大学 20869
-
jieda 20869
-
武汉青博盛学术服务有限公司 20930
-
博宁物资经销处 17835
-
北京中医药大学 20864
-
成夏 22899
-
广州番禺群欣 17817
-
荷兰中国商会 17941
-
华中科技大学 20881
-
国际工学技术出版协会 20791
-
北京伊诺永明公关策划有限公司 22887
-
贵州黔南罗甸 17787
-
海南大学 23973
-
北京科萃人机环境系统工程技术研究 7881
-
北京医航科技有限公司 7827
-
CIENC(beijing) 17855