清华大学自动化系在合成生物学基因调控序列人工智能设计领域取得进展
2024/03/29
![]() |
图 知识引导与数据驱动相融合的启动子辅助设计方法
在国家自然科学基金项目(批准号:62250007、62225307、61721003)等资助下,清华大学自动化系汪小我教授团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法DeepSEED。研究成果以“使用DeepSEED进行侧翼序列深度改造实现高效启动子设计(Deep flanking sequence engineering for efficient promoter design using DeepSEED)”为题,于2023年10月9日发表于《自然•通讯》(Nature Communications)期刊上。论文链接:https://www.nature.com/articles/s41467-023-41899-y。
人类专家擅长从小样本中发现强特征,而深度学习模型可以从大量数据中提取隐含的弱模式。基因启动子是决定基因在什么条件下以何种程度进行转录表达的DNA调控序列。设计具有特定功能的合成启动子是构建人工基因系统的基础,在代谢工程、基因治疗等领域有广泛用途。过去,对启动子序列的设计改造主要集中在修改具有显著模式特征的转录因子结合位点(TFBS)序列上,而忽视了连接不同TFBS之间的侧翼序列。尽管有证据表明侧翼序列对启动子活性具有一定影响,但其特征信号弱且规律复杂,难以被归纳总结为明确的知识和设计准则。
团队针对启动子侧翼序列维度高、模式复杂、在设计中被长期忽视的问题,提出了一种人工智能辅助的侧翼序列优化方法DeepSEED。如图所示,该方法基于知识引导与数据驱动融合的智能设计策略,一方面利用专家知识定义与启动子功能相关的强特征模式作为“种子”,另一方面利用深度学习从大量数据中学习侧翼序列满足的弱特征复杂约束,基于条件式生成模型和进化计算来优化侧翼序列与“种子”的匹配关系,以实现对启动子序列的整体优化提高其转录调控活性。该方法成功应用于细菌和哺乳动物细胞内多类启动子的优化设计,细胞实验验证了其有效性,获得了一批序列多样性强、功能优于天然序列的全新启动子。
该研究提出的知识引导与数据驱动相融合的合成启动子智能设计策略,为解决功能启动子设计中维度高、样本小的核心难题提供了新思路,为合成生物学研究提供可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025最新JCR分区及影响因子1939
-
好学术:科研网址导航|学术头条分468
-
《时代技术》投稿全攻略:一位审稿499
-
2025年国际期刊预警名单发布!600
-
2025年中科院期刊分区表重磅发3957
-
中科院已正式发布2024年预警期861
-
2025年度国家自然科学基金项目727
-
中国科协《重要学术会议目录(202733
-
2024年国家自然科学基金项目评1138
-
2024年JCR影响因子正式发布1214
-
吉林大学校长张希:学术会议中的提1391
-
SCI论文插图全攻略:从规范解析08-01
-
国际学术会议参加经验是怎么样的呢08-01
-
掠夺性会议是怎么进行判断的呢?—08-01
-
SCI论文投稿费怎么交?202408-01
-
HKSME 23884
-
唐山风火会务服务有限公司(www 23903
-
长春理工大学 17946
-
怀思会议 22885
-
WWX 23139
-
MEME2016组委会 1932
-
西安周道会议策划服务有限公司 18027
-
湖南大学信息科学与工程学院 21046
-
兰州大学资源环境学院 21151
-
中科创大创业教育投资管理有限公司 24144
-
同济大学 7990
-
AOCS中国分会 24225
-
ZHL 23103
-
东方高圣投资银行家 21246
-
辽宁工会大厦 17920
-
上海天佑公司 23103
-
北京太阳花酒店 1856
-
中国粮油学会玉米深加工分会 21028
-
安徽师范大学 21140
-
中国化工企业管理协会 21025