近日,中國農業科學院生物技術研究所農業微生物蛋白設計與智造創新團隊與北京畜牧獸醫研究所微生物與酶工程創新團隊合作,開發了預訓練蛋白語言大模型技術支撐的蛋白高表達預測與設計新策略。相關研究成果發表于《先進科學》( Advanced Science )。
高效的可溶性異源表達是酶蛋白轉化為酶產品的關鍵核心環節。傳統的蛋白表達策略包括更換表達宿主、表達載體或添加分子伴侶等。但這些策略不僅依賴研究人員的個人經驗且需大量的實驗驗證。
該研究利用遷移學習理論,開發了國產化的預訓練蛋白質語言模型MP-TRANS,創新性地提出了氨基酸表達指數(AEI)和相對氨基酸偏好強度(SRAB)的概念,為蛋白質表達提供了精確的量化工具。
該研究構建了表達量預測模型MPB-EXP和突變體生成模型MPB-MUT。其中,MPB-EXP是目前支持最多表達宿主(88種)的預測模型,平均預測準確率為0.78。
實驗驗證,木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達量均顯著提升。研究通過將蛋白質語言大模型與基因表達深度融合,為高效創制高性能蛋白產品提供了新的思路與工具。
該研究得到國家重點研發計劃、國家自然科學基金、中國農業科學院創新工程項目的資助。模型構建過程中,得到河北人工智能計算中心提供的計算資源支持。
相關論文信息:https://doi.org/10.1002/advs.202407664