77779193永利官网江健教授在藥物設計方面取得重要研究進展

來源:77779193永利官网 作者:77779193永利官网審核:鄭仟發布時間:2025-04-24 16:25 浏覽次數:


近日,我校77779193永利官网計算系統生物學團隊的江健教授在藥物設計方面取得重要研究進展。相關成果以“A review of machine learning methods for imbalanced data challenges in chemistry”在化學領域頂級期刊《Chemical Science》(中科院一區Top)上發表(文章DOI: 10.1039/d5sc00270b)。江健教授為第一作者,77779193永利官网為第一單位。該工作與美國密歇根州立大學Guo-wei Wei教授團隊共同完成。

數據不平衡是指在一個數據集中某些類别顯著代表性不足的情況,這是一個藥物設計領域廣泛存在的機器學習難題,然而目前對它的處理仍不夠充分。這種數據不平衡可能導緻有偏差的機器學習或深度學習模型,這些模型無法準确預測代表性不足的類别,從而限制了這些模型的魯棒性和适用性。随着機器學習和深度學習算法的快速發展,針對這一問題已經出現了一些很有前景的解決方案,這就促使我們有必要對當前的方法進行全面回顧。在這篇綜述中,我們研究了在化學不同領域中用于應對數據不平衡挑戰的主要機器學習方法,包括重采樣技術、數據增強技術、算法方法以及特征工程策略。我們在化學的各個研究方向(如藥物發現、材料科學、化學信息學和催化)的應用背景下對每種方法進行了評估。

我們還探讨了克服數據不平衡挑戰的未來方向,并強調了通過物理模型、大語言模型和先進數學理論進行數據增強的方式。文中讨論了在新材料設計和生産中平衡數據的益處以及仍然存在的挑戰。總體而言,這篇綜述旨在闡明應用于減輕化學領域中數據不平衡影響的常用機器學習技術,并為未來的研究和應用方向提供理論指導。

江健教授一直從事藥物設計、複雜網絡建模等交叉學科方面的研究。2021年通過結合幾何拓撲和機器學習算法,構建的梯度提升多任務深度學習模型在藥物分子脂溶性和溶解度等屬性預測上取得領先;2022年結合幾何圖論和機器學習算法構建多尺度着色圖模型在藥物分子毒性上取得更好的預測準确度;2023年結合同調論和深度學習構建拓撲推斷下的藥物緻瘾性學習模型,對緻瘾性藥物分子進行預測,尋找最優的先導化合物分子。相關成果發表在Chemical Reviews、Pain、Journal of Pharmaceutical Analysis等國内外知名期刊上。

江健教授所在的計算系統生物學團隊負責人為張本龔教授,主要從事數學與大數據技術、計算系統生物學、機器學習、藥物設計等領域交叉科學研究。近5年來,在單細胞測序數據分析、藥物設計及發現、蛋白質結構預測和高光譜圖像處理等研究領域取得了豐富研究的成果。團隊教授2人,副教授4人,講師2人,承擔國家自然科學基金8項(其中面上3項),省部級項目5項,發表SCI論文60餘篇。

Baidu
sogou