應用數學與交叉科學研究中心生物信息學團隊于2024年3月第1次組會按期舉行,小組全體成員和各位導師共同參加。在這次組會上,由一名研一學生和兩名研二學生分别彙報自己的研究進展,然後老師與同學們對彙報内容進行學術探讨,并對存在的問題給出相應的指導和建議。
孫睿:本次彙報了關于空間可變基因方向的工作,着重彙報了關于空間表達數據的模拟數據的生成,模拟數據結果的比較。從已有的文獻中對基因的空間表達模式分析進行了列舉,主要比較了兩種不同的額表達模式之間的差異。展示了我們的模型對于模拟數據的判定結果,并對結果進行了解釋分析。

郭成:本次彙報了RNA殘基接觸預測的相關工作,在原有核酸序列數據庫的情況下,首先将核酸序列數據庫随機拆分成若幹份,得到若幹個序列數據文件,再使用makeblastdb工具分别重新構建序列數據庫;為後面的序列搜索做準備,去搜索相似同源家族序列。其中先選取2個測試數據集:PLMC(19條序列)、coconet(23條序列),以及在RNA數據集上進行階段測試結果。

李莎莎:本次組會彙報了一篇文獻《Predicting coaxial helical stacking in RNA junctions》以及基于該文獻所做的一些工作。RNA多分支環是RNA分子中重要的結構元件,廣泛地參與到了催化作用、核糖開關、翻譯起點等生物學過程。因此,确定它們的結構構型對于預測RNA的三維結構非常重要。Schlick等人從已解決結構的RNA二級結構中提取特征構建數據集,用随機森林算法對數據集進行訓練,并通過75次10折交叉驗證的平均準确率來評估模型。對于三分支和四分支,他們的平均準确率分别為81%和77%,而對于五分支及以上的數據,平均準确率為60%。基于該文獻,我将三分支環數據集從110條數據新增到1200多條數據,并增加了三個stem區域自由能的特征,用随機森林、SVM、KNN算法對新的數據集進行訓練,得到的平均準确率分别為87%、82%、85%。

— 學生彙報照片展示 —


