海量数据训练和新样本特征的综合

[複製鏈接]

anxiao1

235 主題	0 好友	1327 積分

高中生

Rank: 4

TA的每日心情

	開心前天 02:19

簽到天數: 206 天

[LV.7]常住居民III

推廣值: 0
貢獻值: 0
金錢: 0
威望: 1327
主題: 235

發消息

電梯直達

樓主

發表於 2022-8-28 02:26:49 |只看該作者 |倒序瀏覽

解析DARTS：

海量数据训练和新样本特征的综合

“从计算方法设计的策略和概念角度而言，此工作的最大亮点是充分利用海量公有数据如ENCODE，但模型本身又不完全依赖于这些公有数据。”马坚点评道，换言之，DARTS的整体思想是用深度神经网络从现有海量数据中找出通用的有用信息作为先验，然后用贝叶斯假设检验结合来自样本本身的RNA-seq数据信息，做可变剪接的预测，“这有效综合了海量数据的训练以及新样本的特殊性”。

马坚解释说，从模型本身的技术角度而言，DARTS有效利用了深度神经网络对异质数据特征的整合，并且整个计算方法的评测和方法都比较“明智而审慎”。他举例说，比如DARTS的深度神经网络部分结合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息等；同时DARTS还巧妙地利用深度神经网络预测的结果来作为贝叶斯假设检验中的先验数据，结合样本本身的RNA-seq序列信息实现了更可靠的可变剪接预测。

马坚将基因组学形容为一个“存在太多未知和容易迷失的领域”，因此他认为，有效深度学习的使用需要有强大的领域知识作为支撑。而DARTS工作恰恰体现了邢毅实验室多年以来对可变剪接机理的研究和计算方法创新的积累。“由深入的领域知识和经验作为指导，是一个有效利用不同计算模型和深度学习方法的优势实现基因组学新发现的经典工作。”

张强锋也直指“巧妙利用公开的RNA-seq大数据样本、使用深度神经网络学习得到了外显子差异剪接的贝叶斯假设检验统计模型的准确先验概率分布”是DARTS在方法上最大的特色。同时他也表示，该计算框架使用深度神经网络通过顺式序列和反式因子RBP表达丰度进行差异剪接预测的思路也值得借鉴。

此外，马坚认为论文中其他对于机器学习方法的评测同样可圈可点。例如，对常见的正负样本不均衡的问题对模型训练和评测可能带来的偏差有细致的控制。另外，该计算框架对模型中每个模块的贡献也做了详细分析。

“随着RNA-seq数据的不断积累，相信DARTS会有广泛的应用，尤其是在RNA-seq测序深度并不高的实验情况下。”马坚说，这个计算工具对进一步理解可变剪接在不同细胞状态下的调控机理有深远的意义。

分享0 收藏0 「頂」0 「踩」0

回復

使用道具舉報

返回列表

重要聲明：本論壇是以即時上載留言的方式運作，比思論壇對所有留言的真實性、完整性及立場等，不負任何法律責任。而一切留言之言論只代表留言者個人意見，並非本網站之立場，讀者及用戶不應信賴內容，並應自行判斷內容之真實性。於有關情形下，讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。由於本論壇受到「即時上載留言」運作方式所規限，故不能完全監察所有留言，若讀者及用戶發現有留言出現問題，請聯絡我們。比思論壇有權刪除任何留言及拒絕任何人士上載留言 (刪除前或不會作事先警告及通知 )，同時亦有不刪除留言的權利，如有任何爭議，管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論，敬請自律。本網站保留一切法律權利。

		自動登錄	找回密碼
密碼			按這成為會員