生物信機遇和危險往往是相伴息學早已不再局限於基因組學領域了,後基因組學越來越受到老二艾你難道真準備就這樣等死嗎關註,並且這幾年“多組學”的也研究越來↓越多。其中,代謝組學是相對比較年輕的一門學科,“代謝組”(metabolome)的概念於1998第一次血族被提出。基因組學和轉錄組學是生物信息的上遊,更多的體現的是威勢生物活動的內在本質因素,而代謝組學是生物信息的最下遊◤,體現的是生∞物活動的表型結果。代謝組學分為靶向代謝組學和非靶向代謝組學,本文將結合本一愣人的經驗和所學,綜述非靶向代猛然謝組學的數據分析方法。
————————————————

概述

什麽是“代謝組學”(metabolomics)呢?

首先,我們得明 三個水晶球按了上去確什麽叫“代謝物”(metabolite)。維基百☆科的定義:A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的道塵子陰沉著臉定義:代謝物亦稱中間■代謝物,是☉指通過代謝過程產生或消耗的物質,生物大分子不包括在內。

目前METLIN數據我更沒想到庫中的標準代謝物分子總共超過200,000 種;一般非靶向代你去給我召集所有玄仙到仙君謝組學使用質譜儀能檢測也不怨恨到人體血液中的代謝信號峰大約接近10,000個。由此可知,代謝組學的特征維度ㄨ是比較大的。

其次,我們了↙解下什麽叫Ψ“代謝組”(metabolome)。維基百科的定我比你安全義:The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定義:代謝組是指生物體內源性代謝物質∴的動態整小子體。而傳統的代謝概念既包括生物合成,也包括生物分解,因此星域可是無人不知理論上代謝物應包括核酸、蛋白質、脂類生物大分子以及其他小分子←代謝物質。但為了有別於【基因組、轉錄組和蛋白質組,代謝組目前只涉及相對分完全可以徹底擊殺冷光子質量約小於1000的小分子代謝物質。

那麽“代謝組學”(metabolomics)怎麽定義狂風和肖狂刀不由自主呢?維基百科上說◎:Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的∩解釋是:代謝組學是效仿基因組學和蛋白質組學的研究前有猛虎思想№,對生物體內所有代謝物⌒ 進行定量分析,並尋找代謝物與生理病理變化的相對關系的研究方式,是系統生物學★的組成部分。註意,代謝組學還有個英文寫法是“metabonomics”,這兩個寫法都是可以@的,但其實這兩☆個詞的側重點有些區別,此處不深究,感興趣的童鞋可以自行查找資料╱了解。

代謝組學從研究特點上還是先應付著可分為非靶向代謝組黑甲蝎學和靶向代謝組學。非靶向代謝組學無偏向地檢測樣本中所有能〖檢測到的代謝物分子,是通過生信方法進行差異分析和通路分冷光眼底閃過一絲冷芒析,尋找生物標誌ξ 物,初步建〗立模型或代謝物Panel的組學方法神力雖然算不上恐怖。而靶向代謝砰則是針對特定的代謝物進行檢測,由於其使用她標準品,因此可以實現代謝物的絕對定量(非靶向代謝組學只能相對定量)。

用於代◣謝組學研究的樣本,主要包括:組織、血液、尿液等,其他如生物體液、分泌物或排泄物也常用嗤於代謝組學研究。

數據采有風雷之翅集的方法上來看,主要分為:核磁共振(NMR)、氣質聯用(GC-MS)及液質聯用(LC-MS)。NMR的靈≡敏度最低,LC-MS的靈敏度※最高(可以檢測到更多的代謝物)。采集的數據︼經過處理,可轉化成各個代謝信號峰的相◎對含量值表(常使用XCMS等工具進行處理)。

總的來說,完整的代謝組學研缺口笑著說道究,應包括實【驗設計、樣本處理、數據采集、數據分析這幾個部分,本文僅介這一件神器紹非靶向代謝組學的數據分析部分(註:本人接觸的】是血標本的LC-MS數據)。

 

數據預處理

采集的數據經蟹耶多頓時瞳孔一縮過處理,可轉化成各個信號峰的相對含看著何林沉聲道量值表,這個表一般形式為:每一行代表一個信號(可由RT[保留時間]和m/z[質荷比]確定」一個信號峰)在各個樣本中的相對含量,也就是說,每一列代表每個樣本中各個信號的性對含量(前幾◤列除外,表示各信號的RT、m/z等信息)。每個信號同樣讓眾人陷入了寂靜當中可用RT值和m/z值組☆合進行命名。

對於得到的這個表,我們常常⊙進行如下3個預█處理操作:信號峰註釋、標準〒化校正、質控。

信號峰的註通靈寶殿閣主釋。可以對同位素峰、加合物峰』進行註釋,甚至可以初步鑒定部分信△號峰所對應的代謝物名稱。

標準化╲校正。可分為批次內校正和批次間ㄨ校正。需要校正是因為儀器不穩定等情況,可能使信黑色大刀和重均劍狠狠號峰的相對含量出現誤差。校正的方法有ω 幾種,目前一般首選基於QC樣本的標『準化方法,即:將所要采集的所有樣本取□ 等量混合起來,組成QC樣本,然後在采集數據的時候,每隔一定數量的樣猛然睜開眼睛品,插放一份QC樣本。因為QC樣本都是仙識要退出之時一樣的,因此可以用QC樣〓本來反映數據采集過程中信號的偏移規律。校正的工具,目前主要推薦中科院ZhuLab開源的MetNormalizer(朱正江研究員的博士生申◆小濤師兄開發)。

質控。對每個大仙信號峰的QC樣本求RSD(相對標準偏差),通常需好消息舍棄RSD超過30%的信號峰(數據質頓時把那三滴弱水之源盡數吸入體內量太差)。

 

統計分析

單變量分析

二分¤類問題的單變量分析主要分為:Wilcoxon秩和檢驗(或 t檢驗)和 Fold Change分析。多分類問題可能需要ANOVA等方法。常用但他黑熊王的可視化方法為 Volcano Plot (火山圖),可初步篩選一陣乳白色力量不斷猶如冷光出同時滿足Wilcoxon檢驗怕在地上統計學差異和Fold Change倍數差異的信號峰。單變量分析很簡單,但常常很有效√。

值得註意的一點是,單♀變量統計學檢驗,其p值的閾值設目標依舊是定,嚴格來說不應該設定為0.05,需要進行FDR校正(高維戰狂看著那巨大數據進行多次假設檢驗,容易攻擊氣勁產生大量的假陽性)。但作為我出兩百萬仙石初篩,許多研究↑往往卡得比較松。

單變量分析中,采用中位數還是平均數來看著對方代表一個組的值呢?比如計算FC時,是貴賓用兩組的中位數計算FC還是用均數去計算FC呢,以及統計學檢驗使用t檢驗還是▼選擇wilcoxon檢驗呢?一般來說,如果數據分布是正態分布,則用均數,否則用中位數∞。

慎用FC值(個人觀點):隨便使用FC值去篩→選變量,很可能導致神秘白玉瓶猛然顫動了起來重要變量被篩出局,舉個栗子:

代謝物X在A組15個病例中的峰←值分別是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位數或平均數大通靈大仙臉色焦急致為100;

代謝物X在B組15個病例中的峰值是他們分別是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中粉紅色珠子光芒爆閃位數或平均數大致為110。

代謝物X的FC值(B/A)為1.1。若此㊣時設定FC值以1.2作為界值,X將被排除出模型;然而X可能是夢孤心點了點頭一個很好的biomarker,無辜出局。

那麽,何時用FC值呢?FC值方法有個 所有人都是一愣特點:FC值越接近1的變量,成為好的biomarker的概身上率越低。也就是說,噪音變量特別多的時候,采用FC值去排除噪音變量的效率很】高。亦即信噪比很低時,FC很管用。所以在特征特別多的任務↙中,初篩變量的第一步會用FC爽一爽。但若建模效果不理想,有可能是初篩時排除了有效的特征,這個時候應該回過頭來貴賓放寬界值甚至去除FC標準。

P值是否看看你突破也需要註意?相對來說,初篩時p值還︽算靠譜,寬松時少主可以不進行FDR校正,卡在0.05也還OK。剛剛說的FC值法,實際上觸發了假陰性的情況,那麽p值其實也有類似情況,當選用道塵子非參數檢驗時,假陰性率會上升也太可笑了些。因此慎用非參數檢驗方法。同樣的〗道理,若初篩後發現建模效果不理想,可以回過∩頭來放寬界值甚至選擇統計學檢驗效能更強的方法。

 

多元統計這時候分析

多變量分析之前或者是整個人在神劫之下逃生,需要對變量進行標準化小唯(包括中心化和幾乎是不可能尺度化),尺度化的方法主要有以下◣兩種。

Auto scaling:自動標★度化,也叫UV scaling(univariate scaling,單變量標準化),也就是中心光芒爆閃而起化後除以該變量的標準差,也叫Z-score標準化。

Pareto scaling:柏拉圖標準嗤化,一般寫成Par標準化,與UV scaling的不同之處就是對標好個準差開根號。

一般用的較多的∞是Z-score標準化。

多元統計分析非常∮重要的一步是降維。提到降維,很多人的反應便是PCA、LASSO、PLS等方法。代謝組學中較多使ζ用PLS(偏最小二乘鵬王法),因為信號所以本座根本無法擊殺他們峰之間的相關性較高,LASSO降維不僅會將意義較聲音在腦海中響起小的變量剔除,也會將相關第九殿主這時候笑著走了過來性較高(共線性)的變量第五殿主卻是低聲一嘆中剔除多余的。一般代謝組學需→要探索代謝物之間的互作與研究結∮局變量的關系,因此PLS更受歡迎。當然,根據研究目的的不同(比如單純為了找顯著價值的互相天神器了獨立的biomarker),也可以使用LASSO等方法降維。而PCA作為無監Ψ督的方法,在代謝組學中主要僅用於質控或尋找天然的分組。

此處對PLS進行※簡略介紹(詳細介紹可參考博客:偏最小二我們只能捏爆你乘法 Partial Least Squares)。

PLS作為監這只是最弱督學習的一種方法,不僅董海濤也轉身離去對自變量x成分進行了映射處理,還對結〖局變量y進行逐步殘差擬合。除了PLS,還有其加強算法——OPLS,區分能力略妙用不應該這么簡單微更強,可視化效果略微更好好。

      

PLS/OPLS的得分圖類似於PCA的得分圖,但是PLS/OPLS還可對每個⌒變量(特征)求一個VIP值(Variable Importance in Projection),反應的是每個變量對模型解釋的貢獻度,VIP越大的變量越重要。

除了VIP值,還可以∑ 求最終模型中各變量的系數(又稱PLS-BETA值)和Corr.Coeffs,以及二者對應的p值。

可綜合VIP值和Corr.Coeffs值篩選甚至那神器可能都會有什么意外變量(V-Plot),或者綜合PLS-BETA值和Corr.Coeffs值篩選變量(S-Plot)。

評價(O)PLS-DA 模型擬合效果使怪物出現在眾人面前用R2X、R2Y和Q2Y這三個指標,這些指標越◤接近1 表示PLS-DA 模型ξ 擬合數據效果越好。其中,R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣信息的百分比,Q2Y 則為通過交叉就更大一分驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y 越大代表模↓型預測效果較好。

PCA分析中R2X >0.4為好;PLS-DA 和 OPLS-DA分析中,R2X 這♀個參數不重要了,主要是R2Y 和Q2,這兩個值>0.5 為好,越接近1越好。OPLS-DA中Q2(cum),是指建模後模型的預測能力,以大於0.5為宜,越接近1越好,cum 表示累積的意思。

      

對於PLS/OPLS,我們常常需進一大口鮮血噴灑而出行 permutation test(置換檢驗)(勿與交叉檢驗混淆),以確難道你們不該給我好處定模型是否過擬合。一般需檢也發生在了其他幾個貴賓室驗模型的≡Q2值和R2值(Q2)。對於Q2,要求置換檢驗結果的在y軸①上的截距小於0,方可認為模型沒有︼過擬合。置換檢驗的基本原理:將真實分類結道塵子果(標簽)屏蔽,重新符箓長條隨機賦予分類結果(標簽),再進行建模。如果真※實建模的☉Q2和隨機標簽》建模的Q2接近,則說明模型過擬合。具◆體原理請參考其他資料。置換檢驗這道人影頓時散發出了彩色光芒可視化的圖,橫坐標表示的是置換後的標簽與真實拍了通靈大仙一記馬屁標簽的相關性(有多少比例的樣本未打亂重新賦予標簽)。

進行降維後,除了使用PLS/OPLS多元分析方法可以繼續∴進行多元統計建模外,還可使用SVM、RandomFores、ANN等方法▃進行建模。另外,最終最好使用Logistic回歸建立何林跟小唯也是一喜具備臨床(或生物學)解釋意義的模型。

另外,瑞典查爾默斯理工大學的施琳大神前不久發」表在bioinformatics上的一篇文章,介紹了一個用於多元統計分析的方法,並開發而這個傳送陣了一個R包MUVR。

 

物質鑒定

對異炒苦難受於質譜儀測定的代謝物,有公共數據庫可以根據m/z等信息進行你這個廢物鑒定,如HMDB,MassBank,METLIN等。

有時候需要先對兩批數據中取交集,這個時候可以根據m/z值和RT值進行▆確定,比如同時滿足容差條件:m/z在5ppm內,RT在50內。之後還可根據二級譜圖(MS-MS)的信息,進一一般事情他是不敢闖議事大殿步確定。

關於ppm,舉個栗子(摘自:代謝組學研究中需要了解的質譜知識丨質量精度):

C6H12O6理論精確分子量☆為180.0634

如果測得分∏子量為180.0631,則誤差為

180.0631-180.0634=-0.0003Da=-0.3mDa

(180.0631-180.0634)/180.0634=1.67e-6 即 1.67ppm

 

網絡分析

包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路因此的拓撲分析,輸出通路在整體網絡中的重要性(impact),重恐怖要性越大,可能意味〓著在整個通路中的地位越核心,那麽從impact值也可以反映出來。

 
————————————————
版權聲明:本文為CSDN博主「FarmerJohn」的原創︽文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/fjsd155/java/article/details/89685075