代謝組學是相對比較♀年輕的一門學科,“代謝組”(metabolome)的概念於1998第一次被三皇五帝竟然都去了提出。基因組學和↘轉錄組學是生物信息的上遊,更多的體現「的是生物活動的內在本質因素,而代謝組學是生物信息Ψ的最下遊,體現的是○生物活動的表型結果。代謝組學是相對比較年∞輕的一門學科,“代謝組”(metabolome)的概念於1998第一次被提出。基因組學和轉靈魂錄組學是生物信息的⊙上遊,更那我就先拿第一個多的體現的是生物活動的內在本質因素,而代謝組學是冰火同體生物信息的最下遊,體現的是生物活動的表型結果。代謝組學是相對比較年▃輕的一門學科,“代謝組”(metabolome)的概念於1998第一次被提出。基因組學和轉錄組學是生物信息的上遊,更多的體現的是生物活動的內在本質因素,而代謝組學是生物信息的最下遊,體現的是生物活動的表型結果。


首先,我們得明確什麽叫“代謝物”(metabolite)。代謝物亦稱中間代謝物,是指通過代謝過程產生或消耗的物質,生物大分子不包括在︽內。目前METLIN數據庫中的標準代謝物分子總共超過200,000 種;一般非靶向代謝組學使用質譜儀〖能檢測到人體血液中的代謝信號峰大渾身不斷顫抖著約接近10,000個。由此可知,代謝組學的特征維度慢慢是比較大的。

其次,我們了解下什麽叫“代謝組”(metabolome)。代謝組是指生物體內源性代謝¤物質的動態整體。而傳統的代謝概念既∞包括生物合成,也包括生物分解,因此理論上代謝◣物應包括核酸、蛋白質、脂類生物大分子以及其他小分子代謝物質。但為了有別於☆基因組、轉錄組和蛋 哼白質組,代謝組目前只涉及◆相對分子質量約小於1000的小分子代謝物質。

那麽“代謝組學”(metabolomics)怎麽定義呢?代謝組學是效仿基因組學和蛋白質組學的研究思想,對生物※體內所有代謝物進行定量分析,並尋找代謝物與生理病理變化的相對關№系的研究方式,是系統生物學的組成部分。註意,代謝組學還有個嗯英文寫法是“metabonomics”,這兩個寫法都是可以的,但其實卐這兩個詞的側重點有些區別,此處不深究,感興趣的童鞋可以自行查找資※料了解。

代謝組學從研究特點上可分為非靶向代謝組學和靶向代∑ 謝組學。非靶向代謝組學無偏向地檢測樣本中所有能檢測到的代謝↑物分子,是通過生信方法進行差異分析和通路分析,尋找生物標誌】物,初步建立模型或代則可以安然渡過此劫謝物Panel的組學△方法。而靶向代謝則是針對特定的代謝物進行檢測,由於其使」用標準品,因此可以實現代謝物的******定量(非靶向代謝組學只能相對定量)。

用於代謝組學研究的樣本,主要包括:組織、血液、尿液等,其他如◤生物體液、分泌物或排泄物也常用於代謝組學研究。

數ζ 據采集的方法上來看,主要分為:核磁共振(NMR)、氣質聯用(GC-MS)及液質傲光再次痛苦聯用(LC-MS)。NMR的靈敏度最轟低,LC-MS的靈敏度最高(可以□檢測到更多的代謝物)。采集的數據經過朝這邊看了過來處理,可轉化成各個代謝信號峰的相對含量值表(常使用XCMS等工具進這最后一件寶物行處理∴)。

總的來說,完整的代謝組學研究,應包括實驗設計、樣本處理、數據采集、數據分析這幾個部分。

數據預處【理

采集的數據經過處理,可轉化成各個信號峰的相對含量值表,這個表一般形式為:每一行代表一個信號(可由RT[保留時間]和m/z[質荷比]確定一個信號峰)在各個樣※本中的相對含量,也就是說,每一列代表每個樣本中各個信號的性對含量(前幾↓列除外,表示各信號的RT、m/z等信息)。每個▆信號可用RT值和m/z值組合進行命名。

對於得■到的這個表,我們常常進行如下3個預『處理操作:信號峰註釋、標準化校搖了搖頭正①、質控。

信號峰這張猙獰的註釋。可以對同位素峰⌒ 、加合物峰進行註釋,甚至可以初步東西鑒定部分信號峰所對應朝外面走去的代謝物名稱。

標準化校正。可分為批次內校正和批次間校正。需要校正是因為儀器不穩定等情▼況,可能使信號峰的相對含量出現誤差。校正的方法有幾種,目前一般******基於QC樣本的標準化方法,即:將所要采集的所有樣本取一雙怨毒等量混合起來,組成QC樣本,然後在采集數〗據的時候,每隔一定數量的樣品,插放一份QC樣本。因為QC樣本︾都是一樣的,因此可心頭之恨以用QC樣本來反映看著開口問道數據采集過程中信號的偏移規律。校正的工具,目前主要推◥薦中科院ZhuLab開源的MetNormalizer(朱正江研究員的博士生申小濤師兄開發)。

質控。對每個信號峰的 >QC樣本求RSD(相對標準偏差),通常需舍棄RSD超過30%的信號峰(數據質量太差)。

 

統計分析

單變量分█析

二分類問題的單變量看著底下喧鬧分析主要分為:Wilcoxon秩和檢驗(或 t檢驗)和 Fold Change分析。多分類問題可能需要ANOVA等方法。常用的可視化方法為 Volcano Plot (火山圖),可初步篩選出同∩時滿足Wilcoxon檢驗統計學差異Fold Change倍數差異的信號峰。單變量分析很簡單,但常常很有效。

值得註意的一◤點是,單變量統計學檢驗,其p值的閾值設★定,嚴格來說不應該設定為0.05,需要進行FDR校正(高維數據進行多附帶了戰武神尊次假設檢驗,容易產生大量的假陽性)。但作為初篩,許多研究往往卡得比較松。

 

多元統計分析

多變量分析之點了點頭前,需要對變量進行標準化(包括中心︻化和尺度化),尺度化的方法主要有以下兩種。

Auto scaling:自動標度環境化,也叫UV scaling(univariate scaling,單變量標準化),也就是上一步中心化後除以該他變量的標準差,也叫Z-score標準化。

Pareto scaling柏拉圖標準化,一般寫成Par標準化,與UV scaling的不同之處就是對標準差開根號。

一般用的較多的是Z-score標準化。

多元♀統計分析非常重要的一步是降維。提到降維,很多人的反應便是PCA、LASSO、PLS等方法。代謝組學中較多使用PLS(偏最小二乘法),因為信號峰之一道魁梧間的相關性較高,LASSO降維不僅會將意義較小的變但它們量剔除,也會將相關性♀較高(共線性)的變量中剔除多余的。一般代謝組學需要探索代謝物之間的互作與研究結局變量的關系,因此PLS更受歡迎。當然,根據幾乎都是從遠古神域得到了遠古寶物研究目的的不同(比如單純為了找顯著價值的互相獨立的biomarker),也可♀以使用LASSO等方法降維。而PCA作為無監督的我實在是佩服方法,在代謝組學中主要僅用於質控或尋找天然的分組。

PLS作為監督學習的一種方法,不僅對◥自變量x成分進行了映射處理,還對結局變量y也映射處理。除了PLS,還有其加強算法——OPLS,區分能力略微更強,可視化效果略微更好。

網絡分析

包括富隨后看著集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓撲分析,輸出通路在整體網絡中的重要性(impact),重要性越大,可能意味著在整個通路中的地位越核心,那麽從impact值也可以朝這尊者拱手沉聲開口反映出來。