搜索搜索

深耕醫療 Bigtera軟體定義儲存平台協助基因定序

應用案例2020-05-22

最近在搜尋工具上用「新冠病毒、基因定序」這兩個關鍵字進行搜尋時,瀏覽器會為您顯示幾百萬條搜尋結果。全球科學界在面對新冠這樣一個未知的病毒時,不約而同地在第一時間選擇使用基因定序去溯源、解碼、解讀、並逐漸戰勝它。

追本溯源,什麼是基因定序?

自從 1953 年,Watson 和 Crick 發現了 DNA 的雙螺旋結構,隨後分子生物學研究便發展迅速。20 世紀 70 年代,DNA 定序技術問世。2001 年,首個人類基因圖譜繪製完成。30 多年時間,定序技術已取得了相當大的進展,從第一代到第二代乃至第四代,定序讀長從長到短,再從短到長。定序技術的一次次變革,使人們更認識了定序技術在基因組研究、疾病研究、藥物研發、育種等領域中的重要作用,對基因和基因組結構的研究和探究也從未停止…而基因定序的技術方法也不斷反覆推陳出新,平均每隔幾年,就會有新的定序技術出現。

科技時代,基因定序的風險與挑戰

近幾年,高通量定序技術的發展比摩爾定律還要快,如 2005 年的 Roche 454 定序儀執行一次可產生 400MB 左右的基因序列檔,而 2010 年的 Illumina HiSeq 2000 執行一次,可以產生 200GB 的基因序列檔,單台每月能夠產生 6TB 資料,而大型研究機構可能會有幾十台定序儀,每年的資料產出量將達到 PB 量級。

這些資料產出後,需要不斷增加儲存伺服器容量以滿足需求,並進行資料處理,如進行序列比對、序列拼接等,需要大記憶體胖節點 (雙路以上) 設備才能滿足執行需求。此外,在資料處理過程中如果多使用者同時存取,那麼同時存取和運算所造成的網路壓力、磁碟 I/O 壓力都可能不同程度地限制應用程式執行效率,進而影響研究進度。

因此,如何從這些巨量資料中「淘金」,已經成為基因組研究實際面臨的重大問題,對於大規模高效能運算平台的要求更高,包含儲存容量、儲存資料安全性,以及電腦的運算速度、記憶體容量、記憶體頻寬、網路頻寬等方面也有不同程度的需求。

深耕醫療,Bigtera 協助基因定序

精準醫療需要眾多的技術支援,不僅包含傳統的醫療技術、HPC 和人工智慧,也是其中非常關鍵的技術。基因定序是精準醫療的前端技術,目前基因定序高度依賴 HPC,直接影響基因資料的定序精度和定序效率。

Bigtera 作為一家軟體儲存公司,在進入這個 HPC 領域之前,訪問了許多大專院校或者基因定序領域的研究人員,瞭解到目前 HPC 應用過程中存在許多問題,如合理化硬體資源利用和直觀管理調度,以及定序環境難以部署和擴充不易等等問題。不僅如此,資料安全沒有保障、分析品質低、供需失衡、以及高分析成本也大幅影響了整個定序產業的永續發展。

因此我們與多家知名大專院校的研究團隊合作,專為生物醫學大數據量身訂做一個大數據解讀生態系統,主要由三個部分組成:巨量分析工具、高效率的任務調度平台,以及高效能儲存集群。

Bigtera 在該系統中發揮其軟體儲存的優勢,提供該系統兩大重要組成部分:高效能的任務調度平台與儲存集群,為定向化的基因定序,提供高效能的儲存技術。

任務調度平台:提供平行批次處理的任務調度平台,借鑒美國安德森癌症研究中心的基因分析平台調度框架,支援多工並存執行、任務提交、任務進度追蹤、任務調度、資源隔離、QoS 控制等,以確保任務執行環境穩定。

容量高效能儲存:基因測試的分析過程,在本質上進行交換、比對大量樣本資料的過程。樣本庫的資料量直接影響了基因定序的分析品質,因此許多研究機構紛紛建構 TB 甚至 PB 級儲存。對於這樣大規模的儲存系統,系統的易用性、資料的安全性以及資料讀取的效能變得非常重要。特別是效能高低會直接影響資料讀取和分析的速度。

Bigetra 的高效能儲存平台,為基因定序提供最佳化的場景:

  • 橫向擴充:可支援巨量基因資料儲存,最高可達 100PB 以上
  • 線上無縫擴充容量的能力:依照需求擴充容量,擴充容量時不影響既有業務的使用
  • 高效能:支援多工並行讀寫
  • 巨量檔案管理檢索:支援針對基因中繼資料檢索,便於從巨量資料中定位查找客戶所需的基因資料
  • 既有儲存資源整合:支援納管舊有儲存系統,保護客戶既有 IT 投資
  • 多級資料保護機制:確保關鍵資料,安全性極高
  • 高效能內部資料調度介面:最佳化大型資料檔案的快速調度與分享

選擇 Bigtera 選擇安心的軟體儲存

基因定序最核心的資產就是過程中產生的龐大資料量,所以隨著基因定序通量越來越大,業內產出的資料也越來越多,相對而言對儲存、運算平台能力的要求也更高。如何傳輸、儲存及管理巨量基因資料是個非常棘手的問題。

Bigtera 作為專注於軟體定義儲存領域多年的企業級儲存服務廠商,為該方案中提供了以下幾個核心儲存特性:

基於目錄的配額管理以及 QoS 管理能力

使用者可以在容量與效能兩個維度間,動態調整儲存資源的容量分配與 QoS。透過內嵌的流量控制引擎,QoS 可控制管理使用者目錄的傳輸量,支援更有效的儲存資源分配與使用,確保每個定序任務或每個定序研究員,均可以獲得合理有效的儲存資源。

靈活的資料服務策略

在基因定序領域,原始資料量非常巨大且異常珍貴。Bigtera 提供的糾刪碼技術,在確保具有足夠的資料安全前提下,能夠大幅提升系統的有效容量,最高可達 90% 以上。

極具經濟效益的資料儲存方案

Bigtera 針對在基因定序過程中產生的大量中間結果以及最終結果,根據其對效能與安全性的不同要求,提供不同儲存方案,可提升效能與空間達數倍之多。而特有的零複製技術,為定序過程複製原始資料的需求,提供了效率極高的方法。定序任務可以在極短的時間內,獲得所需要的原始資料資源,無需等待冗長的資料複製時間,進一步縮短了定序時間,為定序研究和定序服務提供了更高的成本效益。

Bigtera 作為生態系統底層平台的搭建者,秉承著開放、融合、共濟的心態,希望可以整合最為優質的資源,包含分析團隊、研究團隊等,為產業上下游的業者,提供一個安全、經濟、易用、高效的分析服務與支援。

超融合
試用