PacBio社が第三世代シーケンサー用二次解析ツールSMRTをオープンソースで配布

As Pacific Biosciences prepares to ship its PacBio RS single-molecule real-time sequencing system later this quarter, the company has released SMRT Analysis, an open-source, secondary-analysis software suite designed to handle the system's long read data.

Pacific Biosciences 社が,SMRT Analysis というオープンソースツールを配布し始めた模様。今四半期から販売を開始する PacBio RS system のデータ解析をサポートするための準備であり,主に de novo assembly などの二次解析とその図示化に主眼をおいて開発された。このツールをオープンソースにした理由は,第三世代シーケンサー用のソフトウェア開発を促進させる狙いがある。それもそのハズで,今の第二世代シーケンサーのシェアを奪ってゆくためには,第三世代シーケンサー用のサードパーティによるソフトウェア開発は重要な要因である,との判断なのだろう。

SMRT Analysis は,APIが用意されており,新たに開発したソフトウェアを,DevNetと呼ばれる開発者ネットワークと統合・シェアすることができる。この点は非常に画期的だと,ボクは思う。なぜならば,シーケンサーメーカが積極的に,サードパーティ開発チーム間のコラボレーションをサポートしようとしているからだ。現に,DevNetからは,APIソースコードだけでなく,シーケンスデータやシーケンサーに関してのドキュメントが揃っているようで,サードパーティによる開発を促すことに力を入れていることが分かる。すでに,DevNetには800〜1000人のユーザが登録をしているようだ。(すごい人数だ。きっと,今既にツール開発の競争が繰り広げられており,そう遠くない未来に,論文として表に出てくるのであろう。)

These features include long read lengths, expected to range between 850 and 1,500 bases; high granularity, which makes it possible to run multiple samples at a time; two new sequencing modes in addition to standard sequencing; circular consensus and strobe sequencing; as well as kinetic information, which the firm says can provide data about modifications in DNA and RNA gathered during the sequencing process.

PacBio RS system の特徴は,第一に 850-1500 bp とリードが長いこと。circular consensus によるエラー検出,ストロボシーケンスによるスキャッフォールディングは,それぞれ新しいソフトウェアを必要とするだろう。また,kinetic 情報を用いることで,メチル化などの DNA/RNA 修飾を検出するための手法も開発が望まれる。

SMRT Analysis は,SMRT Pipe と呼ばれる Python-based framework と,SMRT View というゲノムブラウザから構成されている。SMRT View は単にブラウザとしての機能だけでなく,ジョブ投入のためのGUIとしても機能する。SMRT Pipe からは,BLASR(mapping tool),Allora(de novo assembly tool),AHA(hybrid de novo assembly tool),EviCons(マッピング結果からコンセンサス塩基を推定する)などが利用できる。hybrid de novo assembly は,PacBio RS からのデータと,第二世代シーケンサーからのデータを組み合わせることにより,より長いスキャッフォールドを作ることを目的としている。

BLASRについての情報:

Sorenson said the algorithm takes currently used approaches, such as suffix arrays and dynamic programming, and "puts them together in a way that hasn't been done before."

The initial set of candidate alignments is found by querying a pre-computed index of the reference genome, and then refined until only high scoring alignments are retained. The base assignment in alignments is optimized and scored using all available quality information, such as insertion and deletion quality values. Because alignment approximates an exhaustive search, alignment significance may be computed by comparing optimal alignment score to the distribution of all other significant alignment scores.

Sorenson said BLASR performed better than other long-read alignment algorithms, such as BWA-SW, which, under specified parameters, can align PacBio data. He also said that BLASR outperforms some well-known sequence alignment algorithms including Blast, MUMmer, Exonerate, and Blat, and noted that the firm plans to publish a paper providing specific benchmark details for BLASR as compared to other methods.

Alloraについての情報:

Another tool, Allora, short for "a long read assembler," is PacBio's de novo assembly algorithm. Based on the open source assembly software package AMOS as well as other components tailored to PacBio’s long reads and error profile, Allora uses an overlap-layout-consensus approach to iteratively assemble raw reads into contigs and then outputs them as Fasta sequence and cmp.h5 files.

de Bruijn graph でなく,overlap-layout-consensus アプローチをとっている。(これは,今後 PacBio のスループットが向上したときにも,動くのだろうか)

EviConsについての情報:

A final component of the suite, EviCons, produces consensus sequences from multiple sequence alignments generated from resequencing reads or contigs. The tool uses probabilities and a likelihood ratio test to separate alignments into regions of certainty and uncertainty and then uses base quality values and the Steiner framework to produce the best estimate of the local consensus sequence for uncertain regions.

参考文献:
http://www.genomeweb.com/informatics/pacbio-releases-open-source-analysis-suite-ahead-single-molecule-sequencer-launc