Get Adobe Flash player
Home 案内板
English (UK)

アセンブル・スキャフォールディング機能への案内

ショートリードのde novo AssemblyやScaffoldingを実行します。

  • 実装ソフトウェア名称: IMC GE IMCAEGenomeTraveler
  • 主な機能
    • de novo Assembly
      • in silico Assemblerによる
      • Velvetによる(GTのみで実行可能)
    • Scaffolding
      • GTのみで実行可能

in silico Assemblerの概要

GTのAlignmentViewerに表示したアセンブル結果

  • in silico Assemblerはde novo assemblerです。
  • Windows, Mac, Linux(GTのみ)上で実行できるアセンブラーです。
  • 現在、50bp以上のDNA Fragment (Short Read) をアセンブルできます。
  • アセンブルの速度は、プラットフォームの性能に依存します。
  • 部分アセンブルでは、コンティグの伸長優先およびCoverage優先の設定可能です。
  • アセンブル対象Readを選択できます。
  • in silico Assemblerは単体では実行できません。
  • 相同性解析部分を選択可能です。
  • 実装メモリーサイズに応じて最適化します。
さらに詳しく

in silico Assemblerの概要

 

in silico Assemblerの特徴

 

 

  • in silico Assemblerはde novo assemblerです。
  • Windows, Mac, Linux(GTのみ)上で実行できるアセンブラーです。
  • 現在、50bp以上のDNA Fragment(Short Read)をアセンブルできます。
    • NGS(次世代シーケンサ)からのReadもアセンブルできます。
  • アセンブルの速度は、プラットフォームの性能に依存します。
  • 部分アセンブルでは、コンティグの伸長優先およびCoverage優先の設定可能です。
  • アセンブル対象Readを選択できます。
    • アセンブル範囲指定
    • QVレベルの指定
    • Nの個数指定
  • in silico Assemblerは単体では実行できません。
    • IMCやGTでは標準ツールの一つとして搭載されています。
    • MGGではオプション機能として内臓されています。
  • - 相同性解析部分を選択可能です。
    • NCBI Blast
    • LAST
    • RTG(開発中)
  • 実装メモリーサイズに応じて最適化します。
    • 実装メモリーの少ない環境でもアセンブルできますが、処理時間はかかります。

 

制限事項

 

  • 最少フラグメント塩基長
    • 現在アセンブルできる最少フラグメント塩基長は50bpです。

 

アセンブル可能な配列(Read)フォーマット

塩基配列のみ

 

  • Text

 

フォーマットされた塩基配列

 

  • FastA
  • GenBank

 

キャピラリーシーケンサからの出力配列

 

  • ABI/SCF形式

 

PHREDによるQuality付配列

 

  • PHD形式

 

NGS(次世代シーケンサ)からの出力配列

 

  • FastQ
  • CSFastA
  • Solexa
  • SFF/454

 

Paired-Endへの対応

 

  • Paired-Endのアセンブルは可能ですが、それらの関係を利用したアセンブルの精度向上のための機能は有していません。

 

ISAの利用方法

 

  • IMCあるいはGTのToolsメニューから起動できます。
  • MGGではアセンブル機能で自動実行されます。

 

ISAの性能

 

  • in silico Assemblerの性能

 

ISAの最新機能

ISAの機能

各種Readの読み込み

 

  • ファイル指定による読み込み
  • ディレクトリ指定による読み込み
    • 複数の異なるフォーマットのReadファイルが混在していても読み込めます。
    • Readファイル以外のファイルが存在するとエラーとなります。

 

ベクター配列などのマスキング機能

 

  • 代表的なベクター配列は登録済です。
  • 新たにベクター配列を登録することができます。
  • マスキングに使用するベクター配列(複数指定可能)を実行時に選択できます。

 

各種パラメータ変更

 

  • Base Calling Options
    • コンセンサス配列決定のために以下のオプションから選択できます。
      • 多数決による決定。ただし、Consensus Ratioに設定した多数ベースコール率を上回る必要があります。これを超えない場合は、Nがコールされます。
      • もっともQV値の高いベースコールを採用。この場合は、最少カバレージを指定できます。
  • Trimming Options
    • アセンブル対象のreadの範囲を設定可能です。
    • 各Readのうち使用する配列領域を指定できます。
    • Quality Scoreがついている配列では、指定したQV以下の配列をアセンブルに参加させないように設定できます。
    • 指定個数以上のN塩基を含むフラグメントをアセンブルに参加させないように設定できます。
    • 上記のトリミングの順序を変更できます。
  • Masking Options
    • マスキングに使用するベクター配列を指定(複数指定可能)できます。
    • マスクの判定基準を変更できます。
      • -ov: Cutoff overlap length|マスキングする領域のベクター配列との重なり塩基長を指定します。このサイズ以上の重なりを有するフラグメントをマスキングします。
      • -rs: Masking Region|マスキング対象領域を限定します。フラグメントの先頭塩基から数えて、この数値までの塩基をマスキング対象とします。
  • Assembling Options
    • Limit of Pairwise
      • -ov: Cutoff Overlap Length|このサイズ以上の重なりをもつフラグメント同士を結合ペアとする。
      • -sa: Cutoff Share of Alignment|この指定値以上のアラインメント領域におけるPercent Identityを有するフラグメント同士を結合ペアとする。
    • Limit of Fragments
      • -lf: limit of contig fragments|1つのコンティグに含まれるフラグメント数を制限します。指定数を超えるフラグメントは無視されます。
      • -ls: limit of reads to stick to the same region|同一領域に結合されるフラグメント数の最大値を設定します。これ以上のフラグメントが同一位置にアセンブルされる場合は無視されます。
      • -lg: limit of gaps|指定値以上のギャップ塩基長をもつフラグメント同士は結合ペアとしません。
      • -lo: limit of overlaps|指定以上のOverlap塩基長をもつフラグメント同士は結合ペアとしません。
    • Writing
      • -sw: Save singlets in a file|アセンブルに参加できなかった単独のフラグメント(Singlet)を1つのファイルに保存します。
  • Homology Search Options
    • Blast for Masking
    • Blast for Assembling
      • -W: word size|デフォールト値=15。通常はデフォールトで使用します。
      • -a: Number of Processor to use|アセンブルを実行するコンピュータが複数のCPU/Coreを有する場合は、この値をその数に設定します。
      • -s: Minimum Hit Score to Report|
      • -e: Cutoff Expectation Value|デフォールト値は、1.0E-5。通常はこれより大きな値に設定します。
      • -p: Cutoff Percent Identity|デフォールト値は、95。通常はこれより大きな値にします。
      • -v: Show Descriptions|
      • -b: Show Alignments|

 

アセンブル結果ファイル出力機能

 

  • アセンブル結果ファイルは、実行時に指定したディレクトリに出力されます。
    • ACEフォーマットのアセンブル結果ファイル
    • Multiple GenBank形式のアセンブル結果ファイル
    • Mulitiple FastA形式のコンティグ配列ファイル
    • FastQ形式の入力ファイル
    • アセンブルに参加しなかった(Singleton)配列ファイル
  • 次のアセンブル実行時に同じディレクトリを指定すると前回の結果は上書きされてしまいます。

 

実行ログファイル出力・閲覧機能

 

  • アセンブルの実行ログを保存します。これらは、ログ履歴ビューアで閲覧可能です。
  • アセンブル実行中はログ履歴ビューアで実行中のログを閲覧しないようにしてください。
    • 閲覧するとそれ以降のログが書き込まれなくなります。

 

ISAの動作環境

 

  • 動作するOS
    • Windows xp/7
    • Mac OS X.6以上
    • Linux
  • キャピラリーシーケンサ配列
    • Memory 1GB以上
  • NGS配列
    • Memory 8GB以上

 

アセンブルの実行と操作

アセンブルの準備

 

  • フラグメント配列ファイルの格納
  • アセンブル作業領域の確保

 

フラグメント(Short Read)配列ファイルの指定

 

  • フラグメント配列ファイルはファイルの直接指定あるいはディレクトリ指定が可能です。
    • ディレクトリ指定の場合は、入力フラグメントファイルが複数ファイルにわたる場合に使用します。

 

実行パラメータの設定

 

  • 実行前にアセンブル実行パラメータ確認ダイアログが表示されます。
    • このダイアログから実行直前にパラメータを変更することができます。
    • あらかじめ設定しておくことも可能です。
  • アセンブル実行直前に変更可能なパラメータは以下のものです。
    • Base Calling Options
    • Trimming Options
    • Masking Options
    • Assembling Options
    • Homology Search Options

 

アセンブルの実行

 

  • アセンブルの実行中は全自動で行われます。
  • 実行中は進捗メッセージが表示されています。
  • 実行が完了すると完了メッセージが表示されます。
    • 実行結果および実行ログはファイルとして保存されます。

 

アセンブル結果の出力

 

  • ACEフォーマットのアセンブル結果ファイル
  • Multiple GenBank形式のアセンブル結果ファイル
  • Mulitiple FastA形式のコンティグ配列ファイル
  • FastQ形式の入力ファイル
  • アセンブルに参加しなかった(Singleton)配列ファイル

 

チュートリアル:アセンブル実行

 

  • 準備
    • 多数のアセンブル対象ファイルがある場合は、アセンブルする配列データを1つのフォルダーの下に格納します。このフォルダーにはアセンブル対象配列以外のものは格納しないようにします。
    • 次世代シーケンサ出力配列の様に、1つのファイルにまとまっている場合はファイルごとに指定可能なため、1つのフォルダーにまとめる必要はありません。

 

 

  1. GenonmeTravelerを起動します。
    • IMCからも起動できます。
  2. + Menu BarのTools --> in silico Assemblerを選択します。
    • in silico assemblerのコントロールウィンドウが表示されます。
  3. Assembleボタンをクリックします。
    • Assemble実行ウィンドウが表示されます。
  4. 以下の設定を行います。
    1. Output Directoryを設定します。新規のフォルダーを作成しそれを指定します。
    2. Assemble対象の配列を指定します。
      • 次世代シーケンサ配列などの場合は、ファイル1個あるいは2個を指定します。ファイル数がそれ以上の個数になる場合は、Directory指定にします。
      • キャピラリーシーケンサなどのように多数の配列ファイルがある場合はそれらが格納されているディレクトリを指定します。
  5. 設定後にSetボタンをクリックします。
    • Assemble Parameter Settingダイアログが表示されます。
  6. 最初はパラメータを変更しないで実行してもよいですが、データが多量にある場合は、最初に部分的にアセンブルします。この設定は、Trimming Optionを使用します。
    1. Trimming Optionsボタンをクリックします。
    2. Use Trimmingにチェックします。
    3. Limit of targetsのUse Trimmingにもチェックします。
    4. End of targetsをたとえば100,000にします。
    5. Setボタンをクリックします。
    • アセンブルの実行が開始されます。
    • 実行中は進捗ダイアログが表示されます。
    • Cancelボタンをクリックするとアセンブルの実行を中止することができます。
    • アセンブルの実行が完了すると完了メッセージが表示されます。
  7. OKボタンをクリックします。
    • これでアセンブルが完全に完了します。

 

アセンブル結果の閲覧

 

  • ISAのアセンブル結果は、GTあるいはIMCの閲覧機能を利用します。
  • このため、アセンブル結果をGTあるいはIMCにインポートあるいはロードする必要があります。

 

アセンブルのログ情報の閲覧

 

  • Assemble WindowのMenu BarからHelp --> Historyを選択します。
    • Historyダイアログが表示されます。
  • 表示したいアセンブル結果にチェックします。
  • Viewボタンをクリックします。
    • Assemble結果のログ情報が表示されます。

 

GTのAlignment Viewerを使用した閲覧

 

  1. + GTのACE Import機能でACEファイルをインポートします。
    • あらかじめプロジェクトを作成する必要があります。
    • 多数のコンティグがある場合は、インポート時間がかかります。
    • Import時にTrimming設定するとトリミングされたフラグメントが属するサイズの大きいコンティグの表示ができなくなります。
  2. + GTのAlignment Viewerでコンティグ全部を結合して仮想ゲノムを表示します。
    • 各コンティグ間は任意の指定個数のN塩基で埋められます。
    • 各フラグメントがアラインメントされます。
    • 各フラグメントのコンセンサス配列が表示されます。

 

 

  • 詳細はこちらを参照ください。

 

チュートリアル:GTでのアセンブル結果閲覧チュートリアル

IMCのフィーチャーマップで閲覧

 

  • この機能はISA Version 2.1から利用可能です。
    • IMCの配列ロード機能を使用し、コンティグ毎のGenBankファイルをロードします。
    • フィーチャーマップ上に、コンティグ配列と各Readのアラインメントを表示します。
  • 詳細はこちらを参照ください。

チュートリアル:IMCでのアセンブル結果閲覧

 

ISAのダウンロードとインストール

ISAのダウンロード方法

 

  • IMCおよびGTにバンドルされているため、IMCやGTのダウンロード時に同時にダウンロードされます。

 

ISAのインストール方法

 

  • IMCおよびGTにバンドルされています。IMCやGTと同時に自動的にインストールされるため、単独でインストールする必要はありません。

 

ISAのライセンス

 

  • IMC/GTのライセンスの下で実行できます。

 

ISAの起動と終了

 

  • IMCおよびGTのメニューバーに起動メニューがあります。
    • メニューバーからTools --> is silico Assemblerを選択します。
  • in silico Assemblerのコントロールウィンドウをクローズすると終了します。

 

ISA Tips

 

  • 最初は、Trimming機能を使って、大規模なデータの一部だけをアセンブルします。これで、アセンブル操作の概要を理解すると同時に、全体をアセンブルした場合にかかるおおよその処理時間等を推測します。

 

バグ情報

未修正のバグ

 

  • アセンブル終了後のメモリー解放に不具合があります。
    • 回避方法:アセンブルが終了するたびに、IMCあるいはGTを再起動してください。

 

今後の改良・追加機能

 

  • QV等によるReadファイルの並べ替え、および結果のファイル保存

 

 

関連項目

次世代シーケンサReadもアセンブルできるde novo アセンブラ

IMCのMain Feature Mapに表示したアセンブル結果

  • この機能は以下のソフトウェアに搭載されています
    • IMCGE
    • IMCAE
    • GenomeTraveler
  • キャピラリーシーケンサからの配列だけでなく、次世代シーケンサからのReadもアセンブルできるde novo アセンブラです。
  • アセンブル結果をインポートして直ちにアノテーションに入れます。
  • コンティグ毎のフラグメントアラインメントの様子もフィーチャーマップ上で閲覧することができます。
より詳しく