Get Adobe Flash player
Home 比較ゲノム
English (UK)

O09: 16SrRNAによるメタゲノム解析

実装

 

  • IMC GE
  • IMC AE
  • GT

 

実行例

 

  • 4サンプルのメタゲノム16SrRNAのOrder Rankでの存在比を百分率棒グラフにしたもの。

IMC_5.0.13_C105_008.JPG

  • 4サンプルのメタゲノム16SrRNAのOrder Rankでの存在頻度を棒グラフにしたもの。

IMC_5.0.13_C105_007.JPG

 

機能

メタゲノム由来の16SrRNA塩基配列から、集団を構成する生物種の学名6種のRank別構成比を表示します。

24個までのサンプルを一度に解析します。
解析結果はファイルとして保存され、後程参照・表示可能です。
集計グラフは印刷や画像ファイルとして保存可能です。 
集計結果は、CSVファイルとして保存可能です。 
複数の既存16SrRNAの参照データベースを登録・選択できます。

 

 

出力グラフ

Phylum別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_004.JPG

  • 度数グラフ

IMC_5.0.13_C105_003.JPG

 

Class別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_006.JPG

  • 度数グラフ

  • IMC_5.0.13_C105_005.JPG

 

Order別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_008.JPG

  • 度数グラフ

IMC_5.0.13_C105_007.JPG

 

Family別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_025.JPG

  • 度数グラフ

IMC_5.0.13_C105_009.JPG

 

Genus別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_026.JPG

  • 度数グラフ

IMC_5.0.13_C105_021.JPG

 

Species別Read数構成比とヒストグラム

 

  • 百分率グラフ

IMC_5.0.13_C105_027.JPG

IMC_5.0.13_C105_028.JPG

  • 度数グラフ

IMC_5.0.13_C105_031.JPG

 

制限事項

 

  • IMC Version 5.0.13リリース時点では、片側から読んだReadが1つのFastQ形式ファイルにまとめられ、そのもう一方の末端から読んだ配列が同じオフセットで別のもう1つのFastQ形式ファイルに格納されている必要があります。

 

性能

 

  • 実行速度は、使用する16SrRNAデータベースの大きさと16SrRNA配列の数に比例します。

 

アルゴリズムとデータ構造

アルゴリズム

 

  1. 16SrRNAのV4領域から得られたPCR断片を両側から読んだ150bpのShort Readをbl2seqを使用してアラインメントし、そのコンセンサス配列を得る。
  2. Accession Number付の16SrRNAデータベースに対してBlastNによる相同性解析を行い、そのトップヒットSubjectを得る。
  3. Accession Numberをキーにして、Taxonomy Tableを参照する。
    • Taxonomy TableはNCBIのTaxonomyデータから編集された表であり、Accession NumberをキーにしてPhylumからSpeciesまでの詳細Scientific Nameを取得できる。
  4. 同一のPhylum, Order, Class, Family, Genus, Speciesについてトップヒット数をカウントし、その構成比を計算する。

 

データ構造

 

  • 登録可能な16SrRNA参照データのフォーマット
    • DDBJ 16SrRNAデータと同等のフォーマット
    • GreenGene 16SrRNAデータと同等のフォーマット
  • 解析可能なサンプル16SrRNAデータ
    • 配列3'末端が互いにOverlapする150bp程度のPaired-End配列が同一ペア配列のオフセットを同一とする一対のFastQフォーマットに格納されている必要があります。
    • マルチサンプルを一括して解析する場合には、以下のように各FastQファイルを格納しておく必要があります。
    • :マルチサンプルの場合|以下の構造のディレクトリの下に全データを格納します。
  • 1つのディレクトリを作成し、サンプルディレクトリとします。
    • サンプルディレクトリの下に、複数のサブディレクトリをサンプルの種類の数だけ作成します。
      • それぞれのサブディレクトリの下に、ペアとなるFastQファイルを格納します。
  • Sample Root Directory
    • Sample 1 Sub Directory
      • FastQ1_1
      • FastQ1_2
    • Sample 2 Sub Directory
      • FastQ2_1
      • FastQ2_2
    • Sample 3 Sub Directory
      • FastQ3_1
      • FastQ3_2

 

操作方法

使用可能ファイル形式

 

  • FastQ形式ファイル
    • 同一PCRフラグメントをシーケンシングした両末端リードはそれぞれの別のFastQ形式ファイルの同一オフセット位置に格納されている必要があります。
    • ペアのリード同士は互いに相補的なOverlap領域をもっている必要があります。

 

結果出力

 

  • 指定したRankのリード数構成比が表示されます。
  • CSVファイルとして保存できます。

 

16SrRNA参照データのダウンロード

 

  • DDBJ 16SrRNAデータ
    • -- [[&ref(cimg/Download.png);:ftp://ftp.ddbj.nig.ac.jp/ddbj_database/16S/16S.seq.gz]]
  • GreenGene 16SrRNAデータ
    • -- [[&ref(cimg/Download.png);:http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/current_GREENGENES_gg16S_unaligned.fasta.gz]]

 

16SrRNA参照データベース登録操作

 

  • 予め16SrRNAデータベースを登録しておく必要があります。
  • 16SrRNAデータベースの作成と登録には、File --> DB Createを使用します。

 

 

  1. IMCを起動します。
  2. MenuからFile --> DB Create...をクリックします。
    • Blast DB List ダイアログが表示されます。
    • IMC_5.0.13_C105_049.JPG
  3. 「Add Nucleotide Sequence DB...」をクリックします。
  • Blast DB Setting ダイアログが表示されます。
  • IMC_5.0.13_C105_050.JPG
  1. Nucleotide Sequence File(s)欄に16SrRNAのファイルを指定します。指定はRef...ボタンを押します。
  2. DB Name欄にデータベース名として使用する任意のユニークな名称を入力します。
    • IMC_5.0.13_C105_055.JPG
  3. 16SrRNAチェックボックスにチェックします。
    • IMC_5.0.13_C105_056.JPG
  4. このデータベースをローカルに保存する場合は、Save DB in Local Directoryをオンにして、Ref...ボタンを押して保存するディレクトリ名を指定します。
    • IMC_5.0.13_C105_057.JPG
  5. + このデータベースを外部サーバ上に保存する場合には、Save DB on External Serverをオンにして、外部サーバの以下の設定を行います。
    • ::Host Name|
    • ::User ID|
    • ::Password|
  6. + Setをクリックします。
    • A confirm message window is displayed.
    • IMC_5.0.13_C105_060.JPG
    • DBの生成が開始されます。
    • 登録中はプログレスメッセージが表示されます。
    • IMC_5.0.13_C105_061.JPG
    • DBの登録が完了すると、完了メッセージが表示されます。
    • IMC_5.0.13_C105_062.JPG
  7. Click "OK" to close it.

 

16SrRNAメタゲノムReadファイルの準備

 

  • マルチサンプルの場合|[[データ構造>#DATA]]で記述されている構造のディレクトリの下に全データを格納します。

  • シングルサンプルの場合|2つのファイルをそれぞれ指定します。

 

処理対象Readの選択

 

  • ~ 入力FastQファイル全体ではなく、処理対象Readの範囲を指定することができます。

 

16SrRNAメタゲノム解析の実行

 

  1. IMCを起動します。
  2. MenuからGenome Analysis --> 16SrRNA Metagenome Analysisを選択します。
    • "16S rRNA Metagenome Analysis"ダイアログが表示されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_080.JPG,50%);
  3. 解析対象のメタゲノム由来16SrRNA配列のFastQファイルを指定します。
    • 単一のサンプルを解析する場合
    • +++ Forward Fileに片方のFastQファイルを指定します。
    • +++ Reverse Fileにもう一方のFastQファイルを指定します。
    • IMC_5.0.13_C105_066.JPG
    • 複数のサンプルを一度に解析する場合

 

このデータ構造>#DATA]]をもつディレクトリを指定します。

~ &ref(imcimgO/IMC_5.0.13_C105_068.JPG);

 

  1. FastQファイルの一部のReadだけを使用する場合は、Analyze whole dataのチェックをはずします。そして、FromおよびTo欄に処理開始および処理終了リード位置を指定します。
  2. 予め登録されている16SrRNAデータベースを選択します。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_071.JPG);
    • 複数データベースを選択することも可能です。
  3. 相同性検索パラメータを変更する場合は、Parameterボタンをクリックして、パラメータを変更します。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_073.JPG);
    • ~ &ref(imcimgO/IMC_5.0.13_C105_074.JPG);
  4. Setボタンをクリックします。
    • 解析の実行が開始されます。
    • 実行中は進捗メッセージが表示されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_011.JPG);

 

16SrRNAメタゲノム解析結果の集計と表示、保存

 

  1. IMCを起動します。
  2. MenuからGenome Analysis --> Sum up of 16SrRNA
    • "Sum up Result" ダイアログが表示されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_014.JPG);
  3. 実行結果ファイルを指定します。
    • デフォールトでは直前に実行された結果が選択されています。
  4. Setをクリックします。
    • 集計が開始されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_013.JPG);
    • 集計が終わると、16SrRNA Metagenome Analysis集計結果画面が表示されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_015.JPG,50%);

 

頻度表・百分率グラフを表示する

 

  1. Menuから"Genome Analysis" --> "Sum up of 16SrRNA Result"を選択します。
    • File選択ダイアログが表示されるので、16SrRNAの解析結果ファイルから1つを選択します。
    • デフォールトでは、最新の結果が指定されています。
  2. Setをクリックします。
    • 集計が開始され、集計中は進捗メッセージが表示されます。
    • 集計が完了すると、集計結果画面が表示され、Phylum別の頻度表が表示されます。
  3. Graphをクリックします。
    • 別ウィンドウが開き、百分率グラフが表示されます。
    • ~ &ref(imcimgO/IMC_5.0.13_C105_004.JPG,50%);
  4. Closeをクリックします。
    • グラフウィンドウが閉じます。
  5. Classタブをクリックします。
    • Class rank別の頻度表が表示されます。

 

Tips

 

  • 小さなサイズの16SrRNAデータベースを指定すると処理速度が速くなります。

 

バグ情報

未修正のバグ

 

  • 解析される総Read数が10,000を超えると正しく中間結果ファイルが生成できません。
    • 臨時対処方法:Parameter以下のように設定します。
      • -b=1
      • -v=1

 

修正済のバグ

 

  • IMC version 5.0.13にて修正されたバグ
    • 処理Read数の表示が正しくない不具合が修正されました。

 

今後の機能追加・拡張

 

  • 一般的なメタゲノム16SrRNA塩基配列ファイルを入力可能とする予定です。

 

文献

 

  1. MiSeq16S>http://www.illuminakk.co.jp/pdf/AN_MiSeq16S.pdf
  2. Caporaso JG et al.>http://www.pnas.org/content/108/suppl.1/4516.full

 

 

近日中リリース予定製品

近日中リリース予定機能