GSEA 操作ガイド (2): データの読み込み

データを読み込むところまでを紹介します。フォーマットを合わせることができれば、操作は難しくありません。(データは、3. で示すフォーマットで事前に準備しておく必要があります。)

1. Load data をクリック

メインとなるウィンドウの左上にある “Load data” のボタンをクリックします。

Load data をクリックする。
Load data をクリックする。

2. 読み込むファイルの選択

右側にデータを読み込むためのタブが表示されます。読み込む方法は3種類あります。いずれかの方法を使用します。通常は、読み込み方法1を使うとよいでしょう。

  • 読み込み方法1: ボタンをクリックすると表示されるダイアログからファイルを選択します。
  • 読み込み方法2: 過去に開いたファイルの一覧から指定します。
  • 読み込み方法3: ファイルをドラッグ&ドロップして、右下の “Load these files!” をクリックします。
読み込み方法の選択。
読み込み方法の選択。

3. ロードできるデータのフォーマット

読み込むことができるファイルの形式(フォーマット)は、GCT, RES, PCL, TXT の4種類です。一般的には、 GCT フォーマットを利用するのがよいでしょう。各フォーマットの書式については、こちらに書かれています。例は、Affymetrix のデータですが、Agilent の場合も GCT フォーマットに合わせれば読み込むことができます。(RESフォーマットであれば、Agilent のフラグ A, M, P を読み込ませることができますが、現在、このフラグの情報は無視されるようです。)

なお、読み込むデータは、あらかじめ数値化や正規化しておく必要があります。CELファイルや Feature Extraction のファイルなど、raw データをそのまま読み込むことはできません

正規化後のデータをエクセルなどで読み込んで、必要な書式に整形します。テキスト形式のデータをエクセルに読み込む場合は、遺伝子名が変換されてしまわないように注意してください(前記事参照)。

GCTフォーマットに必要なポイント

  • ポイント1: 1行目に #1.2 と書く。これはそういう決まりらしいです。
  • ポイント2: 2行目の1列目に、遺伝子数(プローブ数)を書きます。あらかじめカウントしておきましょう。
  • ポイント3: 2行目のプローブ数の横に、サンプル数を書きます。
  • ポイント4: 1列目は、NAME として、 ProbeID (ProbeSetID) を指定します。重複するIDであってはいけません。遺伝子名ではダメです。
  • ポイント5: 2列目は Description (=説明書き)です。空欄にはできません。何も情報がなければ、 “na” と書きます。
  • ポイント6: 3列目からシグナル値が始まるようにします。サンプル名は重複してはいけません。unlog (natural scale) でも log変換後 (log scale) でもよいらしいです。
読み込ませるデータのフォーマット。
読み込ませるデータのフォーマット。

 

最後にファイルを「タブ区切りのテキスト形式」で保存します。エクセルの形式(.xls, .xlsx)では読み込むことはできません。

4. ファイルの読み込み

作成しておいた GCT フォーマットのファイルを、2. のいずれかの方法で選択すると、GSEA にファイルが読み込まれます。正常に読み込まれると、下図のように NO errors と表示されます。読み込んだ後は、GSEA の実行に必要なパラメーターの設定へと進みます(次回)。

正常に読み込まれた結果。
正常に読み込まれた結果。
 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

コメントを残す