Public | Automated Build

Last pushed: 2 years ago
Short Description
IN: any SRA ID -> OUT: URLs for .sra files
Full Description

How to use:

coreos> docker run -it chalkless/test-fetchsra2 SRA_ID

何コレ:

SRAの某かのIDを入れると、そのIDが属するところのプロジェクト下にあるシーケンスデータへのリンクURLを列挙する、というものです

Background/Motivation:

NGSの公共データベースであるSRAには、測定データである大量のシーケンスデータの他に、プロジェクトや利用シーケンサー、生物種などの実験条件がメタデータとしてXML形式で付与されているが、データ構造がなかなかに複雑である。
http://trace.ddbj.nig.ac.jp/dra/submission.html

  • submission:登録ごとに付与されるID
  • study:プロジェクト
  • experiment:実験。1プロジェクトで複数の実験をやったらその実験の数だけこれができる
  • run:1つのシーケンスデータに対して1つのrunが対応(でいいんだよな)
  • sample:各experimentに対して、そこで用いた生物種の情報が記述される
  • analysis:まぁ使わんでしょう

データをまるっと使うときには、某かのIDに対して対応するプロジェクトがあって、その下にぶら下がるexperimentを列挙して実際のデータのありかを探す、と、そういうことになるわけですな。

本当はダウンロードまでやりたかったんだけども、個々のファイルが数百MBとかの場合もあるので、自重しておきました。

問題点とか:

今、ID変換には、NCBIから変換テーブルを落としてそれをなめているというしくみ。てことは、イメージを作ってしまうと、このテーブルが変換されないわけですな。
そもそも、ID入れて対応するプロジェクトのIDを出力するとか、呼んだら返すみたいなのがあるといいなーなどと思ったりするわけです。はい。

Docker Pull Command
Owner
chalkless
Source Repository

Comments (0)