• m3.com 電子書籍
  • 東大式 生命データサイエンス即戦力講座~ゲノム、エピゲノム、トランスクリプトームからシングルセルまで、大規模データ解析で論文を書くためのR&Pythonツールボックス

東大式 生命データサイエンス即戦力講座~ゲノム、エピゲノム、トランスクリプトームからシングルセルまで、大規模データ解析で論文を書くためのR&Pythonツールボックス

  • ページ数 : 344頁
  • 書籍発行日 : 2021年11月
  • 電子版発売日 : 2021年12月3日
¥5,940(税込)
ポイント : 108 pt (2%)
今すぐ立ち読み
今すぐ立ち読み

商品情報

内容

大学院の教育現場発!NGSデータ解析に必須なプログラミング言語の基礎知識と豊富な解析実例を1冊にまとめました.データサイエンス時代を迎えた生命科学・医学で使える,DRY解析技術という武器をあなたの手に

※本製品はPCでの閲覧も可能です。
製品のご購入後、「購入済ライセンス一覧」より、オンライン環境で閲覧可能なPDF版をご覧いただけます。詳細はこちらでご確認ください。
推奨ブラウザ: Firefox 最新版 / Google Chrome 最新版 / Safari 最新版

序文

はじめに ―データサイエンスの時代を迎えて


「バイオインフォマティクス」という言葉が生まれたのはもう20年ほど前であろうか.そのはじまりがいつかは定かではない.しかし少なくとも言えるのは2020年の今,「大量に産生されるバイオデータを処理する必要性から計算機を駆使して必要な情報を抽出する技術は必須のものとなっている」というのは厳然たる事実である.ますますの先端解析技術の革新,裾野の拡大によって,従来,1つの概念であった「バイオインフォマティクス」も多様化の局面を迎えている.1つはピーク技術のますますの先鋭化へ,もう1つは既存の技術を駆使して大量のデータから生物学的意義の抽出へと向かう.後者を定義する明確な言葉はまだ定まらないが,筆者らはそれを「生命データサイエンス」と称して本書を企画した.特に本書ではその題材を仮にがんを中心としたヒトの医学的応用を想定して構成した.ただし,そのノウハウは他のモデル生物,非モデル生物にも援用可能であると考えている.

実際,近年のバイオデータ産生技術は20年前には想像しなかった速度で進歩している.はじめてのヒトゲノムが解読されて20年,公的/ 私的なデータベースには何十万人分,何百万人分というヒトゲノムデータにあふれる.遺伝子発現等の多層オミクスデータについてもシングルセルレベルでのデータ産生が普及,さらには空間情報を保持した形,例えば病理画像データの各スポットでの解析も実施されるようになった.今後もますます大規模データの産生と解析の流れはその速度を増して展開していくであろう.急速なデータ蓄積を背景に,ヒトに関する分子生物学的理解も飛躍的に拡大した.多くの遺伝子機能とそのネットワークが明らかになっている.20年後のヒトの生物学は,これまで主であった「疾患」をこえて「健康長寿社会の実現」をめざす状態に達しているのかもしれない.そうなればそれは,ヒトが生物学的に規定されるヒトの限界に挑戦しようとするはじめての試みとなろう.計算機科学においては,技術的特異点,いわゆるシンギュラリティーが2045年をめどに訪れるという.以降,開発された人工知能が飛躍的に自己複製的に技術を発展,データをさらに蓄積して,ついにはヒトの知能を凌駕する進化をとげると夢想される.人工知能の本質が大量に蓄積されたデータの活用にあるのであれば,生物学においても飽和量のデータが大きな転換をもたらすときが来るのかもしれない.少なくともリアルワールドにおいて真にヒトを完全に理解し,さらにはヒトを超える領域まで健康/ 治療を推進しようとするには,これまでにない規模での生物学的データの産生,その解析の深化は必須の要素である.もちろん現在のところ,バイオ関連データはこれらのいわゆる人工知能解析に供するには,そのデータ蓄積量,解析深度は遠く及ばない.またその計測形式,データ形式もいまだ体系化されていない.しかし,一般にあいまい性をのこす生体関連データに比して,本質的にオミクス関連データはより高次の計算機解析にむく.さらにヒトの外に目を転じても,地球上に存在するあらゆる生物はDNA/RNAを遺伝情報として格納し,それをプロテオームとして読み出す同様の分子機構で機能する.生物相を構成するこれらの計測点は膨大な数ではあってもあくまで有限個である.そのすべてには至らなくてもそのシステムを理解するに足る規模での大規模,精密オミクス解析が実践されるような未来こそが,本質的な意味での「生命データサイエンスの時代」なのかもしれない.現在,その黎明期にあって,本書が未来を担う若手研究者への第一歩を後押しするものになれば,と思う.


2021年10月

編集を代表して
鈴木 穣

目次

<第一部 生命データサイエンスの基礎体力づくり>

第1章 Unix系環境の準備【中谷明弘】

1 環境構築のための計算機の準備

2 プラットフォームごとの環境の準備

1 Microsoft Windows 11または10

2 Apple macOS

3 Linux

[Column]次世代バイオビッグデータ時代に向けての人材育成【鈴木 穣】

第2章 データ解析に向けたUnix系環境の使い方【中谷明弘】

1 コマンドラインシェル(コマンドインタプリタ)

1 Bash(Bourne-again shell)

2 Unixのコマンド

3 ファイルとディレクトリ

4 スーパーユーザ(特権ユーザ)の管理権限

5 環境変数

6 リダイレクトとパイプ

2 パッケージマネージャ

1 APT(Ubuntuの場合)

2 MacPortsとHomebrew(macOSの場合)

3 テキストエディタ

1 vi

2 Emacs

4 Python処理系の準備

1 Anacondaのインストール

第3章 Pythonによるデータ解析の基礎【中谷明弘】

1 Pythonの起動と実行

1 対話型インタプリタを介した実行

2 スクリプトファイルとして実行

2 Pythonの基礎

1 データと変数

2 データ構造

3 文字列のパターンマッチング

4 制御構造

5 関数

6 ファイルの入出力

7 ソースコードの分割

8 起動時のコマンドライン引数

第4章 Pythonによるデータ解析の実践【中谷明弘】

1 実践:matplotlibによるグラフの描画

2 実践:VCF形式ファイル内の変異の集計

第5章 R言語によるデータ解析の基礎と実践①【鹿島幸恵,関 真秀,鈴木絢子】

1 解析環境とRのインストール

2 パッケージのインストール

3 Rの基礎

1 起動と終了

2 基本操作

3 テーブル入力・出力

4 オブジェクトの保存・読み込み

5 Rスクリプトの実行

4 実践:遺伝子発現量の散布図を描画する

5 実践:特定の遺伝子における発現量の箱ひげ図を描画する

6 実践:発現レベルが>5 RPKMである遺伝子数を棒グラフで可視化する

第6章 R言語によるデータ解析の実践②【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:DEG解析

2 実践:階層的クラスタリング・ヒートマップ描画

3 実践:エンリッチメント解析

4 応用編:Rを用いたがんゲノムアトラス(TCGA)データの抽出

第7章 スパコン利用のためのはじめの一歩【鹿島幸恵,関 真秀,鈴木絢子】

1 大規模計算機での解析

1 SSH接続

2 ファイルのやり取り

3 ジョブ管理システムとディスククォータ

2 国内におけるスパコンについて

1 バイオデータ解析向けのスーパーコンピュータ

[Column]ヒトゲノム倫理とスパコン【鈴木 穣】

<第二部 生命データサイエンスの実践>

第1章 オミクス解析の準備【鹿島幸恵,関 真秀,鈴木絢子】

1 オミクス解析外観

2 オミクスシークエンス解析

3 解析環境について

4 主要なデータフォーマット

5 リファレンスゲノムについて

6 各種リソース・データベースについて

[Column]ゲノム指針の改定【鈴木 穣】

第2章 ゲノム解析【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:ゲノムシークエンスデータからの点変異の検出

2 その他のゲノム解析手法・ツールについて

[Column]ゲノム配列を取り巻く国際情勢【鈴木 穣】

第3章 トランスクリプトーム解析【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:RNA-seqデータからの発現量算出とヒートマップ描画

[Column]配列解析によるオミクス解析の未来【鈴木 穣】

第4章 エピゲノム解析【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:ChIP-seqデータからのヒストン修飾のパターン解析

2 その他のエピゲノム解析手法

第5章 シングルセル解析①【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:scRNA-seqデータの一次解析

2 実践:scATAC-seqデータの一次解析

[Column]計測技術の進展とデータ量【鈴木 穣】

第6章 シングルセル解析②【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:scRNA-seqデータからのクラスタリングと細胞種同定

2 実践:scATAC-seqデータからのクラスタリングとcoverageプロットの作成

3 実践:scRNA-seqとscATAC-seqのデータ統合

第7章 ロングリード解析【鹿島幸恵,関 真秀,鈴木絢子】

1 実践:全長cDNA-seqデータからの発現量算出と短鎖RNA-seqデータとの比較

2 実践:長鎖ゲノムシークエンスデータからの構造変異の検出

3 実践:長鎖ゲノムシークエンスデータからのメチル化領域の同定

4 その他ロングリードシークエンス技術の応用

索引

便利機能

  • 対応
  • 一部対応
  • 未対応
便利機能アイコン説明
  • 全文・
    串刺検索
  • 目次・
    索引リンク
  • PCブラウザ閲覧
  • メモ・付箋
  • PubMed
    リンク
  • 動画再生
  • 音声再生
  • 今日の治療薬リンク
  • イヤーノートリンク
  • 南山堂医学
    大辞典
    リンク
  • 対応
  • 一部対応
  • 未対応

対応機種

  • ios icon

    iOS 10.0 以降

    外部メモリ:99.9MB以上(インストール時:204.8MB以上)

    ダウンロード時に必要なメモリ:399.6MB以上

  • android icon

    AndroidOS 5.0 以降

    外部メモリ:99.9MB以上(インストール時:204.8MB以上)

    ダウンロード時に必要なメモリ:399.6MB以上

  • コンテンツのインストールにあたり、無線LANへの接続環境が必要です(3G回線によるインストールも可能ですが、データ量の多い通信のため、通信料が高額となりますので、無線LANを推奨しております)。
  • コンテンツの使用にあたり、M2Plus Launcherが必要です。 導入方法の詳細はこちら
  • Appleロゴは、Apple Inc.の商標です。
  • Androidロゴは Google LLC の商標です。

書籍情報

  • ISBN:9784758121170
  • ページ数:344頁
  • 書籍発行日:2021年11月
  • 電子版発売日:2021年12月3日
  • 判:AB判
  • 種別:eBook版 → 詳細はこちら
  • 同時利用可能端末数:3

まだ投稿されていません

特記事項

※ご入金確認後、メールにてご案内するダウンロード方法によりダウンロードしていただくとご使用いただけます。

※コンテンツの使用にあたり、M2Plus Launcherが必要です。

※eBook版は、書籍の体裁そのままで表示しますので、ディスプレイサイズが7インチ以上の端末でのご使用を推奨します。