実験医学別冊 Pythonで実践 生命科学データの機械学習~あなたのPCで最先端論文の解析レシピを体得できる!

  • ページ数 : 445頁
  • 書籍発行日 : 2023年4月
  • 電子版発売日 : 2023年4月10日
¥7,480(税込)
ポイント : 136 pt (2%)
今すぐ立ち読み
今すぐ立ち読み

商品情報

内容

顕微鏡画像やトランスクリプトームといった生命科学データを題材に機械学習を学べる実践書.ダウンロードしたコードをブラウザで実行できるので,wet研究者でも今日から始められます.

※本製品はPCでの閲覧も可能です。
製品のご購入後、「購入済ライセンス一覧」より、オンライン環境で閲覧可能なPDF版をご覧いただけます。詳細はこちらでご確認ください。
推奨ブラウザ: Firefox 最新版 / Google Chrome 最新版 / Safari 最新版

序文

はじめに


人工知能(AI)という言葉が人口に膾炙して久しい.アミノ酸配列から立体構造を極めて正確に予測できるAlphaFoldの登場は言うに及ばず,近年の生命科学系や医歯薬学系のトップジャーナルには毎号のようにコンピューター解析手法をメインにした報告が掲載されており,その多くは広義のAIが使われている.書店に行けばPythonの入門書や機械学習・深層学習の書籍が山積みになっているし,インターネットにはさまざまなチュートリアルがあるので,それらを勉強すればすぐにも自分で解析を始められそうな気がしてくる.しかしこういった既存の書籍やチュートリアルはいずれも生命科学とはほど遠い内容を題材としており,特に周りに詳しい人がいない読者にとっては自分自身で機械学習を生命科学研究に使うのは容易ではない.実際,羊土社から2020年に発行された実験医学増刊『機械学習を生命科学に使う!』では機械学習の活用事例がオムニバス的に解説されているが,読者からは実践的なコードが欲しいという多数の要望が出版社に寄せられたとのことだった.

そこで企画されたのが本書である.2021年に羊土社から発行された『独習 Pythonバイオ情報解析』等の入門書を読み終えたくらいの大学院生~比較的若手の先生方を対象に,実践的なPythonコード例を通して生命科学データを用いた機械学習を学んでいただける書籍として,画像解析はもちろん,ゲノミクスやシングル解析,創薬などライフサイエンスのさまざまな領域に機械学習をどのように使うのかを体得できることを目指している.今日からでも使えるクラウド計算環境Google Colaboratory上で体験しつつ深層学習に不可欠なGPUを用いた解析にも親しむことができるよう配慮した.既存の多くの機械学習入門と異なり,本書で扱うデータセットは,まさに読者が実際の研究で出会うものばかりであり,これらを学ぶ中で生命科学研究におけるPythonの高度な利用法に習熟しつつ,同時に新規課題に対する応用力を身につけられることは間違いない.

本書は基礎編・実践編・発展編,そして終章に大きく分けられる.まず基礎編においては第1章で機械学習とは何かを学ぶところから始まり,第2章でPythonを用いたバイオ情報解析を駆け足で復習した後,第3章~第5章にかけて,がんと正常のトランスクリプトームパターンを題材に機械学習と深層学習を実際に動かしながら基本となるコンセプトを学んでいく.

続く実践編では,各章読み切りで重要トピックスについて各領域の若手研究者の先生方に執筆いただいた.まず最もAIが活用されているといってもよい画像解析については第6章で医歯薬学系の2つの題材をもとに学び,単なる分類だけではなく画像セグメンテーションや説明可能なAIといった近年のトピックスもあわせて紹介する.第7章ではゲノムへのAIの応用例として腫瘍ネオ抗原を題材に見ていき,第8章ではシングルセル解析と生成モデルについて取り扱う.このようなゲノムやトランスクリプトームといった各階層の解析例を第7・8章で見た後,第9章ではエピゲノムも合わせた複数階層の情報を統合しながらがんに迫っていく.第10章では近年の翻訳AI等にも幅広く使われているTransformerという仕組みを使いながらタンパク質の「言語」を読み解き,AIによるタンパク工学の可能性を示す.実践編最後の第11章では4つのプロジェクトに取り組むことで創薬AIの基本かつ王道を学べるようになっている.

実践編の後ろに用意したのが発展編で,すでに情報解析の経験がある読者にも楽しんでいただけるよう,よりadvancedな内容を第一線でご活躍されている先生方に執筆いただいた.第12章では近年注目を集める中分子創薬についてAIから迫り,第13章では高度なメタゲノム解析・ゲノムマイニングを学んでいこう.これら2つの章は発展的な内容であるので,本格計算のためにはGoogle Colaboratoryを超える計算リソースが必要になる.このように実践編までの内容の「その先」の高みを見据える読者のために執筆したのが終章で,極めて高度な計算リソースを使う方法を含め,発展的なトピックス・リソースを余すところなく示し,本書を卒業したあとの羅針盤となるよう設計した.

このように本書1冊のみで生命科学における機械学習入門から発展的な内容までを実践的なPythonコードとともに俯瞰でき,本書で学ぶことで読者の研究はさらに大きく加速するだろう.本書の趣旨に賛同くださり,編者からの細かな注文にも快くご対応してくださったすべての執筆者の先生方のご指導の賜物である.また,本書を出版する機会をくださった羊土社の本多正徳氏と早河輝幸氏に心から感謝申し上げる.次世代シークエンサーやさまざまな網羅解析手法が発展するにつれて,今後ますます生命科学と情報科学の境界はなくなっていくだろう.ぜひ本書で学んだ後は後輩・新人教育の教材の1つとしても使っていただきたい.第2 ~ 5章および第8章の筆頭執筆者は編者がオンラインで主催している学生勉強会Biomedical DataScience Clubで学ぶ学部生の方々だが,特に若い世代の方にこそ機械学習を次世代のライフサイエンス研究の心強い相棒にしていただきたいと願っている.読者の生命科学研究のレパートリーに機械学習手法を加えていただき,またその知見を後輩に引き継いでいただくことで,本書が新たな知の創出に貢献できれば執筆者の1人として望外の喜びである.


2023年2月

東京医科歯科大学M&D データ科学センター
AI システム医科学分野
清水 秀幸

目次

はじめに【清水秀幸】

・コード・データのダウンロードについて

第1章 機械学習の概要とライフサイエンス研究への応用【清水秀幸】

1.1 AlphaFold2 の衝撃

1.2 機械学習速習

1.2.1 機械学習とは何か?

1.2.2 機械学習が行うこと

1.2.3 データの「学習」を紐解く

1.2.4 データを丸暗記してはいけない

1.2.5 機械学習の性能指標

1.2.6 教師なし学習

1.3 深層学習ことはじめ

1.3.1 ニューラルネットワークの基本構造

1.3.2 ニューラルネットワークの学習

1.3.3 さまざまなニューラルネットワーク

1.3.4 転移学習のパラダイム

1.4 生命医科学への機械学習の応用

1.4.1 ゲノム・トランスクリプトームへの応用

1.4.2 タンパク質・創薬への応用

1.4.3 バイオテクノロジーへの応用

1.5 おわりに

第2章 Google Colaboratory, Pandas,Matplotlib, NumPy の基礎【保住英希,清水秀幸】

2.1 本章で扱うデータ

2.2 Google Colaboratory の使い方

2.2.1 ノートブックの作成

2.2.2 ファイルのアップロード

2.2.3 Google Drive からの読み込み

2.2.4 GPU の使用

2.3 データを知る ―― Pandas の基礎1

2.3.1 データの読み込み

2.3.2 データの概要の把握

2.4 データを見る ―― Matplotlib の基礎

2.4.1 figure とsubplot の関係

2.4.2 微調整

2.4.3 実践課題1

2.4.4 補足:Seaborn

2.4.5 実践課題2

2.4.6 補足:pandas_profiling

2.5 データを整形する ―― Pandas の基礎2

2.5.1 データの前処理

2.5.2 データの操作

2.5.3 表の操作

2.6 解析の実行 ―― NumPy の基礎

2.6.1 NumPy による計算

2.7 おわりに

第3章 教師あり学習のためのデータ前処理【澤田高志,清水秀幸】

3.1 機械学習の概説

3.1.1 機械学習とは何か?

3.1.2 機械学習とそのライブラリ

3.1.3 機械学習のワークフロー

3.1.4 マイクロアレイデータの解析

3.2 データの前処理

3.2.1 GEOparse を用いたデータの読み込みと欠損値処理

3.2.2 遺伝子発現量データの可視化

3.2.3 遺伝子発現量データの重複の処理

3.2.4 重要な遺伝子発現量データの抽出と欠損値の処理

3.2.5 選ばれた13 種のmRNA の図示

3.3 おわりに

第4章 scikit-learn を用いたトランスクリプトームデータの分類【澤田高志,清水秀幸】

4.1 機械学習: サポートベクトルマシンの実行

4.1.1 訓練データセットとテストデータセット

4.1.2 サポートベクトルマシンの導入

4.1.3 カーネルトリックによるサポートベクトルマシンの拡張

4.1.4 グリッドサーチによるハイパーパラメータの最適化

4.1.5 検証データセットの導入

4.1.6 ベイズ最適化によるハイパーパラメータの調整

4.2 おわりに

第5章 PyTorch を用いたトランスクリプトームデータの分類【澤田高志,清水秀幸】

5.1 機械学習:ニューラルネットワークの基礎

5.1.1 基本的なテンソル計算

5.1.2 深層学習の基本知識

5.1.3 PyTorch でニューラルネットワークを構築する

5.1.4 PyTorch のハイパーパラメータを最適化する

5.2 おわりに

第6章 実践編①:生命科学・医歯学分野の画像を用いた機械学習【安齋達彦,髙橋邦彦】

6.1 はじめに

6.2 畳み込みニューラルネットワークを用いた画像判別

6.2.1 プログラムを動作させるための準備と実行手順

6.2.2 画像の読み込み:画像処理の基本

6.2.3 畳み込みニューラルネットワークモデルの構築

6.2.4 学習の実施とその評価

6.2.5 テストデータに対する予測・判別性能の評価

6.2.6 その他のチューニングについて

6.3 Grad CAM による画像分類の判断根拠

6.4 転移学習による判別モデルの構築

6.5 画像セグメンテーションモデルの構築

6.6 おわりに

第7章 実践編②:腫瘍特異的ネオ抗原の機械学習を用いた予測【長谷川嵩矩】

7.1 はじめに

7.1.1 ゲノム解析とがん免疫療法

7.1.2 ライブラリのインストール

7.1.3 解析の対象とする変異ペプチド候補の作成

7.2 Python を用いたネオ抗原予測

7.3 おわりに

第8章 実践編③:シングルセル解析とVAE【水越周良,小嶋泰弘,島村徹平】

8.1 背景と準備

8.1.1 シングルセル解析における課題

8.1.2 VAE とシングルセル解析

8.1.3 VAE のシングルセル解析への応用例

8.1.4 ライブラリとデータセットの用意

8.2 エンコーダとデコーダの構造

8.3 VAE の学習方法

8.3.1 VAE の理論

8.3.2 デコーダの尤度関数

8.3.3 VAE クラスの実装

8.4 その他の部分の実装

8.4.1 early stopping の実装

8.4.2 データの振り分け

8.4.3 学習の実行箇所の実装

8.5 学習の実行とモデルの評価

8.6 おわりに

第9章 実践編④:エピジェネティクスを含む多階層の統合によるがん研究【浅田 健,浜本隆二】

9.1 はじめに

9.2 オートエンコーダを利用したマルチオミクス解析

9.3 オートエンコーダのためのPyTorch コード解説

9.4 コード全体を.py ファイルとして書き出す

9.5 書き出した.py ファイルの実行

9.6 オプションの使用例

9.7 追記:Anaconda 仮想環境

9.8 おわりに

第10章 実践編⑤:タンパク質の「言語」の法則を解き明かす 〜アミノ酸配列からのタンパク質局在の予測【清水秀幸】

10.1 生命科学研究に応用されつつある自然言語処理AI

10.2 アミノ酸配列のみからタンパク質の局在を予測する:事前学習済みモデルの利用

10.2.1 必要になるライブラリの準備

10.2.2 タンパク質局在データのダウンロードと探索

10.2.3 事前学習済みタンパク質言語モデルのダウンロード

10.2.4 アミノ酸配列の事前学習済みモデルによる数値化

10.3 アミノ酸配列のみからタンパク質の局在を予測する:タンパク質局在データによるfine-tuning

10.3.1 ニューラルネットワークの設定

10.3.2 タンパク質局在の学習

10.3.3 学習済みモデルのテストデータに対する性能評価

10.4 おわりに

第11章 実践編⑥:AI 創薬へのはじめの一歩【清水秀幸】

11.1 従来の創薬が抱える2 つの難題と機械学習への期待

11.2 環境の準備

11.2.1 RDKit のインストール

11.3 プロジェクト1:csv ファイルを読み込み,水への溶解度を予測する線形モデルを作る

11.3.1 RDKit の使い方とSMILES 表記

11.3.2 SMILES からの分子記述子の抽出

11.3.3 初めてのQSPR 解析

11.4 プロジェクト2:アンサンブル学習による水溶解度予測

11.4.1 データのダウンロード

11.4.2 アンサンブル学習による溶解度予測

11.5 プロジェクト3:グラフ畳み込みニューラルネットワークによる水溶解性予測

11.5.1 グラフとは何か?

11.5.2 ライブラリのインストールとデータの確認

11.5.3 深層学習モデルの構築

11.5.4 グラフ畳み込みニューラルネットワークの学習

11.6 プロジェクト4:コロナウイルス治療薬探索

11.6.1 コロナウイルスに関するデータの収集

11.6.2 特徴量の抽出

11.6.3 部分的最小二乗回帰モデルの作成

11.7 おわりに

第12章 発展編①:機械学習を用いたアプタマー配列の解析と創薬【岩野夏樹,浜田道昭】

12.1 はじめに

12.1.1 アプタマー創薬

12.1.2 アプタマー創薬と機械学習

12.1.3 本章で取り扱う内容

12.2 RaptGen を用いた配列解析

12.2.1 配列解析の準備

12.2.2 モデルの学習

12.2.3 学習結果の描画

12.2.4 本配列生成モデルの応用

12.3 おわりに

第13章  発展編②:機械学習によるマイクロバイオームと機能未知遺伝子の解析 〜メタゲノム・対偶遺伝学・近傍遺伝子解析【西村祐貴,綿野桂人,岩崎 渉】

13.1 準備

13.2 はじめに

13.3 ヒト腸内のメタゲノム解析

13.3.1 アセンブリ

13.3.2 ビニング

13.3.3 系統プレイスメント

13.4 機能未知遺伝子の機能解析と対偶遺伝学的解析・近傍遺伝子解析

13.4.1 系統解析

13.4.2 オルソログクラスタリング

13.4.3 機能アノテーション

13.4.4 機能未知遺伝子解析

13.5 おわりに

第14章 終章:さらなる学習のためのリソース【清水秀幸】

14.1 注目されつつあるノーコード・ローコードAI

14.2 本書で扱えなかった重要トピックス

14.2.1 強化学習

14.2.2 教師あり学習,教師なし学習の境界の曖昧化

14.2.3 グラフ・ネットワークへの応用

14.2.4 生成モデル

14.2.5 説明可能なAI

14.2.6 蒸留

14.2.7 連合学習と群学習

14.3 より優れた計算リソースを求めて

14.4 生命医科学領域のデータサイエンス・機械学習をさらに勉強するために

14.4.1 Python を習得する

14.4.2 機械学習を理解する

14.4.3 機械学習を実践する

14.4.4 機械学習のメディア・学会をチェックする

14.4.5 生命医科学への応用を実例を通じて学ぶ

14.5 おわりに

・索引

・執筆者一覧

便利機能

  • 対応
  • 一部対応
  • 未対応
便利機能アイコン説明
  • 全文・
    串刺検索
  • 目次・
    索引リンク
  • PCブラウザ閲覧
  • メモ・付箋
  • PubMed
    リンク
  • 動画再生
  • 音声再生
  • 今日の治療薬リンク
  • イヤーノートリンク
  • 南山堂医学
    大辞典
    リンク
  • 対応
  • 一部対応
  • 未対応

対応機種

  • ios icon

    iOS 10.0 以降

    外部メモリ:11.8MB以上(インストール時:31.2MB以上)

    ダウンロード時に必要なメモリ:47.3MB以上

  • android icon

    AndroidOS 5.0 以降

    外部メモリ:11.8MB以上(インストール時:31.2MB以上)

    ダウンロード時に必要なメモリ:47.3MB以上

  • コンテンツのインストールにあたり、無線LANへの接続環境が必要です(3G回線によるインストールも可能ですが、データ量の多い通信のため、通信料が高額となりますので、無線LANを推奨しております)。
  • コンテンツの使用にあたり、M2Plus Launcherが必要です。 導入方法の詳細はこちら
  • Appleロゴは、Apple Inc.の商標です。
  • Androidロゴは Google LLC の商標です。

書籍情報

  • ISBN:9784758122634
  • ページ数:445頁
  • 書籍発行日:2023年4月
  • 電子版発売日:2023年4月10日
  • 判:B5変型
  • 種別:eBook版 → 詳細はこちら
  • 同時利用可能端末数:3

まだ投稿されていません

特記事項

※ご入金確認後、メールにてご案内するダウンロード方法によりダウンロードしていただくとご使用いただけます。

※コンテンツの使用にあたり、m3.com 電子書籍が必要です。

※eBook版は、書籍の体裁そのままで表示しますので、ディスプレイサイズが7インチ以上の端末でのご使用を推奨します。