AMED研究開発課題データベース 日本医療研究開発機構(AMED)の助成により行われた研究開発の課題や研究者を収録したデータベースです。

> 課題検索詳細

研究課題情報

研究課題名
頑健なデータ駆動形エピゲノム解析を実現する情報解析システムの構築
課題管理番号
23gm6310012h0004
統合プロジェクト
シーズ開発・研究基盤プロジェクト
事業名
革新的先端研究開発支援事業
タグ(2022)
/研究の性格/研究基盤及び創薬基盤の整備研究<創薬技術・ICT基盤・プラットフォーム関係含む>
/開発フェーズ/該当なし
/承認上の分類/薬機法分類非該当
/対象疾患/該当なし<対象とする疾患なし>
タグ(2021)
/研究の性格/研究基盤及び創薬基盤の整備研究<創薬技術・ICT基盤・プラットフォーム関係含む>
/開発フェーズ/基礎的
/承認上の分類/体外診断薬
/対象疾患/該当なし<対象とする疾患なし>
タグ(2020)
/研究の性格/研究基盤及び創薬基盤の整備研究<創薬技術・ICT基盤・プラットフォーム関係含む>
/開発フェーズ/基礎的
/承認上の分類/体外診断薬
/対象疾患/該当なし<対象とする疾患なし>
代表研究機関
国立大学法人東京大学
研究代表者
(2023) 中戸隆一郎 , 国立大学法人東京大学 , 定量生命科学研究所 准教授
(2022) 中戸隆一郎 , 国立大学法人東京大学 , 定量生命科学研究所 准教授
(2021) 中戸隆一郎 , 国立大学法人東京大学 , 定量生命科学研究所 講師
(2020) 中戸隆一郎 , 国立大学法人東京大学 , 定量生命科学研究所 講師
研究期間
2020年度-2023年度
課題への総配分額

(単位:千円)

  • 57,262
  • 2023年度
    12,884
  • 2022年度
    18,898
  • 2021年度
    19,760
  • 2020年度
    5,720
研究概要(2023)
これまでに作成したパイプライン群(Churros: エピゲノム解析、RumBall: トランスクリプトーム解析、CustardPy: 立体構造解析、 ShortCake: シングルセル解析)を統合し、本研究で目標とするデータ統合解析パイプライン "Patisserie" を構築する。構築したシステムはDockerを用いて領域内外に公開する。構築したシステムを用いた領域内共同研究により、早期ライフステージに関する新規知見を獲得する。また我々独自の研究として、近年充実しつつあるシングルセルアトラスデータを活用した統合的情報解析による知見獲得を目指す。新規解析手法として開発している「深層学習を用いたクロマチン状態データ統合解析手法」を完成させ、論文化する。機械学習によるデータ補完技術を用いたエピゲノムデータ再構築手法について、得られた疑似データの信頼性評価の枠組みの確立を目指す。IHEC Integrative analysisワーキンググループに引き続き参加し、IHECデータパッケージ論文に貢献するための努力を続ける。
研究概要(2022)
複数サンプル・複数アッセイを同時入力とする全ゲノムアノテーション手法について、Docker、NextFlowを用いたエピゲノム解析パイプラインを実装し、領域内外に公開する。本課題のために作成したWebページ上に利用法や利用実績などの情報を公開し、共同研究の創発につなげる。新規解析手法として、複数のHi-Cデータを入力としたゲノムクラスタリング手法、深層学習を用いたクロマチン状態データ統合解析手法に本年度の目標を定め、手法の確立と論文化を目指す。システムの対象範囲をシングルセル解析にも拡張し、バルクデータとシングルセルデータの統合解析を可能とするシステムを目指す。機械学習によるデータ補完技術を用いたエピゲノムデータ再構築手法について、精度向上のためのアプローチ、及び得られた疑似データの信頼性評価の枠組みの確立を目指す。IHEC Integrative analysisワーキンググループに参加し、IHECデータパッケージ論文に貢献するため努力を続ける。領域内共同研究、及び早期ライフに関連する公開データを用いた統合解析を推進し、早期ライフステージのための知見獲得に貢献する。
研究概要(2021)
複数サンプル・複数アッセイを同時入力とする全ゲノムアノテーション手法について、Docker及びNextFlowを用いて、ヒト血管内皮エピゲノムプロジェクトで構築したエピゲノム解析手法を自動化したパイプラインを構築・公開する。これにより、利用者は統合解析の各ステップを構成する個々のプログラムの使用法について習熟することなくパイプライン全体を利用することが可能となり、統合解析のハードルを大きく下げ、他グループの円滑な大規模エピゲノム解析の推進に貢献できる。今後はこのパイプラインをベースに新規手法を追加するかたちでパイプラインを改良する。機械学習によるデータ補完技術を用いたエピゲノムデータ再構築手法の開発について、特任研究員を一名雇用のうえ、ChromImputeの精査を開始する。ここでも既に構築したヒト血管内皮エピゲノムデータベース、ROADMAP project及びEpimapで提供されている数百細胞種でのヒストン修飾ChIP-seqデータを用い、実データと疑似的に生成されたデータの比較を行いながら、ヒストン修飾ごとの品質について調査をすすめる。
研究概要(2020)
「複数サンプル・複数アッセイを同時入力とする全ゲノムアノテーション手法の開発」について、ヒト血管内皮エピゲノムプロジェクトのために既に構築したエピゲノム解析の枠組みを拡張するかたちで開発を開始する。初年度はまず、複数のHi-Cデータを入力としたゲノムクラスタリング手法について、手法の確立と論文化を目指す。また、連鎖不均衡ブロックを考慮したSNP-エピゲノム比較解析法についても調査をすすめる。「機械学習によるデータ補完技術を用いたエピゲノムデータ再構築手法の開発」について、特任研究員を一名雇用のうえ、ChromImputeの精査を開始する。ここでも既に構築したヒト血管内皮エピゲノムデータベース、及びROADMAP projectで生成された種々の細胞種でのヒストン修飾ChIP-seqデータを用い、実データと疑似的に生成されたデータの比較を行いながら、ヒストン修飾ごとの品質について調査をすすめる。

研究成果情報

【成果報告書】

成果の概要
エピゲノム解析、遺伝子発現量解析、ゲノム立体構造解析、シングルセル解析それぞれについて、必要な解析ステップをすべて包含するパイプラインを構築した。本パイプラインはDockerを用いることで、各種ツールをインストール済の解析環境を任意のOSについて提供することができ、ユーザ自身によってカスタマイズすることも可能である。これにより、多数のツールをインストール・管理する必要があるNGS解析の環境構築コストを大幅に低減した。これらのパイプラインについて、現在論文準備中である。
今年度から対象に含めたシングルセル解析について、上述したDockerパイプライン "ShortCake"を用いてベストプラクティスとなるワークフローを検討した。たとえばシングルセルデータにおける細胞種の自動アノテーションについては教師データとなるデータベースが細胞種・生物種ごとに必要となるが、今回COVID-19患者由来PBMCデータセットについていくつかの既存データセットを比較検討し、良好な細胞種アノテーション結果を得るに至った。この結果について、第11回生命医薬情報学連合大会にて口頭発表した。
複数のHi-Cサンプルを同時入力とした解析についても上述のパイプライン "CustardPy"として実装した。ゲノム立体構造に必要な因子群をノックダウンした多数のHi-Cサンプル比較解析の結果、ヒトゲノムにおける立体構造制御は単一ではなく、領域のエピゲノム的特徴に依存して複数の制御パターンが存在し、それぞれ異なる因子群によって制御されているらしいことが明らかになった。本成果について、第45回日本分子生物学会年会にて口頭発表した。
IHEC Integrative analysisグループとして、毎月のオンラインミーティングに参加している。IHECデータベースを活用した、複数種のヒストン修飾を入力として得られる「クロマチン状態」を多数の細胞種で比較するエピゲノム解析について、第11回生命医薬情報学連合大会にて口頭発表した。
機械学習によるエピゲノムデータ補完技術について、ChromImpute・Avocadoを用いた検証実験を進めている。Avocadoは計算量が極めて大きいことが研究の律速となっていたが、今年度更に強力なGPUサーバを導入したことにより、研究を加速化することに成功した。
学会誌・雑誌等における論文一覧
  • ◀◀
  • 1
  • ▶▶

1.Wang J, Nakato R. CohesinDB: a comprehensive database for decoding cohesin-related epigenomes, 3D genomes and transcriptomes in human cells. Nucleic Acids Research. 2022, 51, D1, D70-D79, doi:10.1093/nar/gkac795

2.Jeppsson K, Sakata T, Nakato R, Milanova S, Shirahige K, Bjökegren C. Cohesin-dependent chromosome loop extrusion is limited by transcription and stalled replication forks. Science Advances. 2022, 8, 23, doi:10.1126/sciadv.abn7063

3.Wang J, Bando M, Shirahige K, Nakato R. Large-scale multi-omics analysis suggests specific roles for intragenic cohesin in transcriptional regulation. Nature Communications. 2022, 13, 1, doi:10.1038/s41467-022-30792-9

学会・シンポジウム等における口頭・ポスター
  • ◀◀
  • 1
  • ▶▶

1.Context-dependent regulation of gene expression and 3D genome structure by cohesin, 中戸隆一郎, 第45回日本分子生物学会年会(MBSJ2022), 2022/12/1, 国内, 口頭.

国内 / 口頭

2.肝線維症からの回復時系列シングルセルデータを用いた細胞間相互作用解析, 西條栄子, 中戸隆一郎, 第45回日本分子生物学会年会(MBSJ2022), 2022/11/30, 国内, 口頭.

国内 / 口頭

3.IHEC project: collection and characterization of human epigenome data, Seohyun Lee, 中戸隆一郎, 第11回生命医薬情報学連合大会 (IIBMP2022), 2022/9/14, 国内, 口頭.

国内 / 口頭

4.Multi-omics data-driven analysis of cohesin in human cells, 王健康, 中戸隆一郎, 第11回生命医薬情報学連合大会 (IIBMP2022), 2022/9/13, 国内, 口頭.

国内 / 口頭

5.Central genes in Cornelia de Lange Syndrome mouse cell lines using single-cell gene networks, Nagai Luis Augusto Eijy, 西條 栄子, 中戸隆一郎, 第45回日本分子生物学会年会(MBSJ2022), 2022/12/1, 国内, ポスター.

国内 / ポスター

6.遺伝子調節機構解明のための細胞種特異性を考慮した発現変動遺伝子の特徴量抽出, 大庭ジーナ未来、中戸隆一郎, 第45回日本分子生物学会年会(MBSJ2022), 2022/11/30, 国内, ポスター.

国内 / ポスター

7.A computational method to extract central genes in Cornelia de Lange Syndrome-like cell line obtained from single-cell co-dependency networks, Nagai Luis Augusto Eijy, 西條 栄子, 中戸隆一郎, 第11回生命医薬情報学連合大会(IIBMP2022), 2022/09/13, 国内, ポスター.

国内 / ポスター



更新日:2024-03-25

TOPへ