糖鎖データベースからの目的単糖を含む多糖の検索と可視化

はじめに

 digzymeにてインターン勤務させていただいております、東京大学修士2年の高栁龍です。大学では、タンパク質のリン酸化やタンパク質立体構造に関連した研究などを行っています。今回のtechblogでは、研究開発業務の一環として新たに開発しました、目的単糖を含む多糖の網羅的検索と可視化ツールであるGlycoSearcherを紹介いたします。

 近年、デンプンや食物繊維で代表されるように、糖鎖など多糖の研究と産業利用が活発となってきています。新規の糖質を開発する需要が上がってきており、その中で多糖は構造の多様性が非常に高いものとして注目されています。そこで、様々な多糖を網羅的に検索するためのツールとして、新たにGlycoSearcherを開発いたしました。

多糖の記述方式とデータベース

 今回対象としている糖化合物は、既に数十万を超える数が報告されており、データベース化されています。こうした多くの糖化合物の中から目的に沿った多糖を厳選し、合成経路の探索や酵素開発などの応用につなげるには、計算処理しやすい記述方式と網羅性の高いデータベースが必要となります。

 糖化合物の構造を記述する方式には様々なものが知られています(図1)。SNFGやKCFといった形式は可視化にすぐれていますが、構造情報の抽出や比較など応用的な計算処理には不向きです。一方、IUPACは、人と機械の両方が読み取り可能で簡潔な構造表現ですが、繰り返しなど複雑で曖昧な表現に対応するのは難しいです[1]。そこで、GlycoSearcherでは、計算処理に適し、繰り返し表現可能なWURCS形式、およびWURCS形式での糖化合物情報を収集したGlyTouCanデータベース[2]を採用しました。

(図1)

GlycoSearcherを用いた検索

 ここにGlycoSearcherでは、膨大な量の候補から目的に沿った多糖を抽出することが可能です。例えば、グルコースやガラクトースなど、特定の単糖単位を含む多糖を検索することができます。さらに、多糖を構成する単糖単位を一部のものに限定する、フィルタリング機能も兼ね備えています。これにより、ある特定の単糖を原料とし、その他特定の糖のみを用いて合成可能な多糖を列挙することができます。

 以下に、α-グルコースを例に実行した結果を紹介します(図2)。219,857個ある糖鎖の中から、α-グルコースを含む多糖を検索したところ、9,862個が検出されました。さらに、構成単糖をグルコース・ガラクトース・フルクトースのみに絞ったところ、924個まで候補が減少しました。

(図2)

多糖構造の可視化と特徴抽出

 得られた検索結果は、効果的に可視化され、続く応用処理へと活かすことができます(図3)。WURCS形式の多糖をグラフとして再構成することで、数千個の検索結果を数分のうちに描きだすなど、高速な可視化が可能です。また、曖昧な繰り返し回数を持つ構造についても、特定の回数だけ繰り返しを展開することで、実質的な構造を可視化するのみならず、曖昧なままでは難しい構造間の比較など、更なる計算処理へとスムーズに移行させることができます。

 検索結果の多糖がグラフ化されていることから、多糖構造に対する特徴抽出も可能です。例えば、得られた多糖構造の末端にグルコース単位が存在しているか、あるいは特定の構造(モチーフ)を含むか、といった計算を行うことができます。さらに、検索によってヒットした多糖について、PubChem[3]などの各種データベースと統合させることで、その一般名や関連する酵素情報と統合させることができ、多糖を含む反応についての情報を得ることが可能です。

(図3)

終わりに

 今回開発したGlycoSearcherでは、目的の多糖をデータベースから網羅的に検索し、更なる計算処理へと応用させることができました。さらに、得られた目的多糖候補から情報を抽出しその合成に関与すると予測される酵素情報を取得することで、その後の酵素デザインのワークフローにつなげる体制を整えられました。

謝辞

 糖化合物に関する知識の習得を始めとしたGlycoSearcherの開発には、事業開発部の礒崎さんに大変お世話になりました。この場を借りて感謝申し上げます。

参考文献

[1] 細田 正恵, 木下 聖子.「糖鎖関連インフォマティクスへの入り口」 JSBi Bioinformatics Review, 2(1), 87-95 (2021).
[2] https://glytoucan.org/
[3] https://pubchem.ncbi.nlm.nih.gov/

構造予測とMDシミュレーションを用いた酵素活性予測の実用例

はじめに

事業開発部の礒崎です。弊社では有用酵素探索の1つとして、分子動力学シミュレーションを用いた酵素活性予測を行っています。構造未知の酵素配列からその構造を予測し、標的化合物との複合体分子動力学シミュレーションへ供します。その結果から、digzyme独自のスコアを算出し酵素活性を予測します。本ブログでは、その具体例としてthiolaseの1つoleAという酵素の類似配列から実際に活性をもつものを予測した結果をご紹介します。

酵素活性予測に使った材料

oleAの本来の基質はacyl-CoAです。このアシル基をoleAのCys143が脱離させます。この活性を調べる上で、p-nitrophenolateを用いた実験系が使われます(図1)。

図1. oleAが触媒する反応。Robinson et al., より抜粋。

結果

oleA類似配列59配列を対象にp-nitrophenolateの1種4-nitrophenyl-hexanoateを加水分解するか予測しました。

1.類似配列59配列の3次元構造予測

まずは類似配列59配列すべての構造が未知であるため、その3次元構造を予測し、予測した構造から活性残基の位置と基質が入るポケットの位置を予測しました。図2は類似配列の配列情報から予測した3次元構造および活性残基Cysの位置を示しています。図3が基質が結合するポケットの位置を予測した結果です。

TechBlog1-2
図2. 配列情報から予測した3次元構造および活性残基。円で囲まれたCysが予測活性残基。
TechBlog1-3
図3. ポケットの予測。ポケットは赤い点の空間。対応する酵素表面は紫の範囲。

2. 分子動力学シミュレーション

続いて、水分子とイオンの中に酵素と基質である4-nitrophenyl-hexanoateの複合体を配置して分子動力学シミュレーションを実行します(図4)。

TechBlog1-4
図4. 分子動力学シミュレーションのために酵素と基質の複合体を水分子とイオンの中に配置。

3. digzyme独自酵素活性予測スコア算出

最後に分子動力学シミュレーションの結果から算出したdigzyme独自のスコアを計算します。図5にスコアが高い順に全59配列の予測スコアを記載しました。実証実験で活性があった配列をピンク色、活性がなかったものを灰色で表示しています。スコア70以上の配列を活性ありと判断しています(図5の赤線より上)。今回は9配列を活性ありと予測し、そのうち3配列が実際に活性を持っており、陽性適中率(PPV) = 0.30でした。また、真陽性率 (TPR) =0.6、偽陰性率 (FPR) =0.13という結果でした。このことから、不活性なものをランキング下位に分類できており、上位の配列に実際に活性のある配列を含んでいることが確認できました。

図5. 酵素活性スコアによる類似配列59配列のランキング。赤線より上(スコア70以上)の9配列を活性ありと予測。棒グラフがピンク色の5配列は実験で活性ありと確認された配列。

終わりに

本ブログでは、酵素活性予測技術を用いて、実験で活性が確認された酵素の活性予測を実演しました。通常実証実験を行う場合5~10配列を合成します。今回は上位5配列の中に実験で活性があった2配列が含まれており、弊社の酵素活性予測の精度が実用に適うものであると示されました。特に母集団の酵素配列のうち活性のあるものがわずかしか含まれていないようなケースを想定してデータを選びました(今回は59配列中5配列)。偽陰性率低く抑えられているため、正しく酵素活性が予測できています。

謝辞

今回の酵素活性予測の材料として以下の論文から実証実験データを利用させていただきました。

Robinson et al., (2020) Machine learning-based prediction of activity and substrate specificity for OleA enzymes in the thiolase superfamily. Synthetic Biology.

Page top