糖鎖データベースからの目的単糖を含む多糖の検索と可視化

はじめに

 digzymeにてインターン勤務させていただいております、東京大学修士2年の高栁龍です。大学では、タンパク質のリン酸化やタンパク質立体構造に関連した研究などを行っています。今回のtechblogでは、研究開発業務の一環として新たに開発しました、目的単糖を含む多糖の網羅的検索と可視化ツールであるGlycoSearcherを紹介いたします。

 近年、デンプンや食物繊維で代表されるように、糖鎖など多糖の研究と産業利用が活発となってきています。新規の糖質を開発する需要が上がってきており、その中で多糖は構造の多様性が非常に高いものとして注目されています。そこで、様々な多糖を網羅的に検索するためのツールとして、新たにGlycoSearcherを開発いたしました。

多糖の記述方式とデータベース

 今回対象としている糖化合物は、既に数十万を超える数が報告されており、データベース化されています。こうした多くの糖化合物の中から目的に沿った多糖を厳選し、合成経路の探索や酵素開発などの応用につなげるには、計算処理しやすい記述方式と網羅性の高いデータベースが必要となります。

 糖化合物の構造を記述する方式には様々なものが知られています(図1)。SNFGやKCFといった形式は可視化にすぐれていますが、構造情報の抽出や比較など応用的な計算処理には不向きです。一方、IUPACは、人と機械の両方が読み取り可能で簡潔な構造表現ですが、繰り返しなど複雑で曖昧な表現に対応するのは難しいです[1]。そこで、GlycoSearcherでは、計算処理に適し、繰り返し表現可能なWURCS形式、およびWURCS形式での糖化合物情報を収集したGlyTouCanデータベース[2]を採用しました。

(図1)

GlycoSearcherを用いた検索

 ここにGlycoSearcherでは、膨大な量の候補から目的に沿った多糖を抽出することが可能です。例えば、グルコースやガラクトースなど、特定の単糖単位を含む多糖を検索することができます。さらに、多糖を構成する単糖単位を一部のものに限定する、フィルタリング機能も兼ね備えています。これにより、ある特定の単糖を原料とし、その他特定の糖のみを用いて合成可能な多糖を列挙することができます。

 以下に、α-グルコースを例に実行した結果を紹介します(図2)。219,857個ある糖鎖の中から、α-グルコースを含む多糖を検索したところ、9,862個が検出されました。さらに、構成単糖をグルコース・ガラクトース・フルクトースのみに絞ったところ、924個まで候補が減少しました。

(図2)

多糖構造の可視化と特徴抽出

 得られた検索結果は、効果的に可視化され、続く応用処理へと活かすことができます(図3)。WURCS形式の多糖をグラフとして再構成することで、数千個の検索結果を数分のうちに描きだすなど、高速な可視化が可能です。また、曖昧な繰り返し回数を持つ構造についても、特定の回数だけ繰り返しを展開することで、実質的な構造を可視化するのみならず、曖昧なままでは難しい構造間の比較など、更なる計算処理へとスムーズに移行させることができます。

 検索結果の多糖がグラフ化されていることから、多糖構造に対する特徴抽出も可能です。例えば、得られた多糖構造の末端にグルコース単位が存在しているか、あるいは特定の構造(モチーフ)を含むか、といった計算を行うことができます。さらに、検索によってヒットした多糖について、PubChem[3]などの各種データベースと統合させることで、その一般名や関連する酵素情報と統合させることができ、多糖を含む反応についての情報を得ることが可能です。

(図3)

終わりに

 今回開発したGlycoSearcherでは、目的の多糖をデータベースから網羅的に検索し、更なる計算処理へと応用させることができました。さらに、得られた目的多糖候補から情報を抽出しその合成に関与すると予測される酵素情報を取得することで、その後の酵素デザインのワークフローにつなげる体制を整えられました。

謝辞

 糖化合物に関する知識の習得を始めとしたGlycoSearcherの開発には、事業開発部の礒崎さんに大変お世話になりました。この場を借りて感謝申し上げます。

参考文献

[1] 細田 正恵, 木下 聖子.「糖鎖関連インフォマティクスへの入り口」 JSBi Bioinformatics Review, 2(1), 87-95 (2021).
[2] https://glytoucan.org/
[3] https://pubchem.ncbi.nlm.nih.gov/

ifia JAPAN 2024会場で頂戴したご質問への回答まとめ

食品事業部の村瀬です。

弊社は、2024.5.22(水)~24(金)、東京ビッグサイトにて開催された
「ifia JAPAN 2024 第29回 国際食品素材/添加物展・会議」
(食品化学新聞社主催)に出展いたしました。
展示ブースにお越しいただいた皆様、誠にありがとうございました。

この記事では、展示期間中、皆様から頂戴したご質問の中から
特に多くいただいた内容をご紹介し、回答いたします。
ぜひ最後までご覧ください。


Q:何ができる会社ですか?

A:お客様のご要望に応じて、新規酵素探索、酵素改変を行います。
従来の手法とは異なる、独自のバイオインフォマティクス技術を用いた
スピーディーな酵素開発によって、酵素メーカー、食品メーカー両者にとっての
イノベーションアクセラレーターになることができると考えています。

Q:具体事例はありますか?

A:ケミカル用途では、ユーザーが必要とする新規酵素の探索や、
酵素の大幅な活性向上に成功した事例がございます。
食品用途では、現在複数のお客様より具体的なテーマをいただき
実際にお取り組みさせていただいている状況です。

Q:digzyme Spotlight(酵素改変型プログラム)では、酵素の何の性質が改変できる?

A:活性向上、耐熱性向上、至適pHの改変などが考えられます。
基質特異性の改変は状況に応じて、digzyme Moonlight(酵素探索型プログラム)を使用します。

Q:どのような流れで開発を進める?

A:お客様の状況に応じて、スタートとゴールを設定させていただきますが
主な流れは以下となります。

1.開発コンサルティング:お客様の課題をヒアリングし、ターゲットとする酵素を選定します。

2.酵素デザイン:スーパーコンピューターを用いて、ターゲットとなる酵素のデザインをします。

3.酵素ライブラリ提供:コンピューター上でデザインした酵素を
実際に微生物を用いてラボスケールで製造し、目的に沿った酵素かを検証・確認します。

4.酵素の生産提供:製造スケールをラボからプラントへスケールアップし、
製品として酵素を安定供給できる体制を整備します。


当記事でのQ &Aは以上です。
それでは、最後までご覧いただきありがとうございました。
その他のご質問などございましたら、下記のコンタクトフォームよりお問い合わせくださいませ。

【▼コンタクトフォーム】
https://www.digzyme.com/contact/

Spotlightによる酵素変異体の活性予測精度を先行研究と比較

TechBlog4-0

はじめに

事業開発部の礒崎です。弊社では酵素の活性や耐熱性などのプロパティを向上させる変異体機械学習モデルを用いて提案するSpotlightというサービスを提供しています。様々な酵素を使って学習済みのモデルに、社内または社外から依頼を受けた目的の配列をインプットすることで活性などが向上する変異体を予測します。今回のtechblogではこのSpotlightの変異体の活性予測精度が先行研究と比較してどの程度なのか検証しました。

比較対象に使用した先行研究

Li et al., 2022では、酵素のアミノ酸配列と化合物を入力情報としてkcatを予測する機械学習モデルを構築していました。今回の比較ではこの機械学習モデルアルゴリズム(DLKcat)を用い、かつ、比較を平等にするためにSpotlightと同じ教師データであるBRENDAのkcat エントリーを使ってモデルを再構築しました。この再構築したDLKcatにより予測した変異体のkcatの値とSpotlightで予測したkcatの値のいずれが実測値とより近いか比較しました。今回使用したBRENDAのエントリーにはwild type (WT) と単変異体のみが含まれるように抽出し、変異1つに対する感度が2つのモデルでどれくらい違うかに注目して比較しました。

結果

1. BRENDAのkcat (=Turnover Number)のデータを用いた学習モデルの構築

BRENDAのkcatが記載されている変異体、そのWTの配列のエントリーおよびkcatを測定した化合物の情報を抽出し、これらを酵素ファミリーに偏りが生じないように、かつ、およそ教師データ:テストデータ= 3 : 1になるように分割しました。分割後の教師データではkcatが向上しているエントリーが3969、変化しないエントリーが2985、減少しているエントリーが8296でした(図1)。分割後のテストデータではkcatが向上しているエントリーが792、変化しないエントリーが748、減少しているエントリーが1926でした(図2)。

TechBlog4-1
図1. 今回使用したBRENDAのkcatエントリーのうち教師データに用いたエントリーの単変異体/WTのkcatの比率の対数のヒストグラム。
TechBlog4-2
図2. 今回使用したBRENDAのkcatエントリーのうちテストデータに用いたエントリーの単変異体/WTのkcatの比率の対数のヒストグラム。

2. DLKcat・Spotlightで予測したkcatの変異体/WT比率の評価

抽出したBRENDAのエントリーの情報をDLKcatが要求する特徴量の形に変換し、教師データの中のkcatの実験値と合わせて学習モデルを構築しました。Spotlightでも同様にこれらのエントリーをSpotlightが要求する特徴量の形に変換して、kcatの実験値と合わせて学習モデルを構築しました(図3)。

DLKcatで予測した変異体のkcatとWTのkcatの比率は実測値と予測値の間でピアソン相関係数が0.18でした(図3)。DLKcatにおいて予測した変異体とWTのkcatの比率が実測値と良く相関しなかった理由は、DLKcatでは特徴量として配列の全長をベクトルに変換しているため1アミノ酸の違いが特徴量に現れづらくなっているからであると考えています。Spotlightで予測した変異体のkcatとWTのkcatの比率は実測値と予測値の間でピアソン相関係数が0.66でした(図3)。弊社のSpotlightでは特徴量に変異体としての性質を大きく反映できる工夫をしてあるため、単変異体のエントリーであってもWTからの1変異による変化を正確に予測することができています。

図3. 学習モデルを構築・変異体のkcatを予測するためのフロー。

終わりに

弊社のSpotlight™では先行研究と比べて、単変異体というWTから1アミノ酸しか違わないようなケースでも、その変化を正確に反映してより実験値に近い値を予測可能であるということが明らかになりました。

謝辞

今回の酵素活性予測の精度比較には以下の論文のデータを利用させていただきました。

Li et al., (2022) Deep learning-based kcat prediction enables improved enzyme-constrained model reconstruction. Nature Catalysis.

人工的な合成経路探索

はじめに

事業開発部の礒崎です。弊社では酵素反応による原料から目的物までの人工的な合成ルート探索を行っています。目的物と原料の化合物構造データを入力するだけで、原料から目的物を合成する可能性のあるルート候補を出力します。本ブログでは、その具体例として高強度ポリマーの原材料となる化合物4-アミノ桂皮酸グルコースから合成するルートを予測し、反応を担う酵素を予測した結果をご紹介します。

合成経路探索に使用した材料

Tateyama et al., 2016において、高強度のポリマーを生産するための原材料として4-アミノ桂皮酸を使用しています。この4-アミノ桂皮酸を合成するために使用された経路が図1です。グルコースを原料としてStreptomyces venezuelae 由来のAminodeoxychorismate synthase (PapA)とS. pristinaespiralis由来の Aminodeoxychorismate synthase (PapBC)を導入した大腸菌により4-アミノフェニルアラニンを生産させます。さらに、この4-アミノフェニルアラニンを原料としてRhodotorula glutinisのPhenylalanine ammonia-lyase (RgPAL)を導入した大腸菌に加えて、4-アミノ桂皮酸を生産させます。

図1. Tateyama et al., 2016 においてグルコースから4−アミノ桂皮酸を合成するのに使用した経路。

結果

1. 生合成経路探索

原料グルコース生成物4-アミノ桂皮酸として入力することで図1のような人工合成経路が出力されました。グルコースからコリスミ酸の既知合成経路と同一の経路が出力され、4−アミノフェニルアラニンを介して4-アミノ桂皮酸合成する経路が出力されました。

図2. 出力されたグルコースから4-アミノ桂皮酸を合成する人工経路。

2. 類似反応探索

結果1で見出した人工的な合成経路のうち、4-アミノフェニルアラニン4-アミノ桂皮酸類似反応を探索しました。

類似反応探索により、アミノ基脱離し、二重結合生成する反応が抽出されました。標的反応との反応類似度が高い類似反応の一部とその順位を図2に示しました。標的反応と完全に一致する反応を含む類似反応が抽出されました。

図3. 4-アミノフェニルアラニン→4-アミノ桂皮酸の類似反応のうち類似度の高い4反応。

3. 類似反応該当酵素探索

結果2で標的反応の類似反応を抽出しました。この類似反応を担う酵素配列taxonごとに抽出しました。絞り込んだ配列と論文中で使用された酵素を比較しました。Rhodotorula属、Eukaryotaドメイン、全taxonの3段階で配列を抽出しました(表1)。抽出した配列には、論文で使用された配列と90%以上の配列相同性を示すものが含まれていました。

TechBlog3-T1
表1. 4-アミノフェニルアラニン→4-アミノ桂皮酸の類似反応を触媒する酵素配列抽出結果。

終わりに

本ブログでは人工的な合成経路の探索を実演しました。材料として高強度ポリマーの原材料となる化合物4-アミノ桂皮酸グルコース  から合成する人工的な経路を探索しました。この経路のうち、4-アミノフェニルアラニンから4-アミノ桂皮酸を合成する酵素を類似反応酵素探索技術を用いて見つけることができるか試しました。上記の反応に対して、任意のtaxonごとに配列を抽出し、それぞれの配列数を示しました。実際に論文で使っていた酵素に非常に近い配列を含む複数の配列を抽出することができました。

謝辞

今回の合成経路探索には以下の論文のデータを利用させていただきました。

Tateyama et al., (2016) Ultrastrong, Transparent Polytruxillamides Derived from Microbial Photodimers. Maclomolecules.

未知反応を触媒する酵素探索

はじめに

事業開発部の礒崎です。弊社では未知反応を担う酵素探索を行っています。既知酵素反応との反応類似度および既知反応を担う酵素配列との配列相同性を基にして、標的の未知反応を担う酵素配列候補を出力します。本ブログでは、その具体例としてエイズ治療薬候補の1つIslatravirという化合物の合成反応を実際に担う酵素配列を予測した結果をご紹介します。

酵素探索に使用した材料

Huffman et al., 2019のデータを使わせていただきました。この論文ではIslatravirの新規合成経路を設計し、経路中の反応それぞれを触媒する酵素を見つけ、その実証実験を行っていました。Islatravirの合成反応を図1に示しました。化合物6 → 化合物7 or 8 → 化合物5 → 化合物4 → 化合物3 + 化合物2 → Islatravirという順番に合成されます。この合成経路の各反応を担う酵素弊社の酵素探索技術で予測し、論文で使用された酵素と比較しました。

図1. Islatravirの合成経路。Huffman et al., 2019 より抜粋。

結果

まずは、合成経路の5反応それぞれと類似する反応を探索しました。

1. 類似反応探索

出発物質である6→7 (または8→5)酸化反応の類似反応

水酸基をアルデヒド基に酸化する反応が類似反応として多く抽出されました。標的反応との反応類似度が高い類似反応の一部とその順位を図2に示しました。この反応は既知の代謝反応にはないため複数類似反応が抽出されました。

図2. 6→7(8→5)の赤い丸で囲った酸化反応の類似反応探索結果の一部。

出発物質6→8(または7→5)リン酸化反応の類似反応

水酸基をリン酸化する反応が類似反応として多く抽出されました。標的反応との反応類似度が高い類似反応の一部とその順位を図3に示しました。この反応は上記反応同様、既知の代謝反応にはないため複数候補の類似反応が抽出されました。

図3. 6→ 8(7→5)の赤い丸で囲ったリン酸化反応の類似反応探索結果の一部。

中間体5→4 のリボース合成反応

アセトアルデヒドを添加することで閉環してデオキシリボースとなる反応が抽出されました(図4)。論文中でこの反応は既知の代謝反応を模倣しているため、アルキニル基以外全く同じ反応が類似反応として得られました。

中間体4→3のリン酸基転移反応

リン酸基をヒドロキシアルキル基から水酸基へ転移する反応が抽出されました(図5)。上記リボース合成反応と同様にこの反応も既知の代謝反応を模倣しているため、アルキニル基以外全く同じ反応が類似反応として得られました。

図5. 4→3のリン酸基転移反応の類似反応探索結果。

中間体3→Islatravirのヌクレオシド合成反応

プリンをデオキシリボースに付加する反応が抽出されました(図6)。上記リン酸基転移反応と同様にこの反応も既知の代謝反応を模倣しているため、アルキニル基およびフッ素以外全く同じ反応が類似反応として得られました。

図6. 3→Islatravirのヌクレオシド合成反応の類似反応探索結果。

2. 類似反応該当酵素探索

結果1で5反応それぞれの類似反応を抽出しました。この類似反応を担う酵素配列taxonごとに抽出しました。絞り込んだ配列の中に論文中で使用された酵素が含まれたかを5反応それぞれで調べました。さらに、5反応それぞれにおいて、全taxon由来の酵素配列から系統的位置を用いたスクリーニングにより配列を絞り込みました。

類似反応のTaxonごとの酵素配列抽出

結果1の類似反応を担う酵素を探索し、Escherichia属、バクテリア、全taxon由来の3段階で抽出しました。抽出した配列数を以下の表1に示しました。今回の論文で使用している酵素と一致するものが含まれていたか調べました。5反応中4反応で、弊社酵素探索技術で抽出した酵素配列に論文中で使用された酵素が含まれていました。

TechBlog2-T1
表1. 類似反応を触媒する酵素のtaxonごとに抽出した配列数、および論文中で使用された酵素の有無。論文中で使用された酵素のUniprotおよびUniParc IDは配列相同性から推定。

系統的位置によるスクリーニング

全taxonより抽出した上記の類似反応酵素配列から、さらに系統的位置により配列を絞り込みます。全配列をクラスタリング・系統樹を生成、系統的にまとまった配列群から1配列ずつ選定しました。この選定の際、その配列の種間での保存度の高いものを優先して選定します(表2、図7)。

TechBlog2-T2
表2 . 全taxonより抽出した類似反応酵素を系統的位置によりスクリーニングした結果。
TechBlog2-7
図7. 3→Islatravir反応の類似反応酵素を系統的位置によって選出した過程。赤のエッジが選出したcentroid配列。さらにこのcentroid配列に属す配列中で最も保存度の高い配列を抽出する。

6→7(8→5)の酸化反応についての考察

上記結果にあるように、論文中でこの反応に使用された酵素は今回見つかりませんでした。その要因としては標的反応6→7(8→5)と論文中で使用した酵素反応がそれほど似ていないことにあると考えます(図8)。今回の類似反応探索で見つけた反応も論文中で使用されたO2を利用したOxidoreductaseであり、標的反応を触媒する可能性があると考えます。図9の反応を触媒する酵素として論文中ではUniParc ID: UPI0001E112C2を使用していると推定されます。これはRHEA_24161を触媒することが確認済みの配列のUniRef50のメンバーに含まれています。UPI0001E112C2自体はこの反応を触媒するかcurationされていません。

図8. 類似反応探索に含まれなかった論文中の酵素反応。論文中の酵素反応は標的反応にあまり類似していない。

終わりに

本ブログでは、未知反応を担う酵素の探索を実演しました。材料として論文で触媒する酵素を見つけたIslatravirの新規合成経路を用いました。この経路の各反応を担う酵素を類似反応酵素探索技術を用いて見つけることができるか試しました。5つの未知反応に対して、実際に類似反応をそれぞれ複数抽出しました。この際、任意のtaxonごとに配列を抽出し、それぞれの配列数を示しました。4つの反応では実際に論文で使っていた酵素を含む複数の配列を抽出することができました。そして、系統的位置を加味したスクリーニングで、全taxonから抽出した類似反応酵素を絞り込みました。通常のスクリーニングではさらに、酵素自体の性質(細胞局在など3次元構造など他の指標も使って候補配列を絞り込めます。

謝辞

今回の類似反応酵素探索には以下の論文のデータを利用させていただきました。

Huffman et al., (2019) Design of an in vitro biocatalytic cascade for the manufacture of islatravir. Science.

Page top