C.エレガンスの寿命と運動性の形態学的予測因子の局在化のためのタンデムセグメンテーション分類アプローチ
Sep 26, 2022
お問い合わせくださいoscar.xiao@wecistanche.com詳細については
概要
C. elegans は、老化に対する遺伝的効果および薬物効果を研究するための確立されたモデル生物であり、その多くはヒトで保存されています。 基礎研究に欠かせないモデルでもあり、線虫の病理学は新たな分野です。 ここでは、C. elegans をセグメント化し、寿命予測に役立つ可能性のある特徴を抽出するための、原理証明畳み込みニューラル ネットワーク ベースのプラットフォームを開発します。 寿命を通じて追跡された 734 のワームのデータセットを使用し、ワームを長命と短命に分類します。 私たちは、WormNet を設計し、若年成人の画像 (1- 日齢 3 日目) に基づいてワームの寿命クラスを予測する畳み込みニューラル ネットワーク (CNN) を設計し、WormNet と同様に、InceptionV3 CNN が寿命を正常に分類できることを示しました。 U-Net アーキテクチャに基づいて、ワームを前部、中部、および後部に正確にセグメント化できる HydraNet CNN を開発しています。 HydraNet セグメンテーション、WormNet 予測、およびクラス アクティベーション マップ アプローチを組み合わせて、寿命の分類に最も重要なセグメントを決定します。 このようなタンデム セグメンテーション分類アプローチは、寿命の長いワームを分類するには、ワームの後部がより重要である可能性があることを示しています。 私たちのアプローチは、アンチエイジング創薬の加速と線虫の病理学の研究に役立ちます。

前書き
線虫 Caenorhabditis elegans (C. elegans) は、老化プロセスへのさまざまな介入を研究するための確立されたモデルであり、老化を妨げる多数の遺伝子と薬物を見つけることができました。 人体試験で検討されている第 1 段階の抗老化薬 7 つのうち 5 つと第 2 段階の 6 つのうち 4 つが線虫モデルの寿命を延ばします。cistanche แอ ม เว ย์種間で保存されている多くの老化経路があり、ワームは長寿研究だけでなく、アンチエイジング業界でも広く使用されることが期待されています [1]。 さらに、ヒト化線虫は現在、神経変性の有望なモデルを確立するために使用されています [2]。 ただし、長寿の遺伝学とは異なり、C. elegans の老化の表現型はまだ十分に研究されていません。 特に、年齢に関連する病状とその発生、およびどの病状が寿命を決定し、どのように死に至るかについてはほとんどわかっていません [3]。 最近、腸萎縮、子宮腫瘍、咽頭感染などのいくつかの病状が報告されました [4-6]。 この観点から、線虫の新しい病状の発見、特に寿命の決定は、重要な課題になりつつあります。 C. elegans の病状を研究することは、老化プロセス、老化防止薬のメカニズムと効果をよりよく理解するのに役立つ可能性があります。

シスタンケはアンチエイジングできます
機械学習 (ML) とディープ ラーニング (DL) の最近の進歩 [7] は、大規模な実験データセットで以前には見られなかった行動パターンと形態パターンを明らかにして要約することにより、C.elegans を使用した老化研究を支援する可能性があります。 たとえば、最近の研究では、いくつかの生理学的パラメーターが縦方向に測定され、サポート ベクター回帰の適用により、C. elegans の寿命のさまざまな量の分散を次のように説明することができました。自家蛍光(52%)、産卵率(28%)[8]。 興味深いことに、交尾した雌雄同体の寿命とひなのサイズが相関していることがわかりました (r=0.28)[9]。 さらに、独立した研究により、筋肉機能がおそらく最も予測しやすい生理学的特徴であることが確認されています。速い咽頭ポンピング スパン (r=0.49) と咽頭ポンピング スパン (r=0.83) は、寿命の長さと高い相関があります [10]。 また、9 日目の最大速度 [11] と速度減衰率 (3-9 日) [12] は、それに応じて寿命の変動の 71% と 91% を予測します。 C. elegans の寿命の長さの細胞および分子予測因子も発見されました。 1日目の成人の熱ショックによって誘発されたhsp-16.2の発現は、寿命と相関することがわかった[13]。 熱ショックのような介入の交絡効果がなく、9 日目の sod-3 の基礎発現も寿命 (r=0.57) と相関しており、これはおそらく病原性食品に対する反応を反映している [14]。 4 日目以降の Mir-71 発現は高度に予測可能であり、寿命の変動の 47% を説明しています [15]。 驚くべきことに、核小体サイズ (1 日目に測定) と寿命の間の強い逆相関 (r =-0.93) は、加齢の重要な要素としてのタンパク質合成の調節解除を示しています [16]。 注目に値するのは、早期にマシン ビジョン アプローチが線虫の老化表現型の分類にも適用されたことです。 特に、線形判別分類子を使用して、その後の分子特性評価のために異なる年齢の咽頭の画像を分離しました [17]。

他の方法の中でも、特に画像解析のための最も強力な機械学習アプローチの 1 つは、畳み込みニューラル ネットワーク (CNN) [18] の使用です。 CNN は、MNIST データセットで人間に近いパフォーマンスを発揮し、交通標識認識で人間を 2 倍上回るという、画像認識で印象的な結果を達成することを可能にしました [19]。 CNN は、画像分類の「The ImageNet Large Scale Visual Recognition Challenge」で繰り返し最高のパフォーマンスを示しました [20,21]。摂取するシスタンチの量CNN へのスキップされた接続の導入により、速度と精度が劇的に向上し、そのような残りの CNN は現在、画像分類の最先端です [22、23]。 U-Net [24]、V-Net、および Tiramisu などのエンコーダー/デコーダー残差ネットワークも、医療画像セグメンテーション分野で使用される従来の境界抽出、しきい値、および領域ベースの方法 [25] よりも優れています。 DL アプローチによる印象的な結果にもかかわらず、主な欠点の 1 つは、DL ネットワークがブラック ボックスであるため、ネットワークによる意思決定に重要な機能を取得することが難しいことです [26]。 この欠点を回避するために、いくつかの顕著性技術が提案されています[27-29]。 そのような手法の 1 つは、グローバル平均プーリング レイヤーを使用して、いわゆるクラス アクティベーション マップ (CAM) を生成し、教師なしでクラス固有の画像領域をローカライズすることです [30]。 生成された一般的なローカライズ可能なディープ フィーチャは、研究者がタスクのために CNN で使用される識別の基礎を理解するのに役立ちます。 ただし、これまでのところ、生物学的に意味のある画像のセグメンテーションと分類の顕著性を組み合わせて、解釈による表現型の発見を容易にするアプローチは開発されていません。

驚くべきことに、CNN は最近、ワームの寿命を予測するために使用されました。 最初の論文では、C. elegans の 913 枚の画像のデータセットが使用されました。 各時点 (日) には少なくとも 30 のワームがあり、それらはすべてイメージングの前に麻酔をかけられました。 InceptionResNetV2- ベースのアーキテクチャは、回帰モードで 0.96 日という平均絶対誤差 (MAE) を達成し、分類モードで 57.6% の精度を達成しました [31]。 別の研究では、著者らは全寿命にわたって同じワームを追跡できる自動画像システムを使用したため、3.5 時間ごとに画像が撮影された 734 のワームのデータが得られました。 彼らは U-Net を使用してワームを背景からセグメント化し、次にワーム本体の座標回帰を実行して、直線化されたワームの表現を作成しました。 その後、彼らは修正された ResNet34 を使用し、未加工の画像に対して 0.6 日の最小 MAE でワームの年齢を退行させることに成功しました [32]。
ここでは [8, 32] と同じデータセットを使用しましたが、各ワームの年齢を予測する代わりに、若年成人 (1-3 日目) を短命に分類できる WormNet と呼ばれる CNN ベースのプラットフォームを開発しました。また、そのような分類に重要な機能を抽出するためのアプローチを設計します。 同様に、C. elegans の動きを分類するために WormNet を適用しました。 分類結果を設計どおりに解釈するために、分類 CNN にタンデム セグメンテーション CNN を付随させました。 このため、ワームを背景からセグメント化し、ワームの体を前部、中部、および後部にセグメント化するための新しい U-Net ベースのアーキテクチャ (HydraNet) を考案しました。 分類結果の解釈は、WormNet を使用して生成された HydraNet セグメンテーションとクラス アクティベーション マップの結合によって達成されました。 このようなタンデム方式での体の部分のセグメンテーションと組み合わせたクラス活性化マップ分析により、寿命予測に関与する特徴を抽出することができました。 最後に、C. elegans 画像のより高解像度のセグメント化されたバージョンを使用して、手動解釈を伴うより高い表現力の残留 CNN InceptionV3 で結果を検証しました。
結果
成体の 1 日目から死ぬまでの 734 匹の C. elegans のタイムラプス データを使用して、プロトタイプ プラットフォームを開発しました [8,15]。 これらの画像を自動的に解釈できるようにするためのアプローチを開発するために、ワームを背景からセグメント化し、ワームの形態学的部分を区別するという問題に取り組みました (図 1)。 このため、成虫の 130 画像に手動で注釈を付け、ワームの前部、中部、後部のマスクを付け、総ワーム マスクにまとめました (図 1F-1H)。 このデータセットは、個々のワームのデータセット ID に基づいて、トレーニング (90) とテスト (40) の部分に分割され、個々のワームの機能がテスト ホールドに漏れないようにしました。アウト。 まず、全体的なワームのセグメンテーションの問題に対処するために、バイナリ分類用のシグモイド ヘッドを伴う、U-Net [24] に似た比較的浅いアーキテクチャを構築しました。 わかりやすくするために、U-Net の符号化部分と復号化部分は、図 1A に および として示されています。 生の画像は、計算効率のために96×96ピクセルにスケーリングされました。 Dice 損失関数を使用し、Jaccard インデックスを監視してセグメンテーションの品質を評価しました。 この比較的単純なセグメンテーションの問題で、Jaccard インデックスはトレーニングとテストの両方の部分で 0.97 に達しました (図 1A、1B、詳細なハイパーパラメーターについては、材料と方法を参照してください)。 次に、線虫の個々の体の部分のセグメンテーションにこのアプローチを拡張するために、ワンホット エンコードされたマスクと同様の U-Net のようなアーキテクチャを使用したマルチクラス セグメンテーションとして問題を再定式化しました (図 1C、11)。 当然のことながら、マルチクラス分類はより難しい問題であるため、これにより、トレーニングとテストの部分でそれぞれ 0.92 と 0.91 の Jaccard インデックスのパフォーマンスが低下し、軽度のオーバーフィットが示唆されました。
驚くべきことに、マルチクラス U-Net の 1 つの側面は、重複マスクの生成につながる線虫の前部と後部を区別することでした (図 1I)。 この制限を回避するために、HydraNet と呼ばれる独自のバイナリ セグメンテーション問題 (図 1D、1E) にそれぞれ専用の複数のパーツを使用して、U-Net a およびパーツを使用する代替アーキテクチャを設計しました。 このようなアプローチは、共通の入力レイヤーと、ワームの各形態学的部分専用のレイヤーを備えた共同でトレーニングされたアーキテクチャを作成し、より単純なバイナリ分類の問題を解決しながら、エンドツーエンドのモデルを使用できるようにします。 HydraNet3には、ワーム本体の前部、中部、後部の3つの専用パーツが装備されていました。 一方、HydraNet4 には、ワーム本体全体だけでなく、前部、中部、後部の 4 つの専用パーツが装備されていました。 HydraNet のジョイント性能を推定するために、各パーツの Jaccard 指数を個別に測定し、最終的に平均 Jaccard 指数を評価しました。 驚くべきことに、HydraNet3 と HydraNet4 の両方が、トレーニングとテストの両方の部分で平均 Jaccard インデックス 0.97 を達成し、良好な一般化を示しています (図 1D、IE、1J、1K)。 注目に値するのは、HydraNet4 が HydraNet3 よりも早く変換を達成したこと (図 1D、IE 挿入図) であり、より一般的なセマンティック クラスをアーキテクチャに付随させることによる潜在的なプラスの効果を示唆しています。
次に、C. elegans の動きまたは寿命の分類子を取得するために、734 のすべてのワームを 2 つの合計移動量クラスに分割します。低または高移動は、生涯にわたってクロールされた平均距離を上回るまたは下回る運動性として推定されます。 2 つの寿命クラス: 寿命が 7 日以下の「短命」と、寿命が 8 日以上の「長寿命」。 タスクは、1 日目、2 日目、または 3 日目の画像に基づいてクラスを予測することでした。 データセットが比較的小さいため、表現力の高いアーキテクチャを使用すると、過剰適合につながる可能性があります。 そのため、WormNet と呼ばれる比較的浅い CNN を設計しました。 このアーキテクチャは、5 つの畳み込み層で構成され、それぞれに最大プーリング層が続きます。 一般化を改善するために、ニューラル ネットワークの畳み込み層ごとにドロップアウトとバッチ正規化が実装されました。シスタンシェとは何ですか最後の最大プーリング層は平坦化され、完全に接続された層にアタッチされ、その後にソフトマックス層が続きました。 損失関数としてバイナリクロスエントロピーを使用しました。 後者を除くすべてのレイヤーは、活性化関数として整流線形単位 (ReLU) を使用しました (図 2A、詳細なハイパーパラメーターについては、材料と方法を参照してください)。 WormNet は、動きと寿命の両方の分類子を取得するために使用されました (図 2 および 3)。 過剰適合の可能性をさらに軽減するために、Keras イメージ ジェネレーターを使用して 30- 倍のデータ拡張を実行しました。 具体的には、画像はランダムな水平方向と垂直方向の反転、10% の範囲内での水平方向と垂直方向のシフト、およびオリジナルの 90 度の範囲内でのランダムな回転の対象となります。 変換された画像の空白は、最も近い値の戦略を使用して埋められました。
WormNet は、88% の精度 (精度 0.86、リコール 0.86、受信者動作特性の曲線下面積 - AUC ROC) に達する合計動作分類で良好なパフォーマンスを示しました。 - は 0.56) であり、3 日目の成人分数のテスト データセットでした。 1 日目と 2 日目の画像のパフォーマンスはわずかに低く (図 2B-2D)、ROC AUC はそれぞれ 0.51 と 0.55 でした。 私たちの予測がその周囲ではなくワームの形態によって主に影響を受けるようにするために、線虫がセグメンテーションによって削除された合成背景画像のデータセットを生成しました。 トレーニングに対するワーム シルエットの影響を軽減するために、残りのゼロ ピクセルをランダム ノイズで埋めました (補足図 1)。 私たちの結果は、モデルのパフォーマンスは、画像の背景ではなく線虫の形態に主に起因することを示唆しています。 どの体の部分が WormNet の意思決定に関与している可能性があるかを評価するために、タンデム セグメンテーション分類アプローチを使用して、低運動クラスのワーム (図 2E、2F) と高運動ワーム (図 2G、2H) の CAM を取得しました。ワームネット。バイオフラボノイド次に、HydraNet4 を使用して各画像をセグメント化し、HydraNet4 からの形態学的部分セグメンテーションを使用した WormNet 上位四分位 CAM の結合を得ました。 解釈の目的で、高または低運動クラスに属するそれぞれのワームのそれぞれの形態学的セグメントに属する CAM の割合を計算しました。 さらに、Tukey の正直な有意差 (HSD) 補正を使用した一方向 ANOVA を使用して、この設計による解釈の重要性を評価しました (図 2F-低運動ワーム、図 2H - 高運動ワーム)。 この比較では、動きの少ないワームと高い動きのワームの両方で、体の中央部 (34%) および後部 (34%) よりも前部のカバーが有意に少ない (31%) ことが示唆されました。 体の中央部と後部の間に有意差はありませんでした。
次に、WormNet を使用して寿命の長いワームと短いワームを分類しました。 動きの分類と同様に、WormNet は 3 日目の成人サンプルでより優れたパフォーマンスを発揮し、72% の精度 (精度 0.73、再現率 0.71、AUC ROC 0.61) に達しました。 2 日目と 1 日目のそれぞれ 0.53 と 0.52 の AUC ROC と比較して、テスト データセット。シスタンシェを買う混同行列分析は、CNN が短命のワームの分類でパフォーマンスが低いことを示唆しました (図 3A-3C)。 次に、HydraNet4 と WormNet のタンデムを使用して分類器を解釈し、一方向の ANOVA 統計検定を行いました。 寿命分類の場合、設計による解釈では、32% で、胴体中央部および後部と比較して前部が CAM で有意に顕著ではないことが示唆されました (図 3D、3E - 短い寿命、図 3F、3G - 長い寿命)。 この違いは、短い寿命よりも長い寿命の方が重要ではありませんでした。 中部と後部に大きな違いはありませんでした。
これらの調査結果を独立した方法で検証するために、残りの InceptionV3 アーキテクチャ [3] を使用して別の寿命分類器をトレーニングし、手動で解釈しました (図 4)。 さらに、この場合、96×96 ピクセルにスケーリングする代わりに CAM の高解像度を確保するために、800×800 ピクセル(516×516 μm)にトリミングされたフル解像度の 900×900 画像が使用されました。 はるかに高い表現力を持つ CNN である InceptionV3 は、比較的小規模なデータセットで過剰適合する傾向がありました (図 4C、4D)。 これを回避するために、トレーニング中の早期停止を実装しました。 さらに、ワームを背景からセグメント化して、InceptionV3 に画像の関連部分のみが表示されるようにしました。 InceptionV3 は WormNet と同様に動作し、寿命分類のテスト データセットで精度は 70% に達しました (図 4A)。 解釈へのタンデム HydraNet4-WormNet アプローチと一致して、手動解釈の場合、ワームの前部は InceptionV3 CAM によってあまり頻繁に強調表示されませんでした。 ただし、重要なのは、入力画像の解像度が高いため、CAM は体の部分をより適切にローカライズし、それぞれの場合に可能な弁別子として体の部分を割り当てることができるようになりました (図 4B)。 興味深いことに、CAM の分析によって強調された体の部分の分布は、長命のワームの分類にとって後部がより重要であることを示しており、寿命を予測する特徴がワームの体の後部に位置する可能性があることを示唆しています。
討論
C. elegans は老化研究の古典的なモデルであり、これまでに 4000 以上の論文が発表されており、ロボット工学が進歩しているにもかかわらず、C. elegans の寿命を測定するプロセスは依然として手動で骨の折れる作業です。 しかし、フラットベッドスキャナーを利用してプレート上の多数のワームの生存率を同時に評価するライフスパンマシンのような新しいアプローチが出現しています[34]。 もう 1 つのアプローチはワーム サンゴです。自動化されたミミズ養殖法で、はるかに詳細な測定値でワームを生涯にわたって追跡することができます [8]。 ミミズサンゴで生成された詳細な生理学的データは、動き、自己蛍光、およびテクスチャの劣化が寿命の最良の予測因子であることを示しました。 ただし、正確な形態学的特徴が病状を反映し、寿命の長さを決定するものは不明のままです。 また、成人期の 3 日目または 4 日目の前の生理学的測定と単一の GFP 標識バイオマーカーでは、短命の線虫と長命の線虫を区別できないこともわかっています [8,15]。 1日目の成体で行われた核小体ベースの予測は、固定ワームで100倍の倍率を使用して実行されますが、これは自動スクリーニングプラットフォームでは達成できません。
ここでは、Pincus ラボで生成されたデータセット [8,15] を使用して作業し、新しく設計された WormNet のアプリケーションが、1 日目または 2 日目に撮影された画像であっても、寿命の短いワームと寿命の長いワームをうまく区別できることを示しました。 重要なことは、3 日目に CNN が最高のパフォーマンスを示したことです (図 2A-2C)。 WormNet は、総移動量の多いワームと少ないワームの分類においてさらに優れており、1 日目の成虫で 88% の精度を達成しました (図 3)。 より多くのデータが生成され、CNN の開発によって寿命が予測されることが期待されます [32]。 前述のように、著者はワームをセグメント化し、直線化されたワーム表現を作成しました。これは CNN トレーニングに使用されました [32]。 サンプル数の増加により、ワーム年齢の回帰ベースの予測が改善されました。 興味深いことに、著者は年齢推定のためのワーム情報を限定して発見しましたが、バックグラウンドの予測値は実験条件のアーティファクトですが、バックグラウンドからの情報は大幅に精度を向上させることができます。 したがって、シミュレーションにおける WormNet の予測精度は、背景情報によって部分的に説明できる可能性があります。 ただし、実験が示唆するように (補足図 1)、WormNet のパフォーマンスは、画像の背景ではなく線虫の形態に大きく依存します。 重要なことに、[32] の身体座標表現の事前トレーニングにより、生画像の精度が向上しました。これは、ワームの器官とテクスチャが年齢予測に役立つことを示唆しています。
若年成人の画像に基づく寿命または動きの分類に加えて、予測に重要な特徴を見つけることも目的としました。 プロトタイプ タスクとして、体の前部、中部、または後部のどの部分に、寿命に最も影響を与える機能が含まれているかを判断することにしました。 U-Net に基づく新しいアーキテクチャである HydraNet 3 および 4 を設計し、完全な Jaccard インデックス値を達成してワームの体の部分をうまくセグメント化できることを示しました。 重要なことは、バイデザインの解釈アプローチを開発するために、生物学的に意味のある分類 (寿命と動き) のタンデムを採用し、クラス活性化マップ [30、35] と形態学的セグメンテーション (前部、中部、後部領域) を通じて顕著性を生み出し、体の部分は分類に役立ちます。 さらに、タンデム アプローチから得られた調査結果は、あまり解決されていませんが、独立して訓練された分類子と一致していました。 このバイナリ分類器は、InveptionV3 CNN に基づいています。 ワームを背景からセグメント化した 800×800 ピクセルのフル光学解像度画像でトレーニングし、WormNet に匹敵する結果を達成しましたが、モデルはオーバーフィッティングが多いため一般化できません (図 4)。 ただし、InceptionV3 の場合、CAM で異なる体の部分をローカライズすることができ、分析は、長命のワームを分類するために、ワームの後部にある機能がより重要である可能性があることを示唆しています。 このアプローチは、画像解像度と身体座標表現の使用が大幅に増加したことを考えると、自動化された設定で線虫の新しい重要な年齢バイオ マーカーの発見への道を提供します。 咽頭や GFP 標識エンティティなどの非標識臓器は、HydraNets を使用してセグメント化し、CAM アプローチと WormNet を使用して寿命予測能力を評価できます。 敵対的生成ネットワーク [36] と同様に、セグメンテーションと分類のタンデムによる設計による解釈可能性の将来の実装は、エンドツーエンドでトレーニングされ、ルーチンの科学的発見に使用される可能性があると推測するのは魅力的です。 原理証明の自動化された分析プラットフォームは、非侵襲的な老化バイオ マーカーの発見に役立ちます。 これは、アンチエイジング薬の医薬品スクリーニングを加速する大きな可能性を秘めています。 方法論の開発は、基本的な老化研究にとって重要な C. elegans の新しい病理を見つけて特徴付けるのにも役立ちます。 私たちが寄託した研究コミュニティがコードを利用できるようにするため。
この記事は www.aging-us.com AGING 2022, Vol. 14、No.4






