長短期記憶ニューラルネットワークを用いたラット脳波からの母音音声認識 その3
Dec 28, 2023
機械学習分類器
BiLSTM のパフォーマンスは、従来の機械学習分類器と比較されました。線形カーネルを備えた SVM (SVM_lin)、放射基底関数カーネルを備えた SVM (SVM_rbf)、ランダムフォレスト (RF)、NB、およびKNN。
ランダム フォレストは、現在さまざまなデータ分析および予測分野で広く使用されている機械学習アルゴリズムです。 他の機械学習アルゴリズムと比較して、堅牢性と精度が優れていると同時に、過剰学習も効果的に軽減します。 近年、ランダムフォレストの応用範囲は拡大しており、人間の特定の記憶能力を予測するためにも使用できるようになりました。
認知心理学の分野では、記憶は非常に重要な研究方向です。 科学者たちは、人間の記憶レベルを評価する簡単かつ効果的な方法を探してきました。 近年、ランダム フォレストの出現により、この分野に新しいアイデアと手法がもたらされました。
ランダム フォレストは、変数を予測するようにモデルをトレーニングできます。変数には、記憶能力など、予測したいものであれば何でも構いません。 科学者は、関連する要素をランダム フォレスト モデルに入力して、その人の記憶力テストの得点を予測できます。 これらの要因には、年齢、教育レベル、性別、体重などの要因、または脳の構造などの生物学的指標が含まれます。 研究によると、これらの要因と人間の記憶能力の間には一定の関係があることがわかっています。
被験者から大量のテストデータを収集して分析することで、科学者はランダムフォレストモデルで記憶能力を予測するモデルを構築できます。 結果を予測すると、特定の記憶力テストにおける被験者の将来の成績に関する貴重な情報が得られます。
要約すると、ランダム フォレスト アルゴリズムは、科学者に人間の記憶レベルを評価する新しい方法を提供します。 将来的には、その応用が認知心理学、神経科学、その他の分野で重要な役割を果たす可能性があります。 ランダム フォレストと他の技術を組み合わせることで、人間の脳機能研究に対するより広い視野とより深い理解を提供できると信じる理由があります。 私たちは記憶力を向上させる必要があることがわかります。カンクサにはアセチルコリンや成長因子のレベルを高めるなど、神経伝達物質のバランスも調節できるため、記憶力を大幅に向上させることができます。 これらの物質は記憶と学習にとって非常に重要です。 さらに、肉は血流を改善し、酸素の供給を促進するため、脳に十分な栄養素とエネルギーが確実に供給され、脳の活力と持久力が向上します。

SVM [74] は、サポート ベクトル間の距離であるマージンを最大化することによって、最適に分離された超平面を決定することを目的としています。 カーネル トリックを使用することにより、SVM は特徴空間を低次元から高次元にマッピングできます。 したがって、線形分類と非線形分類を効率的に実行できます。
RF [75] は、トレーニング段階で複数の決定木を構築し、各決定木の結果を結合する最終クラスを生成することによって動作します。 NB [76、77] は、ベイズの定理と条件付き確率に基づいた確率的分類器であり、通常、すべての特徴が互いに独立していると仮定します。
KNN [78] は、特徴空間内の k 最近傍の多数クラスに基づいて入力を分類するノンパラメトリック アプローチです。 通常、k 値は、クラスの結合を避けるために奇数として選択されます。
上記の機械学習モデルをトレーニングして評価するために、BiLSTM と同じ 10-CV が使用されました。 すべての機械学習モデルは、Python の Scikit-Learn ライブラリ [73] を使用して実装されました。
統計分析
すべての統計分析は、SPSS ソフトウェア (SPSS バージョン 20.0、SPSS Inc.、米国ニューヨーク州アーモンク) および MATLAB ソフトウェア バージョン 2017b (Mathworks, Inc.、マサチューセッツ州、米国) を使用して実行されました。
研究内のすべてのデータがシャピロ・ウィルク検定で正規分布を示したため、データはパラメトリック統計で分析されました (p > 0.05)。 ANOVAを使用して、異なる母音刺激に応じたTFRの統計的有意性を分析した。
さらに、反復測定 ANOVA を実行して、各分類器のパフォーマンスを比較しました。 続いて、BiLSTM ネットワークと他の古典的な機械学習分類器の間で、対応のある t 検定を使用した一対の比較が実行され、タイプ I の誤り率の上昇を調整するためにボンフェローニ補正が実行されました。
EEG 応答の TFR を比較する場合、p 値の統計的有意性は 0.01 に設定されましたが、BiLSTM ネットワーク間のパフォーマンスを比較する場合、p 値の有意水準は 0.05 に設定されました。およびその他の機械学習分類器。
結果
母音に反応する聴覚誘発電位
合計 19 匹の Sprague-Dawley ラットが硬膜外電極埋め込み手術を受け、すべてのラットが手術を生き残りました。 その結果、19 匹のイソフルラン麻酔したラットから 5 つの英語の母音に対する脳波反応が記録されました。 平均 AEP 波形を抽出するために、すべての神経反応が刺激ごとに被験者全体で平均化されました。 図 4 は、両側 AAF からの各母音の平均 AEP 波形を示しています。
予想どおり、各カテゴリ母音は、さまざまなピーク振幅と潜時で両側AAFの異なる神経活動を引き起こしました。 母音刺激後に記録された最高電圧として定義される AEP のピーク振幅は、/i/ で最も小さく (左 AAF で 61.74 ㎶、右 AAF で 61.27 ㎶)、/a/ に応答した AEP が最大のピーク振幅を示しました。 (左 AAF で 92.12 ㎶、右 AAF で 90.18 ㎶)。
刺激の開始からピーク振幅までの時間として定義されるピーク潜時は、約 {{0}.39 秒から 0.5 秒で、/i/(0 で最短でした。左右の AAF で 39 秒)、/o/ 音で最長 (左右の AAF で 0.51 秒)。 図 4 に示すように、左右の AAF から同様の AEP 波形が観察されました。

EEG信号の時間周波数分析
時間周波数分析は、時間周波数平面上で非定常脳波信号を分析するための強力な方法であり、EEG の分類のための定性的情報を提供するために使用されます [79、80]。 したがって、特定の周波数におけるEEG振動の大きさと位相における母音認識に関連した変化を特定するために、総平均EEGのTFRが音ごとに計算されました(図5A)。
TFR 解析から、0.3 ~ {{8} のデルタ (1 ~ 4 Hz)、シータ (4 ~ 8 Hz)、およびアルファ (8 ~ 12 Hz) 帯域付近で高出力の活性化が観察されました。音声刺激に関係なく、刺激開始から }.6 秒。

さらに、各母音刺激に応じて統計的に有意な TFR 成分を分析するために、Bonferroni 補正を使用した ANOVA 検定が実行されました。
続いて、統計的に有意な領域(p < {{0}}.01)の検出力を F 値で表しました(図 5B)。 分析では、0.2 ~ 0.8 秒の脳波周波数帯域のほとんどが母音刺激に応じて大きく異なりました。
さらに、{{0}}.8 ~ 1 秒の TFR の一部も、刺激ごとに統計的に異なりました。 AEP 波形と ANOVA テストの結果を考慮すると、母音刺激後 0.2 ~ 0.8 秒の AEP が最も有益な神経反応であり、母音認識に関連していると推測されました。
BiLSTM ネットワークのモデルのトレーニングと評価
図5Bの結果に基づいて、時間窓0.2〜0.8秒で1〜60 HzのバンドパスフィルタリングされたEEGデータが選択されました。 次に、選択された EEG データの Z スコアが BiLSTM ネットワークへの入力として使用されました。
BiLSTM ネットワークを評価するために、すべての EEG データは各被験者内で 10 分割されました。 したがって、テスト パフォーマンスは、10- CV スキームの残りのフォールドでトレーニングされたモデルを使用してフォールディングごとに取得されました。
ネットワークのパフォーマンスは、精度、f{0} スコア、およびコーエンのカッパ統計量 κ の指標を使用して評価されました (図 6 および表 1)。 BiLSTM ネットワークの平均 5 クラス EEG 識別精度は 75.18 ± 7.06%、f1- スコアは 0.74 ± 0.08 でした。 。 Cohen の κ は 0.68 ± 0.09 で、これは中程度の一致であると解釈されました [81]。
BiLSTM ネットワークのパフォーマンスをより詳細に分析するために、図 7 に混同行列をプロットしました。 これは、エラーの多くが、/u/ に対する EEG 応答を /a/ として、/e/ を /o/ として誤って分類したことに起因することを示しました。 しかし、BiLSTM ネットワークは、ほとんどの EEG 応答を 50% 以上の精度で分類しました。これは、5 クラスの EEG 分類の中でも高い精度です。

BiLSTM ネットワークと他の機械学習手法の比較
母音認識のための EEG 分類における BiLSTM ネットワークの有効性を検証するために、結果を他の従来の機械学習方法の結果と比較しました。 図 6 と表 1 は、機械学習分類器のパフォーマンスを示しています。
RF は、従来の機械学習アルゴリズムの中で最も高い分類精度を実証しました (精度: 63.21 ± 7.41%、f1- スコア: 0.62 ± 0.09、および Cohen のアルゴリズム) : 0.52 ± 0.1)。 統計解析では、RF の分類性能は SVM_lin や SVM_rbf と比べてそれほど高くありませんでしたが、NB や KNN と比較すると高い性能を示しました。
ただし、RF を含む従来の機械学習アルゴリズムのパフォーマンスを BiLSTM と比較した場合、研究で使用されたすべての指標において BiLSTM ネットワークが優れていることは明らかでした (p < 0.01)。
混同行列では、従来の機械学習アルゴリズムは特定の EEG 応答をうまく識別できません。 特に、従来のすべての機械学習アルゴリズムでは、「/u/」という音を区別することが困難でした。 アルゴリズムは、平均して 30% の確率 (NB では 25.96%、KNN では 36.97%) で音 /u/ を /a/ として誤分類する傾向を示し、その結果、全体的な分類パフォーマンスが低下することがわかりました (図 7)。 。

議論
この研究では、BiLSTM ネットワークを使用して、5 つのカテゴリー母音 (/a/、/e/、/i/、/o/、および/u/) に対するラット硬膜外脳波反応を識別しました。 硬膜外 EEG 信号の 5 クラス分類は 1 回の試行ベースで実行されましたが、これは困難であることが知られています。 学習パフォーマンスを最大化するために、この研究では、ラットの脳における音声の認識に関連する可能性のある特定のEEGコンポーネントを決定し、これらのEEGコンポーネントを入力特徴として利用することを試みました。 その結果、BiLSTM を使用して、AEP を 5 つの異なる母音に分類する比較的高いパフォーマンスが達成されました。 BiLSTM ネットワークの分類パフォーマンスを他の機械学習アルゴリズムと比較すると、BiLSTM ネットワークが他の古典的な分類器よりも優れていることがわかりました。 これらの結果は、音声認識関連の EEG コンポーネントでトレーニングされた BiLSTM ネットワークが、AEP を各カテゴリー母音に高い精度で確実に分類できることを示しています。 私たちの知る限り、LSTM ネットワークは聴覚刺激に対する EEG 反応の分類には適用されておらず、これはラット AAF からの EEG 信号を分析するために深層学習アルゴリズムを使用した最初の研究です。

現在、EEG ベースの分類で最先端の結果を達成するために LSTM アーキテクチャを使用している研究はわずかです。 LSTM アーキテクチャは、そのチェーン状の構造が EEG データの時間的シーケンスをキャプチャできるため、EEG ベースの分類に適しています [82]。 当初、研究はさまざまな LST アーキテクチャを通じて分類結果を改善することに焦点を当てていました。 ただし、入力特徴は従来の機械学習方法と同様に手動で抽出されました [83、84]。
ツィオリスら。 は、てんかん発作を検出するための最も効率的な LSTM アーキテクチャを見つけるために、LSTM ネットワーク要素のさまざまな組み合わせのパフォーマンスを評価し、発作予測においてほぼ完璧な結果 (100% の感度と 99.86% の特異度) を得ました [83]。 LSTM は連続データを処理するための強力な構造であるため、一部の研究では最小限の前処理で生の EEG データを入力特徴として使用しています。 LSTM ネットワークは生の EEG データから特徴を直接学習するため、他の従来のネットワークと比較した場合、感情認識研究のパフォーマンスは少なくとも 12% 向上し [85]、運動イメージ分類研究の結果も向上しました [86]特徴抽出技術。
さらに、BiLSTM アーキテクチャは過去と未来の両方の状態の情報にアクセスできるため、EEG ベースの分類に利用されました。 したがって、発作や睡眠など、EEG データに反映されるさまざまな脳状態を検出する [63-67]、BiLSTM ネットワークは一般に、シーケンスから順方向の過去の情報のみをキャプチャする LSTM ネットワークよりも優れた性能を発揮しました。 このため、BiLSTM ネットワークを使用した最近の EEG ベースの分類では高いパフォーマンスが報告されています。 シャルマら。 BiLSTM アルゴリズムと高次統計に基づいて、4 種類の感情の分類精度 82.01% を達成しました [87]。 さらに、BiLSTM ネットワークはてんかんの種類と睡眠段階の分類に成功しました [88、89]。
以前の研究と同様に、この研究でも BiLSTMnetworks を使用して比較的良好な結果が得られました。 提案されたアルゴリズムは、それぞれ 75.18%、74.43%、および 0.68 という高い精度、f{0}} スコア、およびコーエンの κ の値で 5 つの母音に対する EEG 応答を正常に識別しました。 5 クラス分類のコーエンの κ の値は、最新の研究で見られるものよりも高くなります [90]。 図 6 に示すように、BiLSTM メソッドは、他の機械学習メソッドと比較して、すべてのメトリクスで最高の値を生成しました。 さらに、分類パフォーマンスの統計的な違いを判断するために、すべての主題値を使用して、BiLSTM と他の古典的な機械学習手法の間で繰り返し測定された ANOVA 結果が分析されました。 統計分析により、BiLSTM ネットワークの分類パフォーマンスは他の古典的な機械学習手法よりも大幅に高いことが判明しました (p < 0.01)。 この結果は混同行列とも一致しました。 図 7 に示すように、BiLSTM ネットワークは 5 つの母音の真のラベルをうまく予測しましたが、古典的な機械学習方法は予測できませんでした。
従来の機械学習分類器を通じて取得された予測は、特に /u/ 音の分類が不十分でした。 /u/ サウンドは主に /a/ として誤って解釈されました。 従来の 5 つの機械学習分類器の中で最高のパフォーマンスを示した RF でさえ、/u/ 音の分類率は 34.48% であり、/u/ 音を /a/ 音として誤分類する率は 33.89% でした。 図 4 からわかるように、/a/ 音と /u/ 音は同様のピーク レイテンシーを持っていました。これは AEP 波形の主な特徴の 1 つです (音 /a/ のピーク レイテンシー: 0.448、ピーク音の遅延 /u/: 0.444)。最小限の前処理が施された単一試行 EEG 信号に基づいて分類が実行された場合、そのような類似性は従来の機械学習アルゴリズムでは区別できなかったようですが、BiLSTM ネットワークではそれらを区別することができた。
BiLSTM ネットワークが過去および将来のすべてのコンテキストに同時にアクセスできることを考慮すると、このネットワークを通じて豊富な情報を学習できます。 さらに、各母音に対するEEG応答の特徴を反映する特徴がLSTM層の順方向および逆方向から直接抽出されたにもかかわらず、分類性能が向上した。 この研究では、追加の手作りの特徴抽出プロセスを必要とせずに、単純な BiLSTM アーキテクチャを使用して良好な分類結果を導き出すことができます。
EEG の SNR が低いという特性により、音声刺激に対する ERP 反応を 1 回の試行で分類することは非常に困難です。 ディープラーニング法の主な利点の 1 つは、ハードコアな特徴抽出を行わずに高レベルの特徴を学習できることですが、より良いパフォーマンスを達成するために、音声認識に関連する最も適切な EEG 信号を選択することを試みました。 この研究では、TFR 解析において、デルタ、シータ、アルファ帯域を含む低周波数帯域の高出力活性化により、各音声刺激に対応する異なる AEP 波形が観察されました。 アルファ帯域の神経振動は、聴覚処理において重要な役割を果たすことが広く認識されています。Mazaheri et al. は、アルファ活動の減衰が聴覚目標の識別に密接に関連していると報告しました[91]。
スタースら。 は、皮質アルファ振動が、ノイズの処理を選択的に抑制して、目標信号に対する聴覚の選択的注意を改善するための極めて重要なメカニズムであることを証明した[92]。 以前に、我々は、音の種類に関して統計的に異なる特定の音刺激の後、両側側頭領域でアルファパワーが高度に活性化されることも発見した[48]。 さらに、デルタバンドとシータバンドは、音響情報のセグメンテーションと知覚的影響の形成に関連していることが知られています[93]。
この研究は動物実験データに基づいていますが、人間を対象とした以前の研究と比較して、同様の音声関連成分が TFR 解析で観察されました。さらに、統計解析では、すべての EEG バンドが範囲内で有意であることがわかりました。 1 は刺激後の音の知覚に関連する EEG 成分を表しています。 これらの結果は以前の研究の結果とは多少異なり、アルファ帯域などの特定のEEG帯域のみが音の知覚に関連していることを示唆しています。 硬膜外 EEG 記録では体積伝導を減らし、頭蓋外 EEG 記録に特有のアーティファクトを排除することで SNR が向上するため、すべての EEG バンド活動にわたる微妙な変化さえも記録されることが期待されます。
この研究では、ラットの音声認識に関連する EEG 成分が決定され、BiLSTM ネットワークを使用して AEP 成分の分類に成功しました。 ただし、この研究にはいくつかの制限がありました。 まず、特にディープラーニングの場合、含まれる主題の数が少なすぎました。 さらに、この研究では外部検証を使用して各分類器のパフォーマンスを評価せず、代わりに 10- CV を使用して限られたサンプル サイズを克服しました。 さらに、この研究では各母音の単一発声のみが使用されたため、ラットの聴覚系が音に継続的に反応する可能性を排除できません。 さらに、獲得されたEEG反応は麻酔効果の影響を受けました。 最小限の麻酔薬が使用されましたが、デルタ出力の増加に伴う周波数の低下は、イソフルラン吸入後のEEG変化の典型的な所見です[94]。 したがって、この研究で提案された母音認識EEGコンポーネントは、再覚醒したラットから取得されたEEG信号とは異なる可能性があります。 しかし、硬膜外電極埋め込みによって脳波が記録されており、運動アーチファクトによって汚染されていないため、脳波信号の品質は十分に良好であると我々は考えています。
結論
結論として、この研究は、カテゴリカル音声知覚に関連する意味のある神経コンポーネントを抽出しました。 さらに、LSTM ネットワークの特性に基づいて、BiLSTM ネットワークは最小限の前処理の AEP による EEG 応答の分類に適していることが証明されました。 この研究は動物データを使った先駆的な研究であるため、脳とコンピュータのインターフェースや人間の代替コミュニケーション補助手段などの他の実用的な応用に直接応用できない可能性があります。

したがって、聴覚 EEG ベースの音声認識の分類における BiLSTM ネットワークの有効性を検証するには、人間の EEG データを使用した将来の研究が必要です。 さらに、最適なパラメータ調整と特徴抽出のために再評価する必要があります。 この研究は、EEG信号を分析するための新しいアプローチと、脳における音声の知覚と認識のメカニズムに関する貴重な情報を提供することが期待されます。

参考文献
1. ウェルニッケ C. 失語症の複合症状。 参加者: Cohen RS、Wartofsky MW、編集者。 1966/1968 年のボストン科学哲学コロキウムの議事録。 ドルドレヒト: シュプリンガー オランダ、1969 年。 34–97ページ。
2. Shi Z、Yan S、Ding Y、Zhou C、Qian S、Wang Z、他。 前聴覚野は、成体ラットの恐怖条件付け課題における音の分類に必要です。 フロントニューロシス。 2019年; 13:1374。
3. リバーマン AM、ハリス KS、ホフマン HS、グリフィス BC。 音素の境界内および境界を越えた音声の識別。 Jエクスプサイコル。 1957年。 54: 358–368。
4. ジョンソン K. 音響および聴覚音声学。 チチェスター: ワイリー-ブラックウェル。 2012年。
5. Green PA、Brandley NC、Nowicki S. アニマルコミュニケーションと意思決定におけるカテゴリー的認識。 エコル行儀。 2020年; 31: 859–867。
6. クレイク A、ヒー Y、コントレラス ビダル JL。 脳波 (EEG) 分類タスクのための深層学習: レビュー。 J 神経工学 2019年; 16:28。
7. Naãa�ta�nen R、Paavilainen P、Rinne T、Alho K. 中枢聴覚処理の基礎研究におけるミスマッチ否定性 (MMN): レビュー。 臨床神経生理学。 エルゼビア; 2007 年。2544 ~ 2590 ページ。
8. ガリード MI、キルナー JM、ステファン KE、フリストン KJ。 ミスマッチの否定性: 根底にあるメカニズムのレビュー。 臨床神経生理学。 エルゼビア; 2009.453–463ページ
For more information:1950477648nn@gmail.com






