長短期記憶ニューラルネットワークを用いたラット脳波からの母音音声認識パート1

Dec 27, 2023

抽象的な

音声の知覚と認識のメカニズムを調査するために、長年にわたってかなりの研究が行われてきました。

音声認識と記憶の間には切っても切れない関係があります。 音声認識は、音声信号を認識するための重要な能力であり、記憶は、情報を保存および取得するために使用する重要な方法です。 音声をよりよく知覚できるようになると、聞いた情報をよりよく記憶できるようになります。

研究によると、音声認識と記憶の関係は双方向であることがわかっています。 一方で、音声認識の低下は記憶障害につながる可能性があります。 音声がはっきりと聞こえないと、聞いた情報を正確に思い出すことができないからです。 一方で、強力な音声認識は記憶力を向上させる可能性があります。 音声を正しく知覚して理解できると、聞いた内容をより簡単に記憶できるようになります。

したがって、記憶力を向上させるために音声認識スキルを養うことに焦点を当てる必要があります。 これは、リスニングと音声理解のスキルを訓練することで達成できます。 録音を聞いたり、映画を見たり、語学クラスに参加したりすることで、音声の知覚と記憶を向上させることができます。

つまり、音声認識と記憶の間には密接な関係があり、記憶力を向上させるために音声認識スキルの育成に重点を置く必要があります。 積極的なトレーニングと練習を通じて、音声認識レベルを継続的に向上させ、聞いたことをよりよく理解して記憶することができます。 私たちは記憶力を向上させる必要があることがわかります。カンクサにはアセチルコリンや成長因子のレベルを高めるなど、神経伝達物質のバランスも調節できるため、記憶力を大幅に向上させることができます。 これらの物質は記憶と学習にとって非常に重要です。 さらに、肉は血流を改善し、酸素の供給を促進するため、脳に十分な栄養素とエネルギーが確実に供給され、脳の活力と持久力が向上します。

increase brain power

「知る」をクリックして短期記憶を向上させます

脳波検査 (EEG) は、脳の活動を特定するための強力なツールです。 したがって、音声認識の神経基盤を決定するために広く使用されています。

特に音声認識の分類においては、エンドツーエンド学習により代表的な特徴を自動的に学習・抽出できる深層学習ベースのアプローチが注目されています。

この研究は、ラットの脳における音素表現に関連する可能性がある特定のコンポーネントを特定し、双方向長期短期記憶 (BiLSTM) ネットワークと古典的な機械学習手法を使用して、単回試行ベースで各母音刺激の脳活動を識別することを目的としました。

両側の前聴覚野からのEEG信号を記録するために微小電極移植手術を受けた19匹の雄のSprague-Dawleyラットを使用した。 非常に異なるフォルマント周波数を持つ 5 つの異なる母音音声刺激、/a/、/e/、/i/、/o/、/u/ が選択されました。 ランダムに与えられた母音刺激の下で記録された脳波は、音声認識の分類の入力として使用されるように、最小限の前処理と Z スコア変換によって正規化されました。

BiLSTM ネットワークは、全体の精度、f{0}} スコア、Cohen の κ 値 75.18%、0.75、0.68 をそれぞれ達成することで、分類器の中で最高のパフォーマンスを示しました。 10- 分割相互検証アプローチを使用します。

これらの結果は、LSTM 層が EEG などの連続データを効果的にモデル化できることを示しています。 したがって、追加の手作りの特徴抽出方法を使用せずに、エンドツーエンド学習でトレーニングされた BiLSTM を通じて有益な特徴を導き出すことができます。

導入

音声は膨大な量の情報を脳に運び、動物の行動音を認識して分類するのは脳の典型的な機能の 1 つです。

その重要性を考慮して、音声認識のメカニズムを研究する試みは 100 年以上にわたって行われてきました。 音声認識に関する最初の神経言語学的研究の 1 つは、1870 年代にドイツの神経精神科医によって観察研究を通じて行われ、音声認識における上側頭回の重要な役割を発見し、音声認識の欠損が左上側頭回の損傷と関連していると推定しました。 1]。

音声認識は主に、一次聴覚野 (A1) と前聴覚野 (AAF) を含む上側頭回を含む背外側側頭葉に依存していることが知られています [2]。

increase memory

音素が脳内でエンコードされ解釈される方法については依然として議論の余地がありますが、音の認識はカテゴリー的なものであるということは広く受け入れられています。 つまり、たとえ音響的な違いが同等であっても、異なる音声カテゴリに属する​​刺激の方が、同じカテゴリに属する​​刺激よりも弁別が優れています[3、4]。

人間だけでなく動物の知覚システムも、連続的に変化する音刺激を一連の個別のカテゴリに分類します [5]。

神経生理学的研究の進歩に伴い、脳波検査 (EEG) は神経科学および神経工学に関連する研究で広く使用されるようになりました [6]。

EEG は、時間分解能が高く、脳のさまざまな機能状態に対する感度が高いため、リアルタイムの脳活動を調査するための強力なツールとなり、分類的知覚の神経基盤を明らかにすることへの関心が高まっています。 従来、人間の研究では脳波信号が頭皮から非侵襲的に記録されてきました。 音または音声知覚のレベルでは、奇妙な音によって誘発される聴覚誘発電位 (AEP) の構成要素であるミスマッチ否定性 (MMN) が、カテゴリー的知覚の神経相関を研究するために広く使用されています [7、8]。 ナータネンら。 人間の脳における言語依存の母音表現の証拠[9]。

別の研究では、語彙の調子のカテゴリ認識を調べ、カテゴリ間のコントラストがカテゴリ内の区別よりも大きな MMN を引き出すことがわかりました [10]。 動物実験では、侵襲的手順を通じてより正確な脳波信号が得られました。

たとえば、カテゴリカルな知覚の神経相関やさまざまな音の神経表現は、活動電位の細胞外記録を使用して研究されています。

鳴き鳥の線条体投射ニューロンは、カテゴリカルな聴覚反応を示し、音符の長さの変化に非常に敏感です [11]。 さらに、Kilgard et al.彼らは、ラットの脳の実質内記録を使用して、子音と母音の音の異なる神経表現を研究しました。 下丘とA1からのマルチユニットおよびシングルユニットの応答を記録したところ、スパイクのカウントが母音をコード化し、スパイクのタイミングが子音をコード化することが示唆されました[12、13]。

自閉症のラットモデルにおける音弁別トレーニングの効果も、音刺激に対する神経反応と音知覚能力を相関させる以前の発見に基づいて調査された[14]。

さらに、最近の研究では、マルチチャンネルアレイで記録された皮質電図検査は、麻酔をかけたラットの聴覚皮質においてさえ、特定の音への受動的曝露と相関していることが実証された[15]。

機械学習アプローチは、さまざまな研究で脳波を実際に利用するために使用されています。 機械学習手法を利用すると、EEG 信号からは明らかにするのが難しい、固有の豊富な情報の調査が可能になります [6]。

したがって、EEG ベースの分類は、従来の機械学習アルゴリズム (サポート ベクター マシン (SVM)、k 最近傍アルゴリズム (KNN)、ナイーブ ベイズ (NB) など) を通じて次の分野で実行できます。運動イメージ、感情認識、精神疾患の検出、事象関連電位 (ERP) の検出など [16、17]。

improve your memory

さらに、近年、グラフィック処理装置の進歩と大規模なデータセットの利用可能により、さまざまな深層学習ネットワークを使用して脳波に基づく分類を行うことが可能になっています[6, 18, 19]。従来の機械学習手法と比較して、深層学習ネットワークは、入力データから適切な表現を自動的に検出して抽出できます [20、21]。

したがって、事前の専門知識が不十分であっても、追加の手作りの特徴抽出プロセスを必要としない深層学習アルゴリズムを通じて有望な結果を得ることができます[22、23]。

たとえば、音声、画像、ビデオの分野では、深層学習アルゴリズムを適用することで結果が大幅に改善されました [24-26]。 ただし、従来の機械学習手法の代わりに深層学習アプローチを利用した場合に、そのような優れた結果が常に EEG ベースの分類ドメインに伴うかどうかは明らかではありません [27]。

Roy らは、ほとんどの研究 (102 件の研究のうち 4 件を除く) で、深層学習アプローチが従来の機械学習アプローチよりも高いパフォーマンスにつながり、精度の最高の改善率は 35.3% であったことを示しました [18、28]。

さらに、脳波に基づく分類研究のさまざまな分野の中で、従来の機械学習手法と深層学習手法の両方を適用するERP分類研究が活発に行われています。

初期の研究では、EEG 信号の限界の 1 つである低い信号対雑音比 (SNR) を改善し、ERP 信号を取得するために、従来の総合平均法が利用されました。

これらの研究では、いくつかの ERP コンポーネントが分類のための機能セットとして扱われました [29、30]。 動物研究では、ピーク振幅や潜時などの ERP の特徴も ERP 信号を識別するために使用されます [31、32]。

ただし、単一試行レベルの EEG データには、従来の総合平均法によって取得された ERP 信号よりも機能的で豊富な情報が含まれていることが知られているため、単一試行 EEG に基づく分類も大きな注目を集めています [33、34]。

したがって、その後の研究では、従来の機械学習手法 [38、39] を使用した分類のために、ウェーブレットベースのアルゴリズム [35]、ガウス混合モデル [36]、空間フィルタリング [37] などのさまざまなアルゴリズムによって特徴が抽出されました。単一試行 EEG から手作業で作成された特徴は、追加の処理ステップを実行する必要があるため、時間と労力がかかります。 これに関連して、ディープラーニング手法はエンドツーエンド学習を可能にすることでこの問題を軽減できます。

最も普及している深層学習アーキテクチャは畳み込みニューラル ネットワーク (CNN) で、次にリカレント ニューラル ネットワーク (RNN) が続きます。 CNN は、単一試行の EEG ベースの分類に広く使用されている特別なタイプの深層学習アーキテクチャです [6]。 CNN 入力は、主に次の形式で、生または前処理された EEG データから導出されます: チャネル数 × 1 回のトライアルの時点数。

さらに、かなりの分類結果が実証されており、スペクトログラム画像を入力として使用すると最高のパフォーマンスが得られることが知られています [40-44]。 CNN とは対照的に、RNN は、RNN 学習アーキテクチャの再帰接続により、ネットワークの前の情報を現在の入力データとして再帰的に利用できるため、特に (自然言語処理アプリケーションのような) 逐次データを処理する場合に非常に好ましいアーキテクチャです [45] ]。

長短期記憶 (LSTM) は、RNN の勾配の爆発と消滅の問題を克服するために Hochreiter と Schmidhuber によって提案された RNN アーキテクチャの一種です [46]。 双方向 LSTM (BiLSTM) は、LSTM をさらに発展させたもので、前方と後方の隠れ層を組み合わせて、前後の情報の両方にアクセスします。

BiLSTM モデルははるかに複雑であり、追加の計算能力を必要とする可能性がありますが、LSTM よりも優れた逐次モデリングと分類タスクを解決すると期待されています [47]。

以前、人間の脳の機械学習技術を使用して、3 つの母音 /a/、/o/、および /u/ について 1 回の試行ベースで EEG 信号を分類しようとしました。

多変量経験的モード分解 (MEMD) を含む適切な信号処理アルゴリズムを適用した後、線形判別分析 (LDA) 分類器を使用して、EEG 応答が各母音に従って効果的に分類されました。 EEG信号の時間周波数表現(TFR)から、アルファバンド成分が母音知覚の神経反応に最も関連していることも判明した[48]。
ただし、人間の EEG 信号の SNR が低いため、脳内の音素表現は、より信頼性の高い EEG 信号の取得を可能にする、より侵襲的な記録技術でさらに評価する必要があります。

さらに、EEG 応答を異なる音素に分類する際の各機械学習アルゴリズムの分類パフォーマンスについてさらなる研究を行う必要があります。

この研究の主な目的は、音声認識に対する脳の反応をさらに明らかにするために、ラットの脳における音声表現に関連している可能性がある特定のEEG成分を決定することでした。

より正確な EEG 信号を取得するために、聴覚刺激に反応する硬膜外 EEG 信号が AAF で記録されました。AAF は、聴覚の知覚と分類に重要な役割を果たすことが知られています [2]。 さらに、この研究では、LSTM ネットワークおよびその他の従来の機械学習技術を使用して、単一試行ベースで各音声に対する異なる脳反応を識別することを試みました。

BiLSTM ネットワークは、EEG などの連続データの長期依存関係のモデリングにおいて堅牢に機能できるため、母音刺激に対する EEG 応答の分類に適しており、他の古典的な分類器よりも優れた性能を発揮すると仮説が立てられました。 著者の知る限り、LSTM ネットワークは聴覚刺激に対する EEG 反応の分類には適用されておらず、これは深層学習アルゴリズムを使用して AAF からの硬膜外 EEG 信号を分析する最初の研究です。

improving brain function

さらに、深層学習アルゴリズムを使用し、追加の特徴抽出方法を使用せず、最小限の前処理を施した EEG 信号によるエンドツーエンド学習を使用して、EEG 応答を聴覚刺激として分類しました。


For more information:1950477648nn@gmail.com


あなたはおそらくそれも好きでしょう