カンクイの多肉茎-Ⅰのトランスクリプトームアセンブリと遺伝子発見

背景

Cistanche desserticola は、非常に薬効のある完全に非光合成の寄生植物で、主に中国北西部の砂漠に分布しています。乾燥させた多肉質の茎は、健康維持に欠かせない強壮剤です。伝統的な中国医学主に男性の性機能の改善と免疫力の強化の役割を持っていますが、ゲノムおよびトランスクリプトームのリソースが不足していることもあり、メカニズムの研究はほとんど行われていません。

Natural cistanche tubulosa

天然カンシタンケツブロサ中国の伝統医学 PHGS75% ECH 30% ACT 12%

結果

この研究では、C. デスティコーラの多肉質の茎でディープトランスクリプトームシーケンスを実行し、HiSeq2000 プラットフォームで Illumina ペアエンドシーケンスを使用して約 80 リードが生成されました。 trinity アセンブラーを使用して、転写産物長が 200 bp から 15,698 bp の範囲で、平均長が 950 塩基、N50 長が 1,519 塩基である 95,787 個の転写配列を取得しました。 63,957 個の転写物が、FPKM 0.5 以上で活発に発現していると同定され、そのうち 30,098 個の転写物には、いくつかの公開データベース (Uniprot、NR、NCBI の Nt、および KEGG) に対する配列類似性分析によって遺伝子説明または遺伝子オントロジー用語の注釈が付けられました。。さらに、主要な有効成分であることが知られているリグニンおよびフェニルエタノイド配糖体（PhG）の生合成に関与する重要な酵素遺伝子を同定しました。リグニンと PhG 生合成における最初の鍵となる酵素である 4 つのフェニルアラニンアンモニアリアーゼ (PAL) 遺伝子が、配列比較と系統解析に基づいて同定されました。 PhG の 2 つの生合成経路も初めて提案されました。

結論

全体として、RNA-seq 技術を使用した C. デザートティコーラの肉質茎トランスクリプトームの包括的な解析を完了しました。リグニンおよびフェニルエタノイド配糖体の生合成に関連する酵素遺伝子の集合が、組み立てられ注釈が付けられた転写産物から同定され、PAL の遺伝子ファミリーも予測されました。この研究からの配列データは、この重要な薬用植物の将来のフェニルエタノイド配糖体の生合成研究と機能ゲノム研究を実施するための貴重なリソースを提供します。

導入

C.deserticola は、Orobanchaceae 科の多年生砂漠植物の世界的な属で、完全に光合成を行わない種で、通常は地下で完全寄生植物を生育します。干ばつや塩分に対する耐性が高いため、主に砂漠や半砂漠に生息するサモ植物ハロキシロン・アンモデンドロン（アカザ科）の根に寄生します。 C.desesticola は厳しい環境条件に強い耐性を示し、主に中国北西部、特に内モンゴル、甘粛省、新疆ウイグル自治区に分布しています。近年では人間による食用量の増加により、絶滅の危機に瀕している野生種と考えられています。砂漠人参とも呼ばれる C.deserticola は、一般に砂漠のホウキソウとして知られており、乾燥した肉質の茎は、中国と日本で伝統的に重要な強壮剤として長年にわたって広く使用されてきました。それは約 1800 年前に『神農本草経』（中国医学辞典、1977 年）に初めて記録され、医学の主要な情報源の 1 つとみなされていました。漢方薬のカンク.

Chinese cistanche tubulosa

性機能を改善するための天然シスタンケチューブローサ PHGS75% ECH 30% ACT 12%

C. デスティコーラの抽出物は幅広い薬効を有しており、特に性機能の改善、腎臓の強壮、肝臓の保護、ペリエント活性、記憶力の強化、免疫調節、抗酸化活性、抗炎症、抗ウイルス活性などに使用されます。 C. デスティコラの主要な生理活性成分はフェニルエタノイド配糖体 (PheG、PhG) です。現在までに、20 を超えるフェニルエタノイド配糖体が C.deserticola の多肉植物の茎から単離されています。その中で、アクテオシドとエキナコシドは、重要な薬理活性を持つ 2 つの主要成分であり、中国薬局方 (2005 年版および 2010 年版) に C. デスティコーラの品質基準として文書化されています。 PhG の 3 つの化学成分は有機酸、糖、フェニルエタノイドですが、フェニルエタノイド生合成経路に関する詳細は C.deserticola ではまだ十分に理解されていません。

C.deserticola の商業的および医学的重要性にもかかわらず、この種のゲノムおよびトランスクリプトームのデータは非常に限られています。 NCBI データベースには利用可能な EST はなく、この種の完全なゲノム情報は葉緑体ゲノム配列を除いて入手できないままです。トランスクリプトームデータが限られているため、PhG 生合成機構の研究が妨げられています。 RNA-seq 技術は、NGS 技術プラットフォーム (Applied Biosystems SOLiD、Illumina HiSeq、Roche 454 など) を使用して、標的ゲノムの発現部分の配列を生成し、遺伝子を同定できます [18]。これは、高解像度と広いダイナミックレンジを備えた費用対効果が高く強力なアプローチであり、特に少量の転写産物を探索する利点があるため、トランスクリプトームの de novo アセンブリにおいてますます人気が高まっています。 RNA-seq はさまざまな利点があるため、遺伝資源が限られている非モデル生物にとって特に魅力的です。しかし、RNA-seq による C.deserticola トランスクリプトームの詳細な研究はありません。

この研究では、Illumina Hiseq2000 プラットフォームを使用して C.deserticola のステムトランスクリプトームをグローバルに配列し、7.9G の生データを取得しました。アセンブリとアノテーションによって、PhG の生合成に関与する遺伝子とリグニン生合成全体に関与する遺伝子をマイニングしました。私たちの RNA-seq 解析により、最初の C. デスティコーラコンセンサストランスクリプトームが生成され、C. デスティコーラの薬効の包括的な理解に新たな洞察がもたらされました。さらに、ここで説明する方法は、ゲノムリソースが非常に限られている別の薬用植物の特定の薬用成分生合成経路に関与する遺伝子の発見を促進するトランスクリプトームのプロファイリングに広く適用できます。

材料と方法

植物素材コレクション

発掘段階にある C. デザートティコラの新鮮な多肉茎は、中国北西部の内モンゴル自治区アルシャリーグのバヤンホット市にある植物基地から採取されました。収集許可は工場基地の所有者（HongKui CongRong Group）から取得しました。バウチャー標本は、中国科学院北京ゲノミクス研究所の中核ゲノム施設に寄託されました。洗浄後、多肉植物の茎組織を小片に切断し、液体窒素で直ちに凍結し、さらに加工するまで -80 度で保管しました。

RNA抽出、cDNAライブラリ構築、イルミナシークエンシング

メーカーの指示に従って、TRIzol 試薬 (Invitrogen Inc.、カリフォルニア、米国) を使用して、多肉植物の茎から全 RNA を抽出しました。得られたサンプルを DNase I で処理して、ゲノム DNA を除去しました。抽出された RNA は、Agilent 2100 バイオアナライザー (Agilent Technologies) を使用して定量され、臭化エチジウム染色を備えた変性アガロースゲル電気泳動を使用して完全性をチェックしました。 A260/A280比が1.9〜2.1、RNA 28S:18S比が1.0より高く、RNA完全性数（RIN）-8.5のRNAサンプルをその後の分析に使用しました。

RNA-seq ライブラリーは、Illumina Truseq RNA サンプル調製キットを使用して生成されました。メーカーの指示に従って、Dynal ligo(dT)25 ビーズを使用して、ポリ (A)+ RNA を全 RNA から単離しました。精製後、断片化バッファーを添加して、mRNA を短い断片に分割しました。これらの短い断片をテンプレートとして使用し、SuperScript III 逆転写酵素および N6 ランダムヘキサマープライマーを使用して、ファーストストランド cDNA を合成しました。次に、バッファー、dNTP、RNaseH、および DNA ポリメラーゼ I を使用して第 2 鎖 cDNA を合成しました。得られた二本鎖 cDNA を、T4 DNA ポリメラーゼ、DNA ポリメラーゼ I クレノウフラグメント、および T4 ポリヌクレオチドキナーゼを使用して末端修復し、 T4 DNA リガーゼを使用したアダプター。アダプター連結フラグメントを QiaQuick PCR 抽出キットを使用して精製し、EB バッファーで溶出しました。アガロースゲル電気泳動を使用した分析後、適切なフラグメントが PCR 増幅のテンプレートとして選択されました。得られたcDNAライブラリーの配列決定をIllumina HiSeq 2000システムを用いて実施した。

転写物の de novo アセンブリと遺伝子発現の定量化

シーケンスから生成された生のリードは、社内の方法を使用してアダプターシーケンス (ATCTCGTATGCCGTC) を除去することによってクリーン化されました。次に、厳格な低品質フィルタリングプロセスを実行しました。まず、phred 品質スコアが 20 未満の塩基は、より高い品質 (20 以上) の 1 つの塩基に到達するまで、配列の 3' 末端からトリミングされます。リード長が 50bp より短い場合、リード長は破棄されます。次に、リードは、1 つのリード内の塩基の 70% が高品質スコア (20 以上) を持つという基準によってさらにフィルタリングされます。第三に、その後のアセンブリにはペアエンド読み取りのみが使用されました。 De novo トランスクリプトアセンブリは、インチワーム、クリサリス、バタフライの 3 つの連続したソフトウェアモジュールで構成される Trinity リリース_20130216 [30] を使用して実施されました。アセンブリパラメータは次のように設定されました:-seqType fq-JM 300G -min_contig_length 200-CPU 20-尺取虫_cpu {{21} }bflyCPU 20。

転写物の存在量を定量化するために、Trinity のスクリプトを使用して、配列決定されたペアエンドリードを組み立てられた転写物と再アライメントしました。マッピングされたリードは、RSEM (RNA-Seq by Expectation Maximization) ソフトウェアによる定量化に使用されました。遺伝子またはアイソフォームの存在量は、100 万フラグメントマッピングされた転写産物の 1 キロベースあたりのフラグメント (FPKM) 値で表され、FPKM 値が 0.05 以上の転写産物が発現されたものとして定義されました。

発現された転写産物の機能的アノテーション

葉緑体ゲノムを除いて、C.deserticola の遺伝子注釈セットはありません [1]。 BLAST プログラム (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

遺伝子オントロジーと KEGG 経路のアノテーション Uniprot データベースとの配列類似性アラインメントにより、アセンブルされたすべての転写産物のジーンオントロジー (GO) アノテーションは、(ftp://ftp.ebi.ac.uk/pub/ からダウンロードされた関連付けファイルを使用して取得されました) databases/GO/goa/UNIPROT/gene{0}}association.goa_uniprot.gz）。発現遺伝子の GO 用語クラスタリングはカスタムスクリプトを使用して実行され、遺伝子に第 4 レベルのアノテーションを付けました。 CC、BP、MFのカテゴリーに分かれています。

KEGG 経路情報は、オンラインツール KAAS (KEGG 自動アノテーションサーバー) を使用して、すべての予測タンパク質配列に割り当てられました [34]。 fasta 形式の配列が KAAS リクエストに提出され、C.deserticola ステムトランスクリプトームに関連するすべての経路情報の結果ファイルがダウンロードされました。 KEGG 内の 13 の植物生物の遺伝子データセットは、BBH (双方向ベストヒット) 法を使用したアノテーションに使用されました。

cistanche tubulosa extract

天然カンカツブロサカンカンエキス PHGS75% ECH 30% ACT 12%

RT-qPCR分析

DNase I による消化後、オリゴ(dT)15 プライマーと GoScript 逆転写システム (Promega) を用いた逆転写反応により、約 5 μg の全 RNA が第一鎖 cDNA に変換されました。次に、リアルタイム PCR のテンプレートとして使用する前に、cDNA 産物をヌクレアーゼフリーの脱イオン水で 10- 倍に希釈しました。特異的 cDNA を GoTaq 2-Step RT-qPCR システム (Promega) により 20 μl の容量で増幅しました。ＰＣＲ増幅は、７５００リアルタイムＰＣＲ検出システム（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）を用いて、製造業者の指示に従って６０度のアニーリング温度で実施した。相対的な転写物存在量は、7500 Manager ソフトウェアを使用し、遺伝子「comp10579_c0」を内部標準として使用する比較サイクル閾値法によって計算されました。

RT-PCR 用のプライマーペアはオンラインソフトウェア (http://primer3.ut.ee/) に基づいて設計されており、S1 データセットにリストされています。

結果

C. デスティコーラの多肉質茎の RNA シーケンスと de novo トランスクリプトームアセンブリ

C. デザートティコラの茎は、中国と日本で伝統的に重要な強壮剤として長年にわたって広く使用されてきました。 C. デスティコーラの多肉質茎における遺伝子発現の全体的な概要を得るために、我々は 2013 年と 2014 年に同じ植物ベースの C. デスティコーラの茎サンプルをそれぞれ収集しました。ペアエンド RNA-seq ライブラリーを構築するために、トータル RNA を抽出し、ポリ A+ RNA を精製しました。 Illumina HiSeq 2000 シーケンスを使用して、約 80 億塩基と 86 億塩基の配列に相当する 79,433,734 個と 86,019,176 個のペアエンドリードが得られました。

2013- 年と 2014- 年のサンプルでのプラットフォームの比較（表 1）。アダプター配列を削除し、低品質のリードをフィルタリングした後（方法の詳細を参照）、2013- 年のサンプル内の 64,831,040 個の高品質のペアエンドリードが de novo トランスクリプトームアセンブリに使用されました。 Trinity シーケンスアセンブラー [30] を使用して、51,719 個の遺伝子と 95,787 個の転写物配列が、200 bp から 15,698 bp の範囲の転写物長で生成されました。組み立てられた転写産物の平均長は 950 塩基で、N50 の長さは 1,519 塩基です。異なる長さの転写物の数から、組み立てられた転写物の 57.32% が約 500 bp 以上であることが明らかになりました (図 1A)。 2014- 年のサンプルにおける高品質のペアエンドリードが、組み立てられたトランスクリプトームにマッピングされました。さらに、組み立てられた各遺伝子の転写物の数が異なり、1 つのアイソフォームを持つ遺伝子の 69% が発現する一方、遺伝子の 31% が 2 つ以上の転写物を発現することもわかりました (図 1B)。

組み立てられた転写産物の発現定量化と機能的アノテーション

遺伝子または転写物の存在量は、RSEM パッケージを使用して定量化されました。RSEM パッケージでは、配列決定されたリードが Bowtie を使用して組み立てられた遺伝子または転写物の配列に再アラインメントされ、それらのマッピングされたリードが定量化に使用されました。各遺伝子または転写産物の FPKM 値が計算され、最終的に、2 つの C.deserticola 肉質茎サンプルで 63,957 個と 52,857 個の活性発現転写物 (FPKM 値が 0.5 以上) を同定しました。{{17}それぞれ }13 年と 2014 年。 44,776 個の転写産物 (2013- 年のサンプルで 70.01%、2014- 年のサンプルで 84.71%) が 2 回の反復で共通に発現され、それらの発現データの相関関係 (ピアソン相関係数: 0.91979) は次のとおりでした。 S1 図に示されています。シーケンスの生データは NCBI SRA データベースにアップロードされていました (アクセッション番号: SRX857402 および SRX858938)。私たちはさらなる分析のために、2013-年のサンプルで特定された発現遺伝子を使用しました。発現されたすべての転写産物の機能的アノテーション情報は、2 つの方法を使用して取得されました。まず、発現したすべての転写物を、BLAST アルゴリズムによって、既知のヌクレオチド (GenBank nt) およびペプチド配列データベース (GenBank nr およびシロイヌナズナペプチド) に個別にアラインメントしました。 63,957 個の発現転写産物のうち、

29,220 (45.7%) に注釈が付けられ、E 値カットオフ 1e-20 を持つ 3 つの対象データベースのいずれかの配列と相同性を示しました。一方、発現されたすべての転写産物配列の候補コーディング領域は、TransDecoder ソフトウェアを使用して予測され、各転写産物の最長の ORF が Pfam ドメイン検索に使用されました。その結果、21,358 (33.4%) の転写産物に Pfam データベースに基づいて注釈が付けられました。全体として、上記 2 つの方法を組み合わせることにより、30,098 (47.1%) の転写産物が公共データベース内の既知の遺伝子と有意に一致しました。機能注釈付きの完全な発現転写物リストは補足データ (S2 データセット) に示されています。

すべてのシーケンシングリードの 18.99% に相当する、最も発現量の高い上位 20 個の転写産物 (表 2) を調査したところ、それらのほとんどが非生物的反応に応答する遺伝子であることがわかりました。

ストレスの刺激。デヒドリン (DHN) は、グループ II 後期胚形成豊富 (LEA) ファミリーに属する、多数の荷電アミノ酸を含む親水性および熱安定性ストレスタンパク質のクラスであり、最も高度に発現される遺伝子です。 3 つの異なるデヒリン転写物（comp{0}}c0_seq1/2/4）が多肉質の茎で高発現していることが検出され、乾燥ストレスによる損傷から細胞を保護することに関与している可能性があります。熱ショックタンパク質、病原体関連タンパク質、メタロチオネインなどの他のストレス関連遺伝子も高発現していることが判明しており、これはその厳しい生存環境に関連している可能性があります。さらに、26S リボソーム RNA 遺伝子 (comp22329_c2_seq1)、オーキシン抑制/休眠関連タンパク質 (comp20999_c0_seq1) などのいくつかの構成遺伝子、 ADP リボシル化因子 (comp20499_ c0_seq1) も高度に転写されました。

Cistanche tubulosa extract

免疫力向上のための天然シスタンケチューブローサ PHGS75% ECH 30% ACT 12%

カンカ (Rou Cong-Rong): 伝統的な中国医学の最高の医薬品の 1 つ

カンカチューブローサⅢ由来スクロース合成酵素の遺伝子クローニング、機能同定、構造および発現解析

カンクイの多肉茎-Ⅰのトランスクリプトームアセンブリと遺伝子発見

背景

結果

結論

導入