Montagem do transcriptoma De Novo baseado em RNA-Seq e descoberta do gene de Cistanche Deserticola Fleshy Stem-Ⅰ

Jul 26, 2024

Planos de fundo

Cistanche deserticola é uma planta parasita totalmente não fotossintética, com grande valor medicinal e distribuída principalmente no deserto do noroeste da China. Seu caule carnudo e seco é um tônico crucial namedicina tradicional chinesacom funções principalmente de melhorar a função sexual masculina e fortalecer a imunidade, mas poucos estudos mecanicistas foram conduzidos, em parte devido à falta de recursos genômicos e transcriptômicos.

Natural cistanche tubulosa

CISTANCHE TUBULOSA NATURAL MEDICINA TRADICIONAL CHINESA PHGS75% ECH 30% ACT 12%

Resultados

Neste estudo, realizamos sequenciamento profundo do transcriptoma no caule carnudo de C. deserticola, e cerca de 80 milhões de leituras foram geradas usando o sequenciamento de pares Illumina na plataforma HiSeq2000. Utilizando o montador trindade, obtivemos 95.787 sequências transcritas com comprimentos de transcritos variando de 200 pb a 15.698 pb, com comprimento médio de 950 bases e comprimento N50 de 1.519 bases. 63.957 transcritos foram identificados como expressos ativamente com FPKM maior ou igual a 0,5, nos quais 30.098 transcritos foram anotados com descrições de genes ou termos de ontologia genética por análises de similaridade de sequência em vários bancos de dados públicos (Uniprot, NR e Nt no NCBI e KEGG) . Além disso, identificamos genes enzimáticos chave envolvidos na biossíntese de lignina e glicosídeos feniletanóides (PhGs), que são conhecidos por serem os principais ingredientes ativos. Quatro genes de fenilalanina amônia-liase (PAL), a primeira enzima chave na biossíntese de lignina e PhG, foram identificados com base na comparação de sequências e análise filogenética. Duas vias de biossíntese de PhGs também foram propostas pela primeira vez.

Conclusões

Ao todo, concluímos uma análise global do transcriptoma do caule carnudo de C. deserticola usando tecnologia RNA-seq. Uma coleção de genes enzimáticos relacionados à biossíntese de lignina e glicosídeos feniletanóides foram identificados a partir dos transcritos montados e anotados, e a família de genes PAL também foi prevista. Os dados de sequência deste estudo fornecerão um recurso valioso para a condução de futuras pesquisas de biossíntese de glicosídeos feniletanóides e estudos genômicos funcionais nesta importante planta medicinal.

Introdução

C. deserticola é um gênero mundial de plantas perenes do deserto da família Orobanchaceae e é uma espécie completamente não fotossintética e geralmente cresce como planta holoparasita subterrânea. É parasitado nas raízes da psamófita Haloxylon ammodendron (Chenopodiaceae), que habita principalmente desertos e semidesertos devido à sua alta tolerância à seca e à salinidade. C. deserticola apresenta forte resistência a condições ambientais adversas e é distribuída principalmente no noroeste da China, especialmente na Mongólia Interior, Gansu e Xinjiang. É considerada uma espécie selvagem ameaçada de extinção nos últimos anos devido ao aumento do consumo por humanos. C. deserticola, frequentemente chamada de ginseng do deserto, é comumente conhecida como vassoura do deserto e o caule carnudo e seco tem sido amplamente usado como um tônico tradicionalmente importante na China e no Japão há muitos anos. Foi inicialmente registrado no Shen Nong Ben Cao Jing (Dicionário de Matéria Médica Chinesa, 1977) há aproximadamente 1.800 anos e foi considerado uma das principais fontes doErva medicinal chinesa Cistanche.

Chinese cistanche tubulosa

CISTANCHE TUBULOSA NATURAL PARA MELHORAR A FUNÇÃO SEXUAL PHGS75% ECH 30% ACT 12%

Os extratos de C. deserticola possuem uma ampla gama de funções medicinais, especialmente para uso na melhoria da função sexual, tonificação dos rins, proteção do fígado, atividade aperiente, melhora da memória, atividade imunomoduladora, atividade antioxidante, atividade antiinflamatória, atividade antiviral, etc. os principais componentes bioativos de C. deserticola são os glicosídeos feniletanóides (PheGs, PhGs). Até o momento, mais de 20 glicosídeos feniletanóides foram isolados do caule suculento de C.deserticola. Entre eles,acteosídeo e equinacosídeosão dois componentes principais com atividades farmacológicas significativas e estão documentados como os padrões de qualidade de C. deserticola na farmacopeia chinesa (edições de 2005 e 2010). Três componentes químicos dos PhGs são ácido orgânico, sacarídeo e feniletanóide, no entanto, os detalhes relativos às vias biossintéticas dos feniletanóides permanecem pouco compreendidos em C.deserticola.

Apesar da importância comercial e medicinal de C.deserticola, os dados genômicos e transcriptômicos desta espécie são muito limitados. Não há ESTs disponíveis no banco de dados do NCBI e a informação completa do genoma desta espécie permanece indisponível, exceto para a sequência do genoma do cloroplasto. Os dados transcriptômicos limitados dificultam o estudo dos mecanismos biossintéticos do PhG. A tecnologia RNA-seq pode gerar sequências das partes expressas do genoma alvo e identificar genes [18] usando as plataformas de tecnologia NGS (como Applied Biosystems SOLiD, Illumina HiSeq e Roche 454). Está se tornando cada vez mais popular na montagem de novo do transcriptoma, uma vez que é uma abordagem econômica e poderosa, com alta resolução e ampla faixa dinâmica, especialmente porque tem a vantagem de explorar transcrições de baixa abundância. Devido às várias vantagens, o RNA-seq é especificamente atraente para organismos não modelo com recursos genéticos limitados. No entanto, não há pesquisas detalhadas sobre o transcriptoma de C. deserticola por RNA-seq.

Neste estudo, sequenciamos globalmente o transcriptoma do caule para C. deserticola usando a plataforma Illumina Hiseq2000 e obtivemos dados brutos de 7,9G. Por montagem e anotação, extraímos os genes envolvidos na biossíntese de PhG e os genes responsáveis ​​por toda a biossíntese de lignina. Nossa análise de RNA-seq gerou o primeiro transcriptoma de consenso de C. deserticola e forneceu novos insights sobre uma compreensão abrangente do valor medicinal de C. deserticola. Além disso, o método aqui descrito pode ser amplamente aplicado ao perfil de transcriptomas para facilitar a descoberta de genes envolvidos em vias específicas de biossíntese de componentes medicinais em outra planta medicinal com recursos genômicos muito limitados.

Materiais e métodos

Coleta de material vegetal

O caule suculento fresco de C. deserticola na fase de escavação foi coletado de uma base vegetal na cidade de BayanHot da Liga Alxa, na Mongólia Interior, no noroeste da China. A licença de coleta foi obtida do proprietário (Grupo HongKui CongRong) da base da planta. O espécime do voucher foi depositado no Core Genomic Facility do Instituto de Genômica de Pequim, Academia Chinesa de Ciências. Após a limpeza, os suculentos tecidos do caule foram cortados em pequenos pedaços e imediatamente congelados em nitrogênio líquido e armazenados a -80 grau até processamento posterior.

Extração de RNA, construção de biblioteca de cDNA e sequenciamento Illumina

O RNA total foi extraído do caule suculento usando o reagente TRIzol (Invitrogen Inc., Califórnia, EUA) de acordo com as instruções do fabricante. As amostras resultantes foram tratadas com DNase I para remover qualquer DNA genômico. Os RNAs extraídos foram quantificados usando um bioanalisador Agilent 2100 (Agilent Technologies) e verificados quanto à integridade usando eletroforese em gel de agarose desnaturante com coloração com brometo de etídio. Amostras de RNA com proporções A260/A280 entre 1,9 e 2,1, proporções RNA 28S:18S superiores a 1,0 e números de integridade de RNA (RINs) -8.5 foram usadas em análises subsequentes.

As bibliotecas de RNA-seq foram geradas usando kits de preparação de amostras de RNA Illumina Truseq. O ARN Poli(A)+ foi isolado a partir de ARN total utilizando esferas Dynal liga(dT)25 de acordo com as instruções do fabricante. Após a purificação, foi adicionado um tampão de fragmentação para quebrar o ARNm em fragmentos curtos. O ADNc da primeira cadeia foi sintetizado utilizando estes fragmentos curtos como modelos, juntamente com a transcriptase reversa SuperScript III e o iniciador hexâmero aleatório N6. O cDNA de segunda fita foi então sintetizado usando tampão, dNTPs, RNaseH e DNA polimerase I. O cDNA de fita dupla resultante foi submetido ao reparo final usando DNA polimerase de T4, fragmento Klenow de DNA polimerase I e polinucleotídeo quinase de T4, e ligado a adaptadores usando T4 DNA ligase. Os fragmentos ligados ao adaptador foram purificados utilizando um kit de extração QiaQuick PCR e eluídos com tampão EB. Após análise utilizando eletroforese em gel de agarose, fragmentos adequados foram selecionados como modelos para amplificação por PCR. O sequenciamento da biblioteca de cDNA resultante foi realizado com um sistema Illumina HiSeq 2000.

Transcrições de montagem de novo e quantificação de expressão gênica

As leituras brutas geradas a partir do sequenciamento foram limpas removendo as sequências adaptadoras (ATCTCGTATGCCGTC) usando um método interno. Em seguida, realizamos um rigoroso processo de filtragem de baixa qualidade. Primeiramente, bases com índice de qualidade phred inferior a 20 seriam cortadas a partir do final 3' da sequência, até encontrar uma base com qualidade superior (maior ou igual a 20). Se o comprimento da leitura fosse menor que 50bp, ele seria descartado. Em segundo lugar, as leituras serão filtradas ainda mais pelo critério de que 70% das bases em uma leitura tenham pontuações de alta qualidade (maior ou igual a 20). Em terceiro lugar, apenas leituras emparelhadas foram usadas para montagem adicional. A montagem da transcrição de novo foi conduzida usando a versão Trinity_20130216 [30], que consistia em três módulos de software sucessivos: Inchworm, Chrysalis e Butterfly. Os parâmetros de montagem foram definidos conforme abaixo: -seqType fq-JM 300G -min_contig_comprimento 200-CPU 20-inchworm_cpu {{21} } bflyCPU 20.

Para quantificar a abundância de transcritos, as leituras sequenciadas dos pares foram realinhadas às transcrições montadas usando um script em Trinity. As leituras mapeadas foram utilizadas para quantificação pelo software RSEM (RNA-Seq by Expectation Maximization). A abundância de genes ou isoformas foi representada pelo valor de fragmento por quilobase de transcrito por milhão de fragmentos mapeados (FPKM), aqueles transcritos com valor de FPKM igual ou maior que 0,05 foram definidos como expressos.

Anotação funcional de transcrições expressas

Não existem conjuntos de anotações genéticas de C. deserticola, exceto para o genoma do cloroplasto [1]. Anotamos as transcrições expressas comparando-as com os conjuntos de dados atualizados do Genbank Nt, Genbank Nr e TAIR10_ pep_20101214_separadamente usando o programa BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Gene Ontology e anotação da via KEGG Por alinhamento de similaridade de sequência com o banco de dados Uniprot (a anotação Gene Ontology (GO) de todas as transcrições montadas foi obtida usando um arquivo de associação baixado de (ftp://ftp.ebi.ac.uk/pub/ databases/GO/goa/UNIPROT/gene_association. goa_uniprot.gz). O agrupamento de termos GO de genes expressos foi conduzido usando scripts personalizados e anotamos os genes no quarto nível para o. Categorias CC, BP ​​e MF separadamente.

As informações da via KEGG foram atribuídas para todas as sequências de proteínas previstas usando a ferramenta online KAAS (KEGG Automatic Annotation Server) [34]. Sequências em formato fasta foram submetidas a solicitação do KAAS, e os arquivos resultantes de todas as informações das vias relacionadas ao transcriptoma do caule de C. deserticola foram baixados. 13 conjuntos de dados genéticos de organismos vegetais em KEGG foram usados ​​para anotação usando o método BBH (melhor sucesso bidirecional).

cistanche tubulosa extract

EXTRATO NATURAL DE CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%

Análise RT-qPCR

Após digestão com DNase I, aproximadamente 5 µg de RNA total foram convertidos em cDNA de primeira cadeia através da reação de transcrição reversa com iniciadores oligo (dT) 15 e Sistema de Transcrição Reversa GoScript (Promega). Os produtos de cDNA foram então diluídos 10- vezes com água deionizada sem nuclease antes de serem usados ​​como modelo em PCR em tempo real. Os cDNAs específicos foram amplificados pelo sistema GoTaq 2-Step RT-qPCR (Promega) em um volume de 20 ul. A amplificação por PCR foi realizada à temperatura de recozimento de 60 graus com o Sistema de Detecção de PCR em Tempo Real 7500 (Applied Biosystems) de acordo com as instruções do fabricante. As abundâncias relativas de transcritos foram calculadas pelo método de limite de ciclo comparativo com o gene "comp10579_c0" como padrão interno, usando o software 7500 Manager.

Os pares de primers para RT-PCR foram projetados com base em software online (//primer3.ut.ee/) e estão listados no conjunto de dados S1.

Resultados

Sequenciamento de RNA e montagem do transcriptoma de novo do caule carnudo de C. deserticola

O caule de C. deserticola tem sido amplamente utilizado como um tônico tradicionalmente importante na China e no Japão há muitos anos. Para obter uma visão global da expressão gênica no caule carnudo de C. deserticola, coletamos amostras de caule de C. deserticola da mesma base vegetal em 2013 e 2014, respectivamente. Os RNAs totais foram extraídos e os RNAs poliA+ foram purificados para a construção de bibliotecas de RNA-seq de extremidade emparelhada. 79.433.734 e 86.019.176 leituras de pares correspondentes a quase 8 bilhões e 8,6 bilhões de bases da sequência foram obtidas usando o sequenciamento Illumina HiSeq 2000

image

plataforma em amostras de 2013-ano e 2014-ano (Tabela 1). Depois de remover sequências de adaptadores e filtrar leituras de baixa qualidade (veja detalhes em Métodos), 64.831.040 leituras de pares de alta qualidade na amostra de 2013-ano foram usadas para montagem de novo transcriptoma. Usando o montador de sequências Trinity [30], 51.719 genes e 95.787 sequências transcritas foram geradas com comprimentos de transcritos variando de 200 pb a 15.698 pb. O comprimento médio das transcrições montadas é de 950 bases e o comprimento do N50 é de 1.519 bases. O número de transcritos em diferentes comprimentos revelou que 57,32% dos transcritos montados tinham cerca de 500 pb ou mais (Fig. 1A). Leituras de pares de alta qualidade na amostra de 2014- anos foram mapeadas para o transcriptoma montado. Além disso, descobrimos que o número de transcritos para cada gene montado variou e 69% dos genes com uma isoforma expressa, enquanto 31% dos genes expressaram dois ou mais transcritos (Fig. 1B).

Quantificação de expressão e anotação funcional de transcrições montadas

A abundância de genes ou transcritos foi quantificada usando o pacote RSEM, no qual as leituras sequenciadas foram realinhadas aos genes montados ou sequências de transcritos usando Bowtie, e essas leituras mapeadas foram usadas para quantificação. O valor de FPKM para cada gene ou transcrito foi calculado e, finalmente, identificamos 63.957 e 52.857 transcritos expressos ativamente (valor de FPKM maior ou igual a 0.5) em amostras de caule carnudo de C. deserticola em 2{{17} }13 e 2014, respectivamente. 44.776 transcrições (70,01% na amostra de 2013-ano, 84,71% na amostra de 2014-ano) foram comumente expressas nas duas réplicas, e a correlação (coeficiente de correlação de Pearson: 0,91979) de seus dados de expressão foi mostrado na Fig. S1. Os dados brutos de sequenciamento foram carregados no banco de dados NCBI SRA (números de acesso: SRX857402 e SRX858938). Usamos genes expressos identificados na amostra de 2013-ano para análise posterior. As informações de anotação funcional para todas as transcrições expressas foram obtidas usando dois métodos. Primeiramente, todos os transcritos expressos foram alinhados a bancos de dados de sequências de nucleotídeos e peptídeos conhecidos (GenBank nr e Arabidopsis) separadamente pelo algoritmo BLAST. De 63.957 transcrições expressas,

image

29.220 (45,7%) foram anotados e mostraram homologia com sequências em qualquer um dos três bancos de dados de assuntos com valor de corte E 1e-20. Enquanto isso, as regiões de codificação candidatas para todas as sequências de transcrição expressas foram previstas usando o software TransDecoder, e as ORFs mais longas para cada transcrição foram usadas para a pesquisa do domínio Pfam. Como resultado, 21.358 (33,4%) transcrições foram anotadas com base na base de dados Pfam. No geral, 30.098 (47,1%) transcrições foram significativamente combinadas com genes conhecidos nos bancos de dados públicos, combinando os dois métodos acima. A lista completa de transcrições expressas com anotação de função foi mostrada em dados suplementares (S2 Dataset).

Pesquisamos as 20 transcrições mais expressas (Tabela 2), correspondendo a 18,99% de todas as leituras de sequenciamento, e descobrimos que a maioria delas são genes que respondem a alterações abióticas.

image

estímulo de estresse. A deidrina (DHNs), uma classe de proteínas de estresse hidrofílicas e termoestáveis ​​com um alto número de aminoácidos carregados que pertencem à família do Grupo II de Embriogênese Tardia Abundante (LEA), é o gene mais altamente expresso. Três transcritos diferentes de Dehyrin (comp28713_c0_seq1/2/4) foram detectados como altamente expressos em caules carnudos que podem estar envolvidos na proteção das células contra danos causados ​​pelo estresse hídrico. Outros genes relacionados ao estresse, como proteína de choque térmico, proteína relacionada a patógenos e metalotioneína, também foram altamente expressos, o que pode estar relacionado ao seu ambiente severo de sobrevivência. Além disso, alguns genes constitutivos, incluindo o gene de RNA ribossômico 26S (comp22329_c2_seq1), proteína reprimida por auxina/associada à dormência (comp20999_c0_seq1), O fator de ribosilação de ADP (comp20499_ c0_seq1) também foi altamente transcrito.

Cistanche tubulosa extract

CISTANCHE TUBULOSA NATURAL PARA MELHORAR A IMUNIDADE PHGS75% ECH 30% ACT 12%

drk-green-rounded-corner-button-buy-now-web


Você pode gostar também