Inferenza diretta e controllo della struttura della popolazione genetica dai dati di sequenziamento dell'RNA

Biologia delle comunicazioni volume 6, numero articolo: 804 (2023) Citare questo articolo

10 Altmetrico

Dettagli sulle metriche

I dati RNAseq possono essere utilizzati per dedurre varianti genetiche, ma il loro utilizzo per stimare la struttura genetica della popolazione rimane sottoesplorato. Qui, costruiamo uno strumento computazionale liberamente disponibile (RGStraP) per stimare i principali componenti genetici basati su RNAseq (RG-PC) e valutare se gli RG-PC possono essere utilizzati per controllare la struttura della popolazione nelle analisi dell'espressione genica. Utilizzando campioni di sangue intero provenienti da popolazioni nepalesi poco studiate e lo studio Geuvadis, mostriamo che gli RG-PC hanno avuto risultati paragonabili a genotipi basati su array accoppiati, con elevata concordanza genotipica e alte correlazioni dei principali componenti genetici, catturando sottopopolazioni all'interno del set di dati. Nell'analisi differenziale dell'espressione genica, abbiamo scoperto che l'inclusione di RG-PC come covariate riduceva l'inflazione statistica del test. Il nostro articolo dimostra che la struttura della popolazione genetica può essere dedotta e controllata direttamente per l'utilizzo dei dati RNAseq, facilitando così migliori analisi retrospettive e future dei dati trascrittomici.

Il sequenziamento dell'RNA (RNAseq) ha rivoluzionato la nostra comprensione del trascrittoma, offrendo sia un metodo di quantificazione accurato per l'espressione genica, sia l'identificazione di specifici siti di splicing alternativi e trascrizioni specifiche del tipo di cellula1,2. La sua applicazione si estende al contesto clinico, consentendoci di chiarire ulteriormente malattie complesse e identificare potenziali biomarcatori sia nelle malattie trasmissibili che in quelle non trasmissibili3.

Tuttavia, gli studi che utilizzano RNAseq raramente considerano la variazione genetica della linea germinale contenuta anche nei set di lettura di RNAseq. Gli studi che non sfruttano queste informazioni possono essere vulnerabili a bias e confondimenti, come la stratificazione della popolazione, che può influenzare la trascrizione tra i gruppi4,5,6,7. Per superare questo problema, i ricercatori si sono generalmente affidati a dati WGS (genome-wide array o sequenza genomica intera) abbinati per gli stessi individui con RNAseq. Ciò consente ai ricercatori di implementare approcci per controllare la stratificazione della popolazione, come il calcolo dei componenti principali genetici (PC) e il loro utilizzo come covariate nei successivi modelli di associazione statistica8,9,10. Si ritiene che i PC genetici rappresentino la struttura genetica latente all'interno e tra le popolazioni, che introduce confusione a causa delle differenze nell'ambiente sociale11 o (nel caso dell'espressione genica differenziale) a causa dell'eterogeneità dei loci dei tratti quantitativi tra i gruppi. Tuttavia, la necessità di un genome-wide array o di un WGS da abbinare ai dati RNAseq è potenzialmente non necessaria e in effetti potrebbe non essere possibile in contesti in cui le risorse sono limitate, come i paesi a reddito basso e medio basso (LMIC) con popolazioni altamente diversificate e poco studiate.

È stato dimostrato che le identificazioni del genotipo possono essere effettuate dai dati RNAseq utilizzando strumenti come GATK12,13,14. L'approccio che prevede l'utilizzo dei dati RNAseq per acquisire la struttura genetica è stato applicato per scopi zootecnici e agricoli15,16,17,18, ad esempio per studiare la struttura della popolazione, la storia e l'adattamento dell'orzo domestico (Hordeum vulgare)17. Sebbene sia stata dimostrata la prova di concetto e la successiva utilità dei genotipi basati su RNAseq, ad esempio per le varianti tessuto-specifiche19, la sua applicazione per dedurre la struttura della popolazione umana è promettente ma rimane relativamente sottoesplorata20.

Gli obiettivi di questo studio sono (i) dimostrare che i genotipi basati su RNAseq possono catturare la struttura della popolazione genetica di una popolazione umana diversificata ma poco studiata e (ii) mostrare che l'uso di componenti principali genetici basati su RNAseq (RG-PC) può controllare efficacemente la struttura della popolazione nell'analisi associativa. Qui, abbiamo reclutato e generato dati RNAseq del sangue intero di 376 individui provenienti dal Nepal, un paese senza sbocco sul mare situato nell'Himalaya con oltre 125 gruppi etnici21,22. Abbiamo sviluppato una pipeline di analisi RNAseq (RGStraP) per calcolare i principali componenti genetici direttamente dai dati RNAseq, quindi abbiamo convalidato le prestazioni di RGStraP con dati genotipici su tutto il genoma degli stessi individui nepalesi. Abbiamo anche testato la pipeline su campioni del consorzio Geuvadis, che contiene 465 campioni con dati genotipo-RNAseq accoppiati provenienti da cinque delle 1000 popolazioni di genomi23. Infine, mostriamo la validità dell'aggiustamento per RG-PC in un'analisi di associazione per identificare l'espressione genica specifica del sesso. Nel complesso, il nostro studio stabilisce che la struttura della popolazione umana, in particolare da una popolazione poco studiata ma diversificata, può essere efficacemente catturata e controllata direttamente utilizzando i dati RNAseq.

0.05 and a pairwise LD threshold of r2 < 0.05 struck the optimal balance of offering the most variants for analysis and the highest correlation between RNAseq- and array-based genetic PCs (Supplementary Fig. 2). From the total of 4,921,472 genetic variants, 152,072 SNPs passed the MAF filter (MAF > 0.05), and 36,440 SNPs further passed the LD filter (LD < 0.05). Genetic variants from paired genomic data are available for 299 out of the initial 376 individuals; a total of 552,758 SNPs were identified and passed initial quality control filters (Methods), of which 315,615 SNPs and 29,943 SNPs then passed MAF > 0.05 and further LD < 0.05 filters, respectively. Out of the 299 samples with both RNAseq and paired array genotypes, 280 of them passed quality control and were used for further downstream analyses./p>0.90 concordances. b Canonical correlation analysis between ten RG-PCs and ten array PCs showed significant (Wilks’ Lambda, p-value < 0.05) correlations for the first 7 canonical variates (CVs) between the two sets. The first 3 CVs from 10 RG-PCs strongly captured the genetic information from array PCs (Rc1 = 0.946, Rc2 = 0.864, Rc3 = 0.853), in which the cumulative proportion of shared variance between the two sets reached up to 0.956 from just the 3 CVs./p> 0.05) variants, of which 4887 passed the LD filter (LD < 0.05) and were used to calculate RG-PCs. We also calculated genetic PCs from the 29,943 paired genotype array SNPs as a measure of true genetic structure to be compared against RG-PCs. To assess the consistency of inferred population structure between the two approaches, we calculated Spearman correlation between genetic PCs from paired genotype array SNPs and the RG-PCs. PC1 of both RNAseq and array sets correlated strongly with each other (|ρ| = 0.93), followed by RG-PC3 and PC2 from array data (|ρ| = 0.61) and RG-PC2 and PC3 from array data (|ρ| = 0.6) (Supplementary Fig. 4). As expected, the genetic PCs of one approach do not exclusively correspond to only one PC of the other approach, as can be seen with significant correlations of a single array PC with several RG-PCs. To investigate this further, we performed canonical correlation analysis between the top 10 array PCs and the RG-PCs and found that the RG-PCs fully explained the variance of the top 10 array PCs (Fig. 2b)./p> 0.05) to account for differences in sequencing depths. Only autosomal genes were included in the analyses./p> 1) in the set without considering genetic PCs, and the number decreased to 3 when including either array or RG-PCs. This demonstrates how RG-PCs control for population stratification in downstream RNAseq analysis similar to the genetic PCs calculated from paired array genotypes, reducing significant associations that reflected variations in population structure instead of the biology of interest./p>38.5 °C temperature or history of fever for >72 h. From the total blood sample volumes (≤16 mL for patients >16 years of age, ≤7 mL for ≤16 years), aliquots were subjected to (i) bacteriological culture to identify presence of Salmonella enterica serovars Typhi (S. Typhi); (ii) storage in PAXgene tubes for later RNA extraction; and (iii) DNA extraction and subsequent human genotyping. Blood was also collected from healthy participants in the serosurvey (≤8 mL for patients >16 years of age, ≤7 mL for ≤16 years), from which aliquots were also subjected to (i) serological analysis; (ii) PAXgene storage for RNA analysis; and (iii) DNA extraction./p> 0.05 in at least 20% of the samples from the analyses. Differential gene expression (DGE) analyses was done contrasting males and females using edgeR43,44, taking into account age, disease group, and sequencing batches; we ran the analyses with and without populations structure PCs as an additional covariate to then compare how genetic structure may stratify gene expression. From both results, we also plotted the Q-Q plot and calculated the systematic inflation (m), which is the ratio of the median of the empirically observed chi-squared test statistics (in our case, results of DGE analysis with RG-PCs) to the expected median chi-squared test statistics (results of DGE analysis without RG-PCs), to quantify the stratification due to population structure in gene expression data./p>