Inferenza diretta e controllo della struttura della popolazione genetica dai dati di sequenziamento dell'RNA
Biologia delle comunicazioni volume 6, numero articolo: 804 (2023) Citare questo articolo
10 Altmetrico
Dettagli sulle metriche
I dati RNAseq possono essere utilizzati per dedurre varianti genetiche, ma il loro utilizzo per stimare la struttura genetica della popolazione rimane sottoesplorato. Qui, costruiamo uno strumento computazionale liberamente disponibile (RGStraP) per stimare i principali componenti genetici basati su RNAseq (RG-PC) e valutare se gli RG-PC possono essere utilizzati per controllare la struttura della popolazione nelle analisi dell'espressione genica. Utilizzando campioni di sangue intero provenienti da popolazioni nepalesi poco studiate e lo studio Geuvadis, mostriamo che gli RG-PC hanno avuto risultati paragonabili a genotipi basati su array accoppiati, con elevata concordanza genotipica e alte correlazioni dei principali componenti genetici, catturando sottopopolazioni all'interno del set di dati. Nell'analisi differenziale dell'espressione genica, abbiamo scoperto che l'inclusione di RG-PC come covariate riduceva l'inflazione statistica del test. Il nostro articolo dimostra che la struttura della popolazione genetica può essere dedotta e controllata direttamente per l'utilizzo dei dati RNAseq, facilitando così migliori analisi retrospettive e future dei dati trascrittomici.
Il sequenziamento dell'RNA (RNAseq) ha rivoluzionato la nostra comprensione del trascrittoma, offrendo sia un metodo di quantificazione accurato per l'espressione genica, sia l'identificazione di specifici siti di splicing alternativi e trascrizioni specifiche del tipo di cellula1,2. La sua applicazione si estende al contesto clinico, consentendoci di chiarire ulteriormente malattie complesse e identificare potenziali biomarcatori sia nelle malattie trasmissibili che in quelle non trasmissibili3.
Tuttavia, gli studi che utilizzano RNAseq raramente considerano la variazione genetica della linea germinale contenuta anche nei set di lettura di RNAseq. Gli studi che non sfruttano queste informazioni possono essere vulnerabili a bias e confondimenti, come la stratificazione della popolazione, che può influenzare la trascrizione tra i gruppi4,5,6,7. Per superare questo problema, i ricercatori si sono generalmente affidati a dati WGS (genome-wide array o sequenza genomica intera) abbinati per gli stessi individui con RNAseq. Ciò consente ai ricercatori di implementare approcci per controllare la stratificazione della popolazione, come il calcolo dei componenti principali genetici (PC) e il loro utilizzo come covariate nei successivi modelli di associazione statistica8,9,10. Si ritiene che i PC genetici rappresentino la struttura genetica latente all'interno e tra le popolazioni, che introduce confusione a causa delle differenze nell'ambiente sociale11 o (nel caso dell'espressione genica differenziale) a causa dell'eterogeneità dei loci dei tratti quantitativi tra i gruppi. Tuttavia, la necessità di un genome-wide array o di un WGS da abbinare ai dati RNAseq è potenzialmente non necessaria e in effetti potrebbe non essere possibile in contesti in cui le risorse sono limitate, come i paesi a reddito basso e medio basso (LMIC) con popolazioni altamente diversificate e poco studiate.
È stato dimostrato che le identificazioni del genotipo possono essere effettuate dai dati RNAseq utilizzando strumenti come GATK12,13,14. L'approccio che prevede l'utilizzo dei dati RNAseq per acquisire la struttura genetica è stato applicato per scopi zootecnici e agricoli15,16,17,18, ad esempio per studiare la struttura della popolazione, la storia e l'adattamento dell'orzo domestico (Hordeum vulgare)17. Sebbene sia stata dimostrata la prova di concetto e la successiva utilità dei genotipi basati su RNAseq, ad esempio per le varianti tessuto-specifiche19, la sua applicazione per dedurre la struttura della popolazione umana è promettente ma rimane relativamente sottoesplorata20.
Gli obiettivi di questo studio sono (i) dimostrare che i genotipi basati su RNAseq possono catturare la struttura della popolazione genetica di una popolazione umana diversificata ma poco studiata e (ii) mostrare che l'uso di componenti principali genetici basati su RNAseq (RG-PC) può controllare efficacemente la struttura della popolazione nell'analisi associativa. Qui, abbiamo reclutato e generato dati RNAseq del sangue intero di 376 individui provenienti dal Nepal, un paese senza sbocco sul mare situato nell'Himalaya con oltre 125 gruppi etnici21,22. Abbiamo sviluppato una pipeline di analisi RNAseq (RGStraP) per calcolare i principali componenti genetici direttamente dai dati RNAseq, quindi abbiamo convalidato le prestazioni di RGStraP con dati genotipici su tutto il genoma degli stessi individui nepalesi. Abbiamo anche testato la pipeline su campioni del consorzio Geuvadis, che contiene 465 campioni con dati genotipo-RNAseq accoppiati provenienti da cinque delle 1000 popolazioni di genomi23. Infine, mostriamo la validità dell'aggiustamento per RG-PC in un'analisi di associazione per identificare l'espressione genica specifica del sesso. Nel complesso, il nostro studio stabilisce che la struttura della popolazione umana, in particolare da una popolazione poco studiata ma diversificata, può essere efficacemente catturata e controllata direttamente utilizzando i dati RNAseq.