Title (eng)

Improvement of statistical methods used in population genetics

Advisor

Andreas Futschik

Christian Schlötterer

Claus Vogl

Author

Kerstin Spitzer

Description (eng)

Dissertation - University of Veterinary Medicine Vienna - 2020

Description (eng)

The aim of the present thesis is to improve statistical methods applied in population ge- netics. It is based on two research projects.
In the first project, the estimation of the population recombination rate from DNA se- quence data is improved. The population recombination rate is a frequently used parameter in population genetic models. Accurate estimates of it are difficult to obtain, as not all recombination events leave traces in the DNA sequence. Several estimation methods for the population recombination rate are composite likelihood approaches. In this thesis, it is shown that two popular implementations of composite likelihood estimators can be improved, often uniformly, by optimizing the trade-off between bias and variance. The amount of achievable improvement depends on parameters such as the sample size, the mutation rate, and the sequence length. Further, an approach based on approximate Bayesian computation is applied, with a composite likelihood statistic as a summary statistic, leading to improved estimates in terms of the posterior risk. Finally, the first method is applied to real data from the fruit fly Drosophila.
The aim of the second project is to improve the inference of loci under selection from DNA sequence data obtained through evolve and resequence experiments. These experiments are a popular method for simulating evolution and exploring its genetic basis. The de- tection of positions in the genome that experience temporal changes in allele frequencies is frequently carried out by applying Pearson’s chi-square test, Fisher’s exact test, or the Cochran-Mantel-Haenszel test. Temporal changes in the allele frequencies are considered as indicators for selection.
However, the classical tests face overdispersion, as genetic drift and possibly other noise components, like pool sequencing, can lead to a larger variance in the data than accounted for by the test statistics. This results in p-values that are systematically too small. Even the ranking of the p-values is often incorrect, as the amount of overdispersion varies between loci. When applying these tests, overdispersion is often addressed by calculating a modi- fied rejection cutoff, using computer simulations. In this thesis, adjusted test statistics are derived instead, which directly incorporate the additional null variance. This approach results in considerably greater power. At the same time, the adjusted test statistics can be computed much more quickly than the results of more sophisticated methods for detect- ing selection with a similar power. In addition, it is investigated how information from intermediate generations can be included, if available, and a practical application of the adapted tests to real data from Drosophila is demonstrated. The derived test statistics are not limited to the context of evolve and resequence experi- ments. They may also be useful in other areas of population genetics, such as genome-wide association studies from pool sequencing data, and even in situations of overdispersion outside the field of population genetics, provided that the null variance can be properly
estimated.

Description (deu)

Dissertation - Veterinärmedizinische Universität Wien - 2020

Description (deu)

Ziel der vorliegenden Arbeit ist es, statistische Methoden zu verbessern, die in der Populationsgenetik angewendet werden. Die Grundlage hierfür bilden zwei Forschungsprojekte.
Im ersten Projekt wird die Schätzung der Populationsrekombinationsrate auf Basis von DNA-Sequenz-Daten verbessert. Die Populationsrekombinationsrate ist ein in popu- lationsgenetischen Modellen häufig benutzter Parameter. Sie genau zu schätzen ist allerdings schwierig, da nicht alle Rekombinationsereignisse Spuren in der DNA-Sequenz hinterlassen. Viele Schätzverfahren für die Populationsrekombinationsrate sind Composite- Likelihood-Methoden. In dieser Arbeit wird gezeigt, dass zwei häufig verwendete Im- plementierungen von Composite-Likelihood-Schätzern verbessert werden können – und zwar oft gleichmäßig – indem die Abwägung zwischen Bias und Varianz optimiert wird. Das Ausmaß der möglichen Verbesserung ist dabei von Parametern wie Anzahl der se- quenzierten Individuen, Mutationsrate und Sequenzlänge abhängig. Zusätzlich wird eine Methode verwendet, die auf Approximate Bayesian Computation beruht und Composite- Likelihood-Schätzer als zusammenfassende Statistik nutzt. Auf diese Weise erhält man verbesserte Schätzer, die ein kleineres A-posteriori-Risiko aufweisen. Abschließend wird die erste Methode auf echte Daten der Fruchtfliege Drosophila angewendet.
Das zweite Projekt hat zum Ziel, die Bestimmung von Loci, an denen Selektion stattfindet, anhand von DNA-Sequenz-Daten aus Evolve-and-Resequence-Experimenten zu verbessern. Diese Experimente sind eine weit verbreitete Methode, um Evolution zu simulieren und ihre genetischen Grundlagen zu erforschen. Oft werden der Chi-Quadrat-Test nach Pear- son, der Exakte Fisher-Test oder der Cochran-Mantel-Haenszel-Test genutzt, um Stellen im Genom zu finden, an denen sich die Allel-Frequenzen im Laufe der Zeit systematisch verändern. Diese Veränderungen nimmt man als Indikator für Selektion.
Allerdings liegt für diese Tests Überdispersion vor, da genetische Drift und andere mögliche Störkomponenten, wie z.B. Pool-Sequenzierung, zu größerer Varianz führen, als in den Teststatistiken berücksichtigt ist. Die daraus resultierenden p-Werte sind somit systematisch zu klein. Auch die Reihenfolge der p-Werte nach Größe sortiert ist oft nicht korrekt, da das Ausmaß an Überdispersion von Locus zu Locus verschieden ist. Wenn die klassischen Tests verwendet werden, wird die Überdispersion häufig berücksichtigt, indem mittels Computersimulationen ein modifizierter Abschneidewert bestimmt wird. In dieser Arbeit werden dagegen angepasste Teststatistiken hergeleitet, die die zusätzliche Null-Varianz direkt miteinbeziehen, wodurch wird eine deutlich größere Power erreicht wird. Gleichzeitig können die angepassten Teststatistiken viel schneller berechnet werden als die Ergebnisse komplexerer Methoden, die eine ähnliche Power erzielen. Des Weit- eren wird untersucht, wie Informationen von Zwischengenerationen, sofern verfügbar, berücksichtigt werden können. Die entwickelten Methoden werden dann auf echte Daten von Drosophila angewendet. Die angepassten Teststatistiken sind nicht auf den Kontext von Evolve-and-Resequence- Experimenten beschränkt. Sie können auch in anderen Bereichen der Populationsgenetik, z.B. bei genomweiten Assoziationsstudien mit Pool-Sequenzierungsdaten, nützlich sein sowie auch außerhalb der Populationsgenetik in Situationen mit Überdispersion, was jedoch eine geeignete Schätzung der Null-Varianz voraussetzt.

Object languages

English

Date

2020

Rights

© All rights reserved

Member of the Collection(s) (1)

o:72 Theses / University of Veterinary Medicine Vienna

Identifiers