Titelaufnahme

Titel
Computational approaches for quantifying proteins and posttranslational modifications from labeled mass spectrometry data / submitted by Florian Paul Breitwieser
VerfasserBreitwieser, Florian Paul
Begutachter / BegutachterinColinge, Jacques
Erschienen2014
Umfang170 Bl. : Ill., graph. Darst.
HochschulschriftWien, Med. Univ., Diss., 2014
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Bioinformatik / Proteomik / Biostatistik
Schlagwörter (EN)Bioinformatics / Proteomics / Biostatistics
URNurn:nbn:at:at-ubmuw:1-6696 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Computational approaches for quantifying proteins and posttranslational modifications from labeled mass spectrometry data [11 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Proteomische Technologien sind fundamental wichtige Werkzeuge der biologischen und medizinischen Forschung. Mit modernen Massenspektrometern können Forscher innerhalb von wenigen Stunden tausende Proteine in biologischen Proben detektieren und quantifizieren. Für die Protein-Quantifizierung werden isotop-kodierte Labels verwendet, mit denen die Proteine der jeweiligen Proben markiert werden können. Besonders populär sind die isobaren Methoden iTRAQ und TMT, mit welchen bis zu 10 Proben in einem Experiment verglichen werden können.

Die Daten von diesen Experimenten haben eine komplexe Struktur, sind hoch-dimensional und verrauscht. Obwohl die passende statistische Modellierung und effiziente Software essentiell für den Erfolg der Datenanalyse sind, gibt auf dem Bereich der quantitativen Proteomik wenig umfassende und offene bioinformatische Analyseframeworks. In dieser Arbeit wird deshalb ein bioinformatisches Softwarepaket und statistisches Rahmenwerk entwickelt, welche die Analyse von quantitativen proteomischen Daten ermöglichen und erleichtern.

Der erste Teil dieser Arbeit beschreibt statistische Modelle welche eine bessere Inferenz für quantitative proteomische Experimente ermöglichen; durch die Modellierung der technischen Variabilität mit einer intensitätsabhängigen Varianzfunktion und der biologischen Variabilität mittels einer endlastigen Verteilung. Die Leistungsfähigkeit dieser Methode wurde an speziell erzeugten Test-Datensätzen getested, welche gleichbleibende Hintergrundproteine und eingemischten Proteine in bekannten Konzentrationen beinhaltet. Mittels Resampling konnte demonstriert werden, das die Methode sowohl die Rate der falsch-positiv selektierten Proteine kontrolliert, als auch eine gute Performanz im selektieren echt positiver Proteine hat. An weiteren biologischen Datensätzen wurde weiters gezeigt, dass die Methode mit unterschiedlichen Massenspektrometern und Setups funktioniert.

Die Modelle wurden in einem neuartigen R-Softwarepaket namens isobar implementiert, welches Teil des Bioconductor-Projekt ist. Zusammen mit dem statistischen Rahmenwerk implementiert isobar Methoden für einen kompletten Workflow von massenspektrometrischen Peaklisten zur Proteinquantifizierung und Analyseergebnissen im PDF und XLS Format. Protein-Gruppierung wird innerhalb des Paket implementiert. Eine Analyse kann automatisiert und in vorhandede Analyse-Pipelines integriert werden. isobar ist nach den Bioconductor Design-Prinzipien konzipiert und in dem objektorientierten S4 Klassensystem implementiert.

Die oben genannte Methoden und Software wurden für die Quantifizierung von Protein-Unterschiede entwickelt. Neben der unterschiedlichen Expression von Proteinen, sind post-translationale Modifikationen (PTM) zentrale Modulatoren der Proteinfunktion. PTMs sind von großer Bedeutung in vielen Forschungsfragen, und können ebenfalls mit Massenspektrometrie identifiziert und quantifiziert werden. Im zweiten Teil der Arbeit werden deswegen die statistischen Modelle und das R-Paket für die quantitative PTM Analyse erweitert. Dies inkludiert die Integration von Modulen zur Lokalisierung der Modifikation in der Peptidsequenz, die Anpassung des PTM-Ratios mit Protein-Ratios, und das Erstellen von erweiterten Analyseberichten mit spezifischen Details zu identifizierten PTMs.

Die Methoden und die Software wurden in mehreren Publikationen angewendent und erweitert. Das isobar-Paket wird weiters über einhundert mal pro Monat über Bioconductor installiert. Abschließend kann gesagt werden, dass diese Arbeit mit neuer bioinformatischer Software und Methoden zur Weiterentwicklung der Proteinforschung mit iTRAQ und TMT beiträgt.

Zusammenfassung (Englisch)

Proteomic technologies are a fundamentally important tools of biological and medical research. Modern mass spectrometric equipment enables researchers to identify thousands of proteins in biological samples in a matter of hours. For the quantitative comparison of protein content, isotope-coded mass labels are employed which mark the proteins of the respective samples. Especially popular are the isobaric methods iTRAQ and TMT which make the simultaneous quantitative comparison of up to 10 samples possible. The data of these experiments are complex, high-dimensional, and noisy. Even though suitable statistical modeling and efficient software tools are pivotal for the success of the data analysis, few comprehensive and open bioinformatical analysis frameworks exist for quantitative proteomics. In this thesis, thus a software package and statistical framework are developed, which enable and facilitate the analysis of isobarically labeled mass spectrometric data.

The first part of the thesis describes statistical models for isobarically tagged data, which enable better inference by capturing technical variability in a intensity-dependent noise function, and biological variability with a heavy tailed distribution. The performance characteristics of this method were tested on especially prepared test datasets with spiked proteins at known ratios and unchanging background proteins. By resampling of the data, it could be demonstrated that the method both controls the rate of false positives and provides a good sensitivity in selecting true positives. Using additional biological datasets it further could be shown that the method works well with data from different types of mass spectrometers and setups.

The methods were implemented in a novel R package called isobar, which is part of the Bioconductor project. Along with the statistical framework, isobar implements methods for a complete quantitative workflow from mass spectrometric peaklists to protein quantification and analysis reports in PDF and XLS formats. Protein grouping is implemented within the package. The analysis can also be automated and the package thus integrated into existing pipelines. isobar was designed according to Bioconductor design principles and is implemented in the S4 class system.

The aforementioned methods and software were developed for the quantification of protein differences. Besides the protein expression change, differential post-translational modifications (PTMs) are prime modulator of protein function. PTMs are of great importance in meany research questions and can be identified and quantified with mass spectrometry. In the second part of the thesis, we thus extend the statistical models and R package for the quantitative PTM analysis. This includes the integration of modules for the localization of the PTM in the peptide sequence, the correction of the modified peptide ratio with the protein ratio, and the creation of extended analysis reports with specific details for identified PTMs.

The methods and the software were applied and extended in several further publications. Furthermore, the isobar package is downloaded over 100 times per month from Bioconductor. In conclusion, this thesis contributes to the advancement of quantitative protein research with the development of novel bioinformatical software and methods.