• Keine Ergebnisse gefunden

Aufgrund der Erkenntnisse aus der statistischen Auswertung der 16S rRNA Gen Amplikonsequenzierungsdatensätze und der höheren wirtschaftlichen Relevanz von Biogasanlagen wurden die Metaproteomanalysen ausschließlich für die 16 bereits beprobten BPs durchgeführt. Zur Validierung der durchgeführten Methodik wurden für jede beprobte Biogasanlage fünf biologische Replikate erstellt und analysiert. Die verschiedenen Schritte der Auswertung der generierten Metaproteomdatensätze werden im Folgenden näher beschrieben.

2.6.5.1 Vergleich der Anlagen hinsichtlich ihrer Proteinprofile

Alle Proteine, die nicht in mindestens drei der fünf Replikate einer Anlage vorkamen, wurden verworfen. Die Rohintensitäten wurden anschließend median-normalisiert, um die unterschiedlichen Läufe miteinander vergleichbar zu machen. Die median-normalisierten Intensitäten wurden log2-transformiert, um eine Normalverteilung der Proteinintensitäten zu erreichen. Anschließend wurden die Proteinintensitäten auf verschiedenen Ebenen (Proteine, Spezies, Funktion) zusammengefasst. Für jede dieser Ebenen wurde im Anschluss eine Hauptkomponentenanalyse (Principal Component Analysis, PCA) mit dem R-Package FactoMineR (Lê et al. 2008) durchgeführt. Für alle Proben wurden die Koordinaten in den ersten drei Dimensionen extrahiert und die dreidimensionale euklidische Distanz berechnet. Diese Distanzen wurden für eine hierarchische Clusteranalyse mit dem R-Package hclust unter Verwendung des Algorithmus Ward.D2 genutzt. Die Clusterzuordnung erfolgte auf Basis der Höhe 50 in den jeweiligen Dendrogrammen.

2.6.5.2 Proteinmapping

Für die funktionelle Zuordnung der einzelnen Proteine wurde die Datenbank Kyoto Encyclopedia of Genes and Genomes genutzt (KEGG, Stand 02/2019) (Kanehisa et al.

2017). Anhand der mittels Uniprot-Datenbank zugeordneten Protein-Accessions bzw.

EC-Nummern wurden den einzelnen Proteinen sowohl molekulare Funktionen (KEGG Orthology, KO) als auch die entsprechenden Stoffwechselwege zugeordnet.

2.6.5.3 Bestimmung des dominanten Methanogenesewegs

Anhand ihres Proteinprofils sollte den einzelnen Anlagen der entsprechende dominante Methanogeneseweg zugeordnet werden. Dazu wurden die median-zentrierten Proteinintensitäten in relative Abundanzen umgerechnet. Anhand der in der KEGG-Datenbank (Stand 02/2019) vorhandenen Module (Modul 00567: HyMe, Modul 00357: AcMe, Modul 00356: Methanogenese aus Methanol) wurden die Abundanzen der Proteine, die spezifisch für einen der genannten Methanogenesewege sind, summiert.

Anschließend wurde ein Faktor F berechnet:

𝐹 = 𝑆𝑢𝑚𝑚𝑒 𝑑𝑒𝑟 𝑓ü𝑟 𝑑𝑖𝑒 𝑎𝑐𝑒𝑡𝑜𝑘𝑙𝑎𝑠𝑡𝑖𝑠𝑐ℎ𝑒 𝑀𝑒𝑡ℎ𝑎𝑛𝑜𝑔𝑒𝑛𝑒𝑠𝑒 𝑠𝑝𝑒𝑧𝑖𝑓𝑖𝑠𝑐ℎ𝑒𝑛 𝑃𝑟𝑜𝑡𝑒𝑖𝑛𝑒 𝑆𝑢𝑚𝑚𝑒 𝑑𝑒𝑟 𝑓ü𝑟 𝑑𝑖𝑒 ℎ𝑦𝑑𝑟𝑜𝑔𝑒𝑛𝑜𝑡𝑟𝑜𝑝ℎ𝑒 𝑀𝑒𝑡ℎ𝑎𝑛𝑜𝑔𝑒𝑛𝑒𝑠𝑒 𝑠𝑝𝑒𝑧𝑖𝑓𝑖𝑠𝑐ℎ𝑒𝑛 𝑃𝑟𝑜𝑡𝑒𝑖𝑛𝑒 Für alle Replikate, für die F ≥ 2,5 war, wurde AcMe als Hauptmethanogeneseweg angenommen. Hatten die Replikate F ≤ 0,4 wurde überwiegend hydrogenotrophe Methanogenese vermutet. Für alle Replikate mit F > 0,4 und F < 2,5 wurde angenommen, dass eine Mischung aus beiden Methanogenesewegen vorlag.

In Abhängigkeit der F-Werte wurden die BPs in die drei Gruppen AcMe, HyMe und BoMe eingeteilt. Stimmten die Ergebnisse nicht für alle Replikate überein, so wurde die Anlage entsprechend der Mehrheit der Replikate eingeteilt.

2.6.5.4 Signifikanter Einfluss von Umweltparametern

Die Analysen der Einflüsse der Umweltparameter auf die Proteinexpression erfolgten analog zu denen auf 16S rRNA Gen Ebene (vgl. 2.5.5.5), allerdings wurde keine Trennung in bakterielle und archaelle Proteine vorgenommen. Um die Datenkomplexität bei den Korrelationsanalysen zu verringern, wurden auf jeder Ebene nur Einträge mit einer minimalen durchschnittlichen relativen Abundanz von 0,1 % berücksichtigt. Aufgrund der Datenkomplexität wurde das Signifikanzniveau auf p ≤ 0,01 festgelegt.

2.6.5.5 Korrelation der relativen Abundanz mit der funktionellen Redundanz

Für jeden Methanogeneseweg wurden die Ränge der mittleren relativen Abundanzen und die Anzahl an Proteinen für jeden KO-Term ermittelt. Mit dem R-package stats wurde anschließend der Spearman-Rangkorrelationskoeffizient und der zugehörige p-Wert berechnet.

2.6.5.6 Netzwerkberechnungen

In Abhängigkeit des dominanten Methanogenesewegs wurden drei Netzwerke (AcMe, HyMe, BoMe) berechnet. Als Ausgangsdaten wurden die auf Speziesebene

zusammengefassten relativen Proteinabundanzen genutzt. Zur robusteren Netzwerkberechnung wurden keine Mittelwerte für jede Anlage berechnet, sondern jeweils alle Replikate einer Anlage genutzt. Für die Berechnung von AcMe wurden 25, für HyMe 40 und für BoMe 15 Replikate genutzt. Für die Berechnung wurde die Cytoscape-App CoNet (vgl. 1.5.3.2) verwendet. Es wurden nur Spezies berücksichtigt, die in mind. 60 % der jeweiligen Proben (AcMe: 15, HyMe: 24, BoMe: 9 Replikate) detektiert wurden. Als Korrelationen wurden die Pearson-, Kendall- und Spearman-Korrelation gewählt. Zusätzlich wurden auch die Bray-Curtis- und Kullback-Leibler-Dissimilaritäten genutzt. Der Threshold wurde auf TOP2500 (Top and Bottom) gesetzt, so dass jede Korrelationsmethode und jede Dissimilarität mit 2.500 positiven und 2.500 negativen Kanten im initialen Netzwerk vertreten war. Das min_support-Argument wurde auf drei gesetzt, so dass nur Kanten die von mind. drei der fünf gewählten Methoden unterstützt wurden, bei der Signifikanzberechnung berücksichtigt wurden. Die statistische Signifikanz der Kanten wurde sowohl durch Permutation, als auch durch Bootstrap mit jeweils 1.000 Wiederholungen sichergestellt. Die methodenspezifischen p-Werte wurden mit der Methode nach Brown (Brown 1975) zusammengeführt und nach Benjamini und Hochberg korrigiert (Benjamini und Hochberg 1995). Für die Einteilung der Knoten in Module wurde der in CoNet integrierte GLay-Algorithmus (Su et al. 2010) verwendet. Die Berechnung der zugehörigen Z- und P-Werte erfolgte mit einem eigens programmierten Excel-Sheet nach den bereits beschriebenen Formeln (vgl. 1.5.4). Die Knoten repräsentieren in den jeweiligen Netzwerken die verschiedenen Spezies.

Verfügbarkeit der generierten Datensätze

Die im Rahmen dieser Arbeit generierten Datensätze wurden archiviert. Die 16S rRNA Gensequenzen aller Anlagen sind im NCBI Short Read Archive unter der Accession-Nummer SRP126305 verfügbar. Die Proteomdatensätze aus dieser Arbeit sind im PRIDE-Archiv unter der Kennung PXD014605 abrufbar.

3 Ergebnisse

Nach Erfassung der Prozessparameter (vgl. 3.1) wurden die vorliegenden mikrobiellen Gemeinschaften in beiden Anlagentypen durch 16S rRNA Gen Amplikonsequenzierung verglichen (3.2). Die 16 Biogasanlagen wurden außerdem funktionell charakterisiert und Schlüsselmikroorganismen der verschiedenen Prozesse der AD identifiziert (3.3).

Prozessparameter der beprobten Anlagen

Um den Einfluss von definierten Prozessparametern (vgl. 2.4) auf die mikrobielle Gemeinschaft testen zu können, wurden diese für beide Anlagentypen erfasst.

Weiterhin erlaubten Korrelationsanalysen (vgl. 3.2.5) von Prozessparametern und der mikrobiellen Gemeinschaft die Spezifizierung dieses Einflusses auf definierte taxonomische Einheiten.