Direkt zum Inhalt


Increasing the validity of statistical analyses with the R package “DHARMa”

 

Project Lead: Prof. Dr. Florian Hartig

Funding: Deutsche Forschungsgemeinschaft (DFG) - Project number 528747641 (externer Link, ?ffnet neues Fenster)

Duration: 2024-2027 (3yrs)

Project Information

Project synopsis (english)

The statistical analysis of observational or experimental data is a central process in the empirical sciences. An important problem in this process is that conclusions (inferences) drawn from data using a statistical model depend on the specific assumptions of that model. Statistical results are generally only reliable if these assumptions are consistent with the underlying data-generating process. For this reason, introductory statistical books extensively emphasize the need to validate statistical models by analyzing residuals. In recent years, the complexity of statistical models used in ecology and many related empirical sciences has steadily increased. Analyses using simple linear regressions have become rare. Most empirical analyses in the field use the framework of generalized linear mixed models (GLMM), which allow flexibility in modeling both the distribution of the data and its structure (clusters, covariances, homoscedasticity). However, the problem with these models is that their naive residuals cannot be interpreted directly, leaving many researchers with the problem of how to validate their statistical models. The R package 'DHARMa' solves this problem by using a simulation-based approach to produce easily interpretable scaled (quantile) residuals for fitted (generalized) linear mixed models. It supports many of the common regression packages in the R environment and can also be coupled with external frequentist and Bayesian software, provided they can produce simulations from the fitted model. The DHARMa package now has a large user community from all empirical sciences, though still with a focus on ecology and evolutionary biology. The goal of the proposed project is to increase the interoperability and user-friendliness of DHARMa (RFP goal: Usability and Impact); to strengthen the valid application of DHARMa through unit tests, numerical and statistical robustness tests, and improved reports (RFP goal: Quality assurance); and to implement further testing procedures in collaboration with the R community and other package developers (RFP goal: Further development).

Projektzusammenfassung (deutsch)

Die statistische Analyse von Beobachtungs- oder Versuchsdaten ist ein zentraler Prozess in den empirischen Wissenschaften. Ein wichtiges Problem in diesem Prozess ist, dass Schlussfolgerungen (Inferenzen), die mit Hilfe eines statistischen Modells aus Daten gewonnen werden, von den spezifischen Annahmen dieses Modells abh?ngen. Statistische Ergebnisse sind im Allgemeinen nur dann verl?sslich, wenn diese Annahmen auch mit dem zu Grunde liegende datengenerierenden Prozess übereinstimmen. Aus diesem Grund wird in einführenden statistischen Büchern extensiv auf die Notwendigkeit hingewiesen, statistischen Modellen durch die Analyse von Residuen zu validieren. In den letzten Jahren hat sich die Komplexit?t der verwendeten statistischen Modelle in der ?kologie und viele verwandten empirischen Wissenschaften stetig erh?ht. Analysen durch einfache lineare Regressionen sind inzwischen selten geworden. Die meisten empirischen Analysen in dem Feld benutzen das Framework der generalisierten linearen gemischten Modelle (GLMM), welche es erlauben sowohl die Verteilung der Daten, also auch deren Struktur (Cluster, Kovarianzen, Homoskedastizit?t) flexibel zu modellieren. Allerdings ergibt sich für diese Modelle das Problem, dass deren naive Residuen nicht mehr direkt interpretieren lassen, und damit viel Wissenschaftler vor dem Problem standen, wie sie ihre statistischen Modelle validieren sollten. Das R-Paket 'DHARMa' l?st dieses Problem, indem es einen simulationsbasierten Ansatz verwendet, um leicht interpretierbare skalierte (Quantil-)Residuen für angepasste (verallgemeinerte) lineare gemischte Modelle zu erstellen. Es unterstützt viele der g?ngigen Regressionspakete in der R-Umgebung und kann auch mit externer frequentistischer und Bayes'scher Software gekoppelt werden, sofern diese Simulationen aus dem angepassten Modell erstellen k?nnen. Das DHARMa Package hat inzwischen eine gro?e Nutzergemeinde aus allen empirischen Wissenschaften, allerdings immer noch mit einem Schwerpunkt in der ?kologie und Evolutionsbiologie. Ziel des beantragten Projekts ist es, die Interoperabilit?t und Nutzerfreundlichkeit von DHARMa zu erh?hen (Ausschreibungsziel: Usability und Impact); durch Unit Tests, Tests der numerischen und statistische Robustheit und verbesserte Reports die valide Anwendung von DHARMa zu st?rkten (Ausschreibungsziel: Quality assurance); und weitere Testverfahren in Zusammenarbeit mit der R community und anderen Package Entwicklern zu implementieren (Ausschreibungsziel: Further development).

nach oben