| |
|
| '
Balancing statistics and ecology: lumping experimental data for model selection
Nelly van der Hoeven1*, Lia Hemerik2 and Patrick A. Jansen3§
-
Leiden University, IEES, Department of Theoretical Evolutionary Biology, P.O. Box 9516, 2300 RA Leiden, The Netherlands
- Biometris, Department of mathematical and statistical methods, Wageningen University, P.O.box 100, 6700 AC Wageningen, The Netherlands
- Wageningen University, Forest Ecology and Forest Management group, P.O.Box 342, 6700 AH Wageningen, The Netherlands
*: Present address: ECOSTAT, Vondellaan 23, 2332 AA Leiden, The Netherlands
§: Present address: Alterra - Wageningen UR, Centre for Ecosystem Studies, P.O. Box 74, 6700 AA Wageningen, The Netherlands.
Abstract
Ecological experiments often accumulate data by carrying out many replicate trials, each containing a limited number of observations, which are then pooled and analysed in the search for a pattern. Replicating trials may be the only way to obtain sufficient data, yet lumping disregards the possibility of differences in experimental conditions influencing the overall pattern. This paper discusses how to deal with this dilemma in model selection. Three methods of model selection are introduced: likelihood-ratio testing, the AIC with or without small-sample correction and the BIC. Subsequently, we apply the AICc method to an example on size-dependent seed dispersal by scatterhoarding rodents.
The example involves binary data on the selection and removal of Carapa procera (Meliaceae) seeds by scattterharding rodents in replicate trials during years of different ambient seed abundance. The question is whether there is an optimum size for seeds to be removed and dispersed by the rodents. We fit five models, varying from no effect of seed mass to an optimum seed mass. We show that lumping the data produces the expected pattern, but gives a poor fit compared to analyses in which grouping levels are taken into account, either by letting the parameters depend on the group, by assuming a random effect of the group on the parameter values, or by assuming some of the parameters fixed for all groups, whereas others depend on the group. Model fitting with some parameters fixed for all groups, and others depending on the trial give the best fit. The general pattern is, however, rather weak.
We explore how far models must differ in order to be able to discriminate between them, using the minimum Kullback-Leibler distance as a measure for the difference. We then show by simulation that the differences are too small to discriminate at all between the five models tested at the level of replicate trials.
We recommend a combined approach in which the level of lumping trials is chosen by the amount of variation explained in comparison to an analysis at the trial level. It is shown that combining data from different trials only leads to an increase in the probability of identifying the correct model with the AIC criterion if the distance of all simpler (=less extended models) to the simulated model is sufficiently large in each trial. Otherwise, increasing the number of replicate trials might even lead to a decrease in the power of the AIC.
Key words: AIC; Carapa procera; Kullback-Leibler distance; Likelihood-Ratio test; model selection; Myoprocta acouchy; noncentral chi-square distribution; power; Red acouchy; scatterhoarding; seed dispersal; seed size
In: T.A.C. Reydon & L. Hemerik (Eds): Current themes in Theoretical Biology: A Dutch Perspective. pp 233-265. Springer, Dordrecht, The Netherlands, 2004.
Mathematische modellen voor biologische processen
ECOSTAT ontwikkelt, toetst en evalueert mathematisch en computersimulatiemodellen voor biologische proces.
ECOSTAT kan in samenwerking met u een model ontwikkelen dat aansluit bij uw biologische vraagstelling. Natuurlijk kan ECOSTAT voor u ook de parameters van een biologisch model schatten.
ECOSTAT kan tevens de geschiktheid van modellen voor u evalueren.
Om de betrouwbaarheid van voorspellingen van complexe modellen te bepalen raadt ECOSTAT u aan een gevoeligheidsanalyse van de modelresultaten uit te laten voeren. Ook hiervoor kunt u bij ECOSTAT terecht.
Enkele voorbeelden van het werk van ECOSTAT
- Het effect van een sediment op de biobioluminescentie in MSP toetsen met mariene sedimenten wordt veroorzaakt door twee verschillende processen: de binding van de bacteriën aan het sediment en de toxische effecten van stoffen in het sediment. Een methode is ontwikkeld om het tweede effect te schatten.
- Een probabilistisch model om de gegevens over de toxiciteit van stoffen in laboratorium experimenten en de op grond van de partitiecoëfficiënten berekende lotgevallen van die stof in het milieu te vertalen naar normen voor die stof is kritisch geëvalueerd.
- Vier modellen zijn gemaakt om de invloed van het zaadgewicht te beschrijven op de kans dat een zaad van de Carapa boom wordt meegenomen en verstopt door agouties. Onderzocht is welke relatie tussen zaadgewicht en de kans op meenemen van een zaad de waargenomen verdeling van de meegenomen zaden het best beschrijft. Tevens is onderzocht of de keuze van de agouties (meenemen of direct opeten) afhangt van de grootte van de zaadoogst. U kunt meer over dit onderzoek vinden in van der Hoeven et al., 2004.
|
|
|