Hoe om te beschrijven het Centrum van Continuous Data in R

Je hebt de dataset en je hebt het geformatteerd aan uw behoeften in R, dus nu ben je klaar voor het echte werk bent. Het analyseren van uw gegevens altijd begint met het beschrijven van het. Deze manier kunt u fouten in de gegevens, en u kunt beslissen welke modellen geschikt zijn voor de informatie die je nodig hebt van de gegevens die je hebt te krijgen.

Die beschrijvende statistiek u gebruikt, hangt af van de aard van uw gegevens, natuurlijk.

Soms ben je meer geïnteresseerd in het algemene beeld van uw gegevens dan bent u in de individuele waarden. Je mag niet geïnteresseerd in de kilometerstand van iedere auto zijn, maar in de gemiddelde kilometrage van alle auto's uit die dataset. Voor dit, u het gemiddelde te berekenen met behulp van de gemiddelde () functie, zoals deze:

> Betekenen (auto's $ mpg)
[1] 20,09062

Je zou ook het gemiddelde aantal cilinders die auto's hebben te berekenen, maar dit betekent niet echt zinvol. De gemiddelde zou zijn 6,1875 cilinders, en geen auto's rijden met een onvolledige cilinder. In dit geval is de mediaan - de meest centrale waarde in uw gegevens - zinvoller. U krijgt de mediaan van het gebruik van de functie mediaan (), zoals deze:

> Mediaan (auto's $ cyl)
[1] 6

Er zijn vele andere redenen voor de berekening mediaan in plaats van de gemiddelde, of beide samen. Beide statistieken beschrijven een ander pand van uw gegevens, en zelfs de combinatie kan je iets vertellen.