Veeproovide rühmitamise näide

Veeproovide rühmitamine

Võtame uued algandmed, see on analoogne eelmise andmebaasiga, ainult iga järveosa ja aasta on võetud ühekordselt (et andmestik oleks kompaktsem). Kas zooplanktoni liikide arvukuste põhjal on võimalik grupeerida järveosades eri aastatel tehtud vaatlused ehk missugused järveosad või aastad on omavahel sarnasemad?

zoopl_aug2.csv
File Size:	1 kb
File Type:	csv

Download File

R käsud (praegu ei kasuta vegan paketi käske)
andmed<-read.csv("zoopl_aug2.csv", header=T)
andmed[is.na(andmed)] <- 0
attach(andmed)
zoo2<-andmed[,-c(1,2,3)]

d1 <- scale(zoo2)
d <- dist(d1, method = "euclidean")
fit <- hclust(d, method="ward")

plot(fit,hang=-1,main=" Klastrid Ward'i meetodiga", labels=ID)

wss <- (nrow(d1)-1)*sum(apply(d1,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(d1,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")

Kommentaarid iga käsu juurde.
Andmed sisse.
Puuduvad väärtused asendame kõik nullidega.
Muudame andmestiku aktiivseks, sest hiljem on proovivõtu ID näitajat vaja .
Arvutuste jaoks võtame ainult liikide arvukused, järveosa, aasta ja proovi ID number jäävad praegu välja.

Sstandardiseerime andmed.
Leiame kauguste maatriksi.
Tellime klasteranalüüsi, rühmitamise meetodiks võtame Ward'i meetodi
Tellime klasterpuu, kasutades mudeli fit väärtusi. hang=-1 näitab, et kirjutame ID numbrid kõik samale reale, allapoole 0-väärtust.
Kuna rühmadesse jagamine ei ole väga selge, siis uurime, kui palju klastreid üldse oleks mõistlik arvestada. Selleks vaatame graafikult, kuidas arvukuste grupisisene varieeruvus väheneb iga uue klastri arvesse võtmisega.

Järeldused saad teada, kui oled järgmise iseseisva ülesande ära lahendanud.

ISESEISEV TÖÖ.
Tee ise läbi eeltoodud näide ja kontrolli, kas said samasugused graafikud.

Kontrolli