Klasteranalüüs
Kõigepealt tuleb mainida, et klasteranalüüs on eelkõige kirjeldav analüüsimeetod, see tähendab, tema puhul ei ole oluline mitte niivõrd statistiliste hüpoteesipaaride püstitamine ja nende testimine, kui just algandmete võimalikult parem esitamine ja uurimine.
Klasteranalüüsiks (cluster analysis) nimetatakse objektide hulga mitme tunnuse järgi liigendamist alamhulkadeks ehk klastriteks ehk rühmadeks ehk gruppideks, millesse kuuluvad mingis mõttes lähedased elemendid. Rühmade arv võib olla ette antud (k-means clustering) või ühendatakse objekte järgemööda (hierarhical, tree clustering). Klastritesse rühmitada saab R paketi funktsioone kasutades ainult objekte. Klasteranalüüsi aluseks on eelmises punktis vaadeldud kaugused või sarnasused.
Hierarhiline klasterdamine - leitakse nn sarnasusepuu. See meetod sobib juhul, kui objekte on suhteliselt vähe, või kui soovime kindlasti näidata, et klastrid eristuvad üksteisest. Hierarhiline klasteranalüüs põhineb lihtsal algoritmil: samm-sammult pannakse kokku kõige sarnasemad objektid. Esiteks ühendatakse kõige sarnasemate väärtustega (näiteks eukleidilise kauguse mõttes) objektid, liidetakse nad üheks klastriks, järjest arvutatakse kaugused tekkinud klastrite ja uute üksikobjektide vahel, võrreldakse neid ja liidetakse jälle kõige sarnasemad objektid jne.
k- keskmise klasterdamine - antakse ette, mitmesse klastrisse me objektid jagada soovime. See meetod on kasutusel suure arvu objektide korral, või siis kui meil on rühmade arvu kohta mingi eelinfo olemas.
Klassifitseerimine eeldab, et igal objektil on mõõdetud kindlasti samade tunnuste väärtused. Tihti on mõttekas tunnused enne klasterdamise algust muuta skaleerimise teel omavahel mõõtühiku poolest võrdväärseteks, eriti kui kasutame kaugusi.
Meie näiteandmestiku zoopl_aug.csv korral saaksime näiteks vaadata, kas zooplanktoni liikide arvukuste põhjal on võimalik grupeerida järveosades eri aastatel tehtud vaatlused (missugused järveosad või aastad on omavahel sarnasemad?).
Või siis teine võimalus, kas saame rühmitada liigid vastavalt nende arvukusele, mis on loendatud ühe järve erinevatest osadest eri aegadel kogutud veeproovidest. Vaatame mõlemat versiooni lähemalt.
Rühmitame veeproovid Rühmitame liigid
Klasteranalüüsiks (cluster analysis) nimetatakse objektide hulga mitme tunnuse järgi liigendamist alamhulkadeks ehk klastriteks ehk rühmadeks ehk gruppideks, millesse kuuluvad mingis mõttes lähedased elemendid. Rühmade arv võib olla ette antud (k-means clustering) või ühendatakse objekte järgemööda (hierarhical, tree clustering). Klastritesse rühmitada saab R paketi funktsioone kasutades ainult objekte. Klasteranalüüsi aluseks on eelmises punktis vaadeldud kaugused või sarnasused.
Hierarhiline klasterdamine - leitakse nn sarnasusepuu. See meetod sobib juhul, kui objekte on suhteliselt vähe, või kui soovime kindlasti näidata, et klastrid eristuvad üksteisest. Hierarhiline klasteranalüüs põhineb lihtsal algoritmil: samm-sammult pannakse kokku kõige sarnasemad objektid. Esiteks ühendatakse kõige sarnasemate väärtustega (näiteks eukleidilise kauguse mõttes) objektid, liidetakse nad üheks klastriks, järjest arvutatakse kaugused tekkinud klastrite ja uute üksikobjektide vahel, võrreldakse neid ja liidetakse jälle kõige sarnasemad objektid jne.
k- keskmise klasterdamine - antakse ette, mitmesse klastrisse me objektid jagada soovime. See meetod on kasutusel suure arvu objektide korral, või siis kui meil on rühmade arvu kohta mingi eelinfo olemas.
Klassifitseerimine eeldab, et igal objektil on mõõdetud kindlasti samade tunnuste väärtused. Tihti on mõttekas tunnused enne klasterdamise algust muuta skaleerimise teel omavahel mõõtühiku poolest võrdväärseteks, eriti kui kasutame kaugusi.
Meie näiteandmestiku zoopl_aug.csv korral saaksime näiteks vaadata, kas zooplanktoni liikide arvukuste põhjal on võimalik grupeerida järveosades eri aastatel tehtud vaatlused (missugused järveosad või aastad on omavahel sarnasemad?).
Või siis teine võimalus, kas saame rühmitada liigid vastavalt nende arvukusele, mis on loendatud ühe järve erinevatest osadest eri aegadel kogutud veeproovidest. Vaatame mõlemat versiooni lähemalt.
Rühmitame veeproovid Rühmitame liigid