Sarnasus. Kaugus

Sarnasus, erinevus, kaugus

Sarnasus (similarity), erinevus (dissimilarity), kaugus (distance). Nende näitajate aluseks on objektide paarikaupa võrdlemine. Kui kahel objektil on kõikide tunnuste väärtused samad, siis on nende objektide erinevus ja kaugus 0, aga sarnasus 1. Kas valida sarnasus või kaugus, on uurija enda otsustada. Kahe objekti sarnasuse väärtus on alati nulli ja ühe vahel, olenevalt arvutusvalemist sõltub kaugus tunnuse mõõtühikust ja võib olla kuitahes suur. Erinevus ja sarnasus on omavahel lineaarselt seotud: sarnasus=1-erinevus. Internetis ja artiklites olen kohanud rohkem dissimilarity ja distance näiteid.
Vaatame R võimalusi.
funktsioon dist , mis on olemas R algselt seadistatud komplektis, võimaldab arvutada järgmised kaugused: "euclidean", "maximum", "manhattan", "canberra", "binary" or "minkowski".
Internetist allalaaditav spetsiaalne lisapakett vegan sisaldab
funktsiooni vegdist , mis võimaldab arvutada 13 erinevusindeksit : "manhattan", "euclidean", "canberra", "bray", "kulczynski", "jaccard", "gower",
"morisita", "horn", "mountford", "raup" , "binomial" or "chao".
Arvutamisi vaata täpsemalt spikrist
http://cc.oulu.fi/~jarioksa/softhelp/vegan/html/vegdist.html
Mõned indeksid sobivad rohkem 0-1 tunnustele, mõned on rohkem, mõned vähem kasutatud. Soovitusi valikuks on keeruline anda, võib-olla on esimene kord mõttekas arvutada R poolt vaikimisi pakutavad kaugused ja indeksid.
Näiteid. Teeme ise andmed ja vaatame, missugused kaugused tulevad. Vaatame kõrvuti funktsioone dist ja vegdist. Näeme, et vaikimisi pakub R dist jaoks eukleidilist kaugust ja vegdist Bray-Curtise oma. vegdist kasutamise eel loeme sisse vegan lisapaketi .

x1=c(7,7,10,9,8)
y1=c(1,3,5,2,8)
z1=rbind(x1,y1);z1

dist(z1)
11.22497
dist(z1,method="man")
22
dist(z1,method="can")
2.119697
dist(z1,method="bin")
0

library(vegan)
vegdist(z1)
0.3666667
vegdist(z1,method="man")
22
vegdist(z1,method="euc")
11.22497
vegdist(z1,method="bray")
0.3666667
vegdist(z1,method="bin")
0.6743008

Niisama vaadates ei oska saadud kaugustega midagi ette võtta, lihtsalt arvud, põhiline on see, et kauguste ja erinevuste arvutamine on aluseks objektide rühmitamisel, mis ongi järgmine teema. Järgmine