Distanzfunktionen oder Ähnlichkeitsmaße beschreiben den Grad der Übereinstimmung von Vektoren .
In typischen Anwendungen stellen die Vektoren Folgen von Messwerten dar. Ähnlichkeitsmaße werden in Auswertemethoden wie dem Vektorraum-Retrieval und dem Clustering benutzt.
Als Distanzfunktion lassen sich verschiedene Metriken verwenden. Distanzfunktionen werden oft auch unpräzise als Metrik bezeichnet; nicht alle Distanzfunktionen sind jedoch Metriken im streng mathematischen Sinne.
Häufig verwendete Distanzfunktionen
d
(
x
,
y
)
=
|
x
−
y
|
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
{\displaystyle d(x,y)=|x-y|={\sqrt {\sum _{i=1}^{n}(x_{i}-y_{i})^{2}}}}
d
(
x
,
y
)
=
∑
i
=
1
n
|
x
i
−
y
i
|
{\displaystyle d(x,y)=\sum _{i=1}^{n}|x_{i}-y_{i}|}
Siehe auch: Metrischer Raum
Cosinus-Distanzfunktion
Es wird vorausgesetzt, dass wir einen Vektorraum über den reellen Zahlen haben.
Die Distanz ist der Cosinus des Winkels zwischen den Vektoren
d
(
x
,
y
)
=
cos
α
(
x
,
y
)
=
x
⋅
y
|
x
|
|
y
|
=
∑
i
=
1
n
x
i
y
i
∑
i
=
1
n
x
i
2
∑
i
=
1
n
y
i
2
{\displaystyle d(x,y)=\cos \alpha (x,y)={\frac {x\cdot y}{|x||y|}}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{{\sqrt {\sum _{i=1}^{n}x_{i}^{2}}}{\sqrt {\sum _{i=1}^{n}y_{i}^{2}}}}}}
Dabei ist
|
x
|
=
‖
x
‖
2
{\displaystyle |x|=\|x\|_{2}}
.
Dice-Distanzfunktion
d
(
x
,
y
)
=
2
x
⋅
y
x
2
+
y
2
=
2
∑
i
=
1
n
x
i
y
i
∑
i
=
1
n
x
i
2
+
∑
i
=
1
n
y
i
2
{\displaystyle d(x,y)={\frac {2x\cdot y}{x^{2}+y^{2}}}={\frac {2\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}+\sum _{i=1}^{n}y_{i}^{2}}}}
Dabei ist
x
2
=
x
⋅
x
=
⟨
x
,
x
⟩
{\displaystyle x^{2}=x\cdot x=\langle x,x\rangle }
.
Jaccard- (oder Tanimoto)-Distanzfunktion
d
(
x
,
y
)
=
x
⋅
y
x
2
+
y
2
−
x
⋅
y
=
∑
i
=
1
n
x
i
y
i
∑
i
=
1
n
x
i
2
+
∑
i
=
1
n
y
i
2
−
∑
i
=
1
n
x
i
y
i
{\displaystyle d(x,y)={\frac {x\cdot y}{x^{2}+y^{2}-x\cdot y}}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}+\sum _{i=1}^{n}y_{i}^{2}-\sum _{i=1}^{n}x_{i}y_{i}}}}