コサイン類似度(つづき)
一昨日紹介したコサイン類似度ですが、文書・文章の類似度の評価に使われていることも併せて説明しました。
ちょっと気になって、Googleで、文書・文章にnotをかけてコサイン類似度について検索したところ、文章の類似度に関係のない文脈では、コサイン類似度は2つのベクトルのなす角の余弦そのものなのだ、という定義をみつけました。
(ということは、2つのベクトルの内積をそれぞれのベクトルのノルムの積で割るという、高校数学でもおなじみの、2つのベクトルがなす角の余弦を求めることと同等だというわけです。夜中に書いているせいか構文がややこしいですね。。)
2つのベクトル両方について、ベクトルの要素の数値がすべて正(非負)の場合、それら2つのベクトルのなす角は90度以下ですから、コサイン類似度も0から1までの間に収まります(※注)。
(私の目的は0から1の間に収まる類似度指標を見つけることなのでした)
ただ、ちょっと計算(想像)してみると、(ベクトルを時系列データとみなして)相互相関を計算したときには負の値になるような2つのベクトルの間のコサイン類似度を計算すると、非常に高い正のコサイン類似度が得られてしまうことがあることがわかります。
相関とコサイン類似度のいいとこ取りができれば、2つのベクトルの間の類似度の良い指標になると思うのですが・・・。
そういったものは存在するのでしょうか?
※注:正確には、このような条件の2つのベクトルから計算される余弦が0から1の間に収まることをもって、2つのベクトルのなす角が90度以下であると定義すべきなのでしょうが・・・