技事録係

IT中心にエンジニアに必要な技術情報・最新動向・資格試験対策等を記録

基礎科目 令和元年度 Ⅰ-2-3

◀︎ 前へ次へ ▶︎️

 表1は,文書A〜文書F中に含まれる単語とその単語の発生回数を示す。ここでは問題を簡単にするため,各文書には単語1,単語2,単語3の3種類の単語のみが出現するものとする。各文書の特性を,出現する単語の発生回数を要素とするベクトルで表現する。文書Aの特性を表すベクトルは  \vec{A} = (7, 3, 2) となる。また,ベクトル  \vec{A} のノルムは, ||\vec{A}||_2 = \sqrt{ 7^{2} + 3^{2} + 2^{2}} = \sqrt{62} と計算できる。
 2つの文書Xと文書Y間の距離を(式1)により算出すると定義する。2つの文書の類似度が高ければ,距離の値は0に近づく。文書Aに最も類似する文書はどれか。

表1 文書と単語の発生回数

  文書A 文書B 文書C 文書D 文書E 文書F
単語1 7 2 70 21 1 7
単語2 3 3 3 9 2 30
単語3 2 0 2 6 3 20

文書Xと文書Yの距離 =  1 − \frac{\vec{X} \cdot \vec{Y}}{||\vec{X}||_2||\vec{Y}||_2} (式1)

(式1)において, \vec{X} = (x_1, x_2, x_3) \vec{Y} = (y_1, y_2, y_3) であれば,
 \vec{X} \cdot \vec{Y} = x_1 \cdot y_1 + x_2 \cdot y_2 + x_3 \cdot y_3
 ||\vec{X}||_2 =\sqrt{x_1^{2} +x_2^{2} +x_3^{2}}
 ||\vec{Y}||_2 =\sqrt{y_1^{2} +y_2^{2} +y_3^{2}}

① 文書B

② 文書C

③ 文書D

④ 文書E

⑤ 文書F

 

解答

 ③

解説

 文書Dの各単語数は,文書Aのちょうど3倍になっているため,ベクトルの向きが同じになります。つまり距離空間が0になります。

 念のため各文書について,与式をもとに計算すると,次の通りになります。

① 文書B
1 − ( 7 × 2 + 3 × 3 + 2 × 0 ) ÷ {√( 49 + 9 + 4 ) ×√( 4 + 9 + 0 )} 
= 1 − 23 ÷ √806
≠ 0

② 文書C
1 − ( 7 × 70 + 3 × 3 + 2 × 2 ) ÷ {√( 49 + 9 + 4 ) ×√( 4900 + 9 + 4 )} 
= 1 − 503 ÷ √304606
≠ 0

③ 文書D
1 − ( 7 × 21 + 3 × 9 + 2 × 6 ) ÷ {√( 49 + 9 + 4 ) ×√( 441 + 81 + 36 )} 
= 1 − 186 ÷ √34596
= 0

④ 文書E
1 − ( 7 × 1 + 3 × 2 + 2 × 3 ) ÷ {√( 49 + 9 + 4 ) ×√( 1 + 4 + 9 )} 
= 1 − 19 ÷ √868
≠ 0

⑤ 文書F
1 − ( 7 × 7 + 3 × 30 + 2 × 20 ) ÷ {√( 49 + 9 + 4 ) ×√( 49 + 900 + 400 )} 
= 1 − 179 ÷ √83638
≠ 0

参考情報

過去の出題

 なし

オンラインテキスト

(準備中)