読者です 読者をやめる 読者になる 読者になる

人工知能であそぶ

人工知能をつくってあそぶ.あと個人的な勉強のメモ.

人工知能関連用語のメモ

人工知能

人工知能に関連する用語のメモです.
自分なりの理解ですので,間違っているかもしれません.
間違いがありましたら指摘していただければ幸いです.

自然言語処理

N-gram

文章において,ある言語の単位(文字,形態素など)をN個並べたもの.

「昔々あるところにおじいさん」についての,2-gram(文字)の例
昔々,々あ,ある,ると,とこ,ころ,ろに,にお,おじ,じい,いさ,さん

「昔々あるところにおじいさん」についての,2-gram(形態素)の例
「昔々」「ある」,「ある」「ところ」,「ところ」「に」,「に」「おじいさん」...

これの出現頻度によって文書の特徴がわかる.
日本語では2-gram,3-gramが一般的である.

tf-idf

tfとidfの積,文書中の特徴語を見つけるための指標.
ここでは,文章の集合を辞書と呼ぶことにする.

td(term frequency)
ある文章での単語の出現頻度
{
\begin{eqnarray}
tf=\frac{その文章内におけるその単語の出現回数}{その文章中の単語数}
\end{eqnarray}
}
文章中にたくさん出てくる単語,
つまり,その文章を特徴づけるような単語ほど高くなる.
ただし,「は」,「に」や「a」,「the」なども入ってしまうのでidfの出番.

idf(inverse document frequency)
辞書の中(文章の集合全体)で,その単語が含まれている文章の割合の逆数
{
\begin{eqnarray}
idf=log(\frac{辞書中の文章の総数}{辞書内でその単語が含まれている文章の数})
\end{eqnarray}
}
一般的に(辞書内で)その単語は出やすいのかを測る.
たくさん出てくる単語(「は」「に」「a」「the」など)ほど値は低くなる.
めずらしい単語(固有名詞,特定の数字など)ほど値は高くなる.

まとめると,少数の文書で集中的に現れる単語ほど値が高くなる.
文章内全ての単語でこれを取り,ベクトル化しcos類似度をとることで簡易的な文書間の類似度の比較が可能である.

人工知能入門

人工知能入門