自然言語とは、私たちが日常使っている言語のことで、日本語や英語で書かれた文章を指します。 人工知能が自然言語を扱う応用例としては、別の言語への翻訳や、チャットボットという、人間の質問に対する回答をコンピュータが自動生成するシステムが挙げられます。 ディープラーニングにより、自然言語分野での性能も飛躍的に向上しており、大変注目されている分野です。
自然言語における処理を簡単に説明すると、以下のようになります。
変換元と変換先の文章の組み合わせを集めます。 日本語から英語への翻訳であれば、変換元は日本語で、変換先は英語になるでしょう。 また、チャットボットを対象とするのであれば、変換元と変換先の両方が日本語になるでしょう。
画像処理の時と同様、システムに学習データセットを与え、出力値が教師データに近づくように、システム内にあるパラメータの値を調整します。 大量の入力文と出力文の組み合わせを与え、コンピュータに繰り返し計算を行わせることで、どの入力文を与えても正解が得られるシステムに近づいていきます。
システムに検査用の入力文を与え、その結果を調べます。 この目的で使用するデータセットを検査データセットと呼びます。 学習によって得られた自然言語処理精度を確認することができます。