画像を対象としたAIでは、通常の入力データはRGBの3チャンネルです。 畳み込みおよび逆畳み込みでは、3チャンネルではパラメータ数が不足することから、数十以上のチャンネル数とすることが多いです。 セマンティックセグメンテーションでは、最終的なチャンネル数は分類したい要素の数となるため、通常は畳み込み等のチャンネル数よりは小さくなります。
ここで説明する1x1畳み込みは、画像サイズを保ちながらチャンネル数を変更できることから、セマンティックセグメンテーションでよく用いられます。
下図は、計算プロセスの概念を示しています。 入力画像は3チャンネル、フィルター数は1であり、出力画像は1チャンネルです。
フィルターの成分は3つありますが、それぞれ個別の入力チャンネルと結びついています。 入力画像のいずれかのピクセルを選び、各チャンネルの同じ位置にある値を対応するフィルターの値と掛け合わせ、全チャンネルの結果を足していきます。 こうして得られた値が、各ピクセルの出力となります。 フィルター1つについて1チャンネルの結果が得られます。 つまり、フィルターを3つ準備すれば、3チャンネルの結果が得られることになります。
フィルターの成分数は、入力および出力のチャンネル数によって決まります。 例えば、入力チャンネル数が10、出力チャンネル数が3であれば、成分が10個のフィルターを3個準備することになります。