マルチモーダル(Multimodal)とは、テキストだけでなく、画像や音声など複数の形式(モダリティ)の情報を同時に扱えるAIの特性を指します。
文章だけでは判断しにくい状況でも、視覚や音声の情報を組み合わせて理解できる点が特徴です。
AIチャットボットにおいては、商品画像の確認や音声入力による問い合わせ対応など、活用範囲を広げる要素となります。
問い合わせ体験をより直感的にするための重要な技術です。