視覚と自然言語の融合研究(英語: Vision and Language)とは、コンピュータビジョンと自然言語処理を融合した研究分野である。画像や動画からのキャプション生成、画像や動画を対象とした質問応答(VQA)などのタスクが含まれる。 1960年代からの分野を中心に初期の研究が始められており、1990年代ごろから画像検索、2000年代から画像キャプション生成の研究も始められた。2010年代に深層学習の適用によってコンピュータビジョンと自然言語処理が大きく発展したことに伴い、融合研究も発展を遂げている。多くの研究が行われている一方で、データセットバイアスなどの研究課題も残されている。