メインコンテンツまでスキップ

「マルチタスク学習」タグの記事が1件あります

全てのタグを見る

· 約10分

この記事では私が昨年B4の時に考案したマルチタスク学習手法について解説したいと思います。その前に考案した手法の適用先であるチーム研究の背景を解説します。

昨年、私を含む4人チームで視覚言語モデル(VLM)を一から構築する研究を行いました。研究背景としては2023年4月時点で画像と言語を扱えるVLMの数は少なく、VLM自体の構造・学習方法・学習データセットが明らかになっていない部分が多かったです。そのため、VLMを構築するために必要な要素技術を明らかにして公開すること、また研究室としてVLMを一から構築するノウハウを蓄積することを目的として研究に着手しました。最終的に「GFM(Gifu Foundation Model)」というVLMの構築に成功し、モデル自体の構築に関する研究成果は国際学会「IW-FCV-2024」に採択され、モデルをHuman Object Interaction(HOI)に適用した研究成果は国内学会「DIA-2024」に採択されました。両論文では私は共著者とさせていただいています。また岐阜大学からも「低価格コンピュータで学習&推論可能なAI基盤モデルを開発 -軽量かつ既存の大規模AIモデルと同程度の性能を達成-」としてプレスリリースしていただいています。

  • 構築したモデル「GFM」の全体像

構築したモデル