メインコンテンツまでスキップ

· 約5分

 卒業研究ではKosmos-2という既存のマルチモーダルモデル(MLLM)を使用してChain of thought物体領域によるマルチモーダルモデルによる説明性の実現を目指しました。

 マルチモーダルモデルを含むAIモデルにはなぜそのような出力をしたのかわからないブラックボックス性の問題があります。しかし、最近自然言語処理分野でLLMに質問を入力した際、出力となる解答に加え解答に対する根拠となる思考過程を出力するChain of Thought(思考連鎖、CoT)という研究が登場しました。またCoTがモデルの出力に対する説明になることに着目し、CoTをマルチモーダルモデルに適用したという研究も登場しました。私はこの先行研究を発展させ着目し物体領域を扱えるマルチモーダルモデルでの説明性の実現を卒業研究で目指しました。

 具体的には質問に対してテキストによる言語的説明だけでなく、物体領域による視覚的説明の両方を行えるモデルを構築しました。例えば下記の画像の左のようにAIモデルが画像に関する質問に答える際、言葉だけではどの人物を指しているかわかりません。 しかし、右のようにテキストに対応した領域をモデルが出力することで容易に人物を認識できるようになります。

言語的説明+視覚的説明

· 約2分

このブログはGithub Actionsでプッシュするだけで変更がGithub Pagesに反映されます。 設定ファイルはhttps://github.com/hyokonbanwa/HIDEAKI-Omote-homepage/blob/main/.github/workflows/deploy.ymlにあります。 GitHUb Pagesにデプロイする方式には

  1. peaceiris/actions-gh-pagesというアクションを使用してビルド内容を自動的に作成されるgh-pagesブランチにプッシュして、gh-pagesブランチをGitHub Pagesで参照してデプロイする方式
  2. actions/upload-pages-artifactactions/deploy-pagesを利用し、直接GitHub Pagesにデプロイする方式

があることが分かり、(1)は変更内容の反映が遅い(数分)なのに対して、(2)はアクションが完了したら即座に反映されるため(2)を採用しました。 また、(2)はリポジトリに余計なブランチを増やさないというメリットもありました。しかし、私自身GitHub ActionsやGitHub Pagesに対する理解が薄く、どのようにGitHub Pagesが変更を検知して反映しているのかわからないため今後も勉強していきたいと思います。

· 約1分

このホームページはDocusaurusというReactフレームワークを使用して作成しました。 Dousaurusを採用したのは、ホームページのひな形が用意されており、MDXというマークダウンの拡張言語で記事を簡単に作成でき、タグによる記事の絞り込み機能が実装されているためです。