表 英輝 | HIDEAKI Omote
岐阜大学大学院 自然科学技術研究科 知能理工学専攻 加藤研究室 修士1年生
メール :omote.hideaki.s8@s.gifu-u.ac.jp
自己紹介 | Profile
- 名前:表 英輝
- 所属:岐阜大学院 自然科学技術研究科 知能理 工学専攻 加藤研究室
- 学年:修士1年(M1)
- 研究内容解説:
- 修士での研究内容「距離反比例ラベルとGEM損失関数を用いた視覚言語モデルを物体検出を伴う下流タスクにより効果的に適応させるファインチューニング手法の提案」」
- チーム研究「大規模Vision&Languageマルチタスクモデルの学習効率化とHuman-Object Interactionへの適用」(DIA2024の共著論文)
及び「Constructing Lightweight Large Vision-LanguageModel: A Target Approach to Downstream Tasks」(IW-FCV2024の共著論文) - 卒業研究「物体領域を用いたChain of Thoughtによるマルチモーダルモデルへの説明性の付与」(SSII2024へ投稿し採択&スポットライト論文に選定)
経歴 | History
- 2019年4月 岐阜大学 工学部 電気電子・情報工学科 入学
- 2024年3月 岐阜大学 工学部 電気電子・情報工学科 卒業
- 2024年4月 岐阜大学 自然科学技術研究科 知能理工学専攻 入学
ニュース一覧 | News
2024-11-12 : 国内学会ViEW2024にインターンシップの研究成果が採択(12/6 IS4-5)
国内学会ViEW2024に 8/1から9/30まで参加したSB Intuitions株式会社のインターンシップの研究成果が採択されました。
「⽂書画像理解性能向上に向けた視覚⾔語モデル構築⽅法の検討」というタイトルで12/6にIS4-5で発表予定です。
内容は文書画像理解を下流タスクとして、性能を発揮できるVLMのモデル構造や学習方法の比較実験を行いました。
2024-08-06 : SB Intuitions株式会社のインターンシップに参加 (2024年8月1日~2024年9月30日)
8/1からSB Intuitions株式会社のインターンシップに参加させていただいております。
9/30までの約2ヶ月間、マルチモーダル基盤モデル、特にビジョン&ランゲージモデル(VLM)に関して研究開発を行う予定です。
2024-07-12 : X(旧Twitter)の運用を開始しました。
X(旧Twitter)アカウント作成以来運用していませんでしたが、夏季インターンシップに合わせて運用開始したいと思います。
アカウント:@hideaki_o
2024-05-16 : 投稿した論文がSSII2024に採択 & 【スポットライト発表】に選定されました。
卒業研究の研究成果を投稿したSSII2024に採択&【スポットライト発表】(口頭発表)に選定されました。また、【インタラクティブセッション】では対面でポスターを交えで研究紹介を行う予定です。(SSII20242日目 6月13日 SO2-06・IS2-06)
※第30回画像センシングシンポジウム(SSII2024)
2024-03-25 : 学業成績優秀者として表彰されました。
【表彰】学業成績優秀者表彰式を挙行(令和6年3月25日)
卒業研究を含む学部4年生時代の学業成績を評価され表彰されました。
2024-03-01 : 第30回画像センシングシンポジウム(SSII2024)に投稿しました。
第30回画像センシングシンポジウム(SSII2024)に投稿しました。
投稿内容は卒業研究の 「物体領域を用いたChain of Thoughtによるマルチモーダルモデルへの説明性の付与です。
2024-02-21 : 共同通信社で「低価格コンピュータで学習&推論可能なAI基盤モデルを開発」が紹介されました。
共著論文"Constructing Lightweight Large Vision-Language Model: A Target Approach to Downstream Tasks"が「低価格コンピュータで学習&推論可能なAI基盤モデルを開発」として共同通信社様に紹介されました。
私は主に複数GPUでの高効率なマルチタスク学習(複数タスク・データセットでモデルを訓練する)方法の構築を担当しました。
2024-02-21 : 岐阜大学の「低価格コンピュータで学習&推論可能なAI基盤モデルを開発」で紹介されました。
共著論文"Constructing Lightweight Large Vision-Language Model: A Target Approach to Downstream Tasks"が「低価格コンピュータで学習&推論可能なAI基盤モデルを開発」として岐阜大学公式サイトで紹介されました。
私は主に複数GPUでの高効率なマル チタスク学習(複数タスク・データセットでモデルを訓練する)方法の構築を担当しました。
スキル | Skills
Python & PyTorch
- PythonとPyTorchを用いて深層学習の研究を行っています。
- 卒業研究でもPythonとPyTorchを用いて研究を行いました。
- 卒論の研究成果は国内学会SSII2024に採択&【スポットライト論文】に選定されました。
発表 | Publication
国内学会 | Domestic Conference
- 表英輝,鈴木哲平: "⽂書画像理解性能向上に向けた視覚⾔語モデル構築⽅法の検討", ビジョン技術の実利用ワークショップ2024 ViEW2024,IS4-5,2024.12.6,
※SB Intuitions株式会社でのインターンシップの成果 - 表英輝,梁瀬 和哉,加藤 邦人: "物体領域を用いたChain of Thoughtによるマルチモーダルモデルへの説明性の付与",第30回画像センシングシンポジウム SSII 2024,SO2-06 (IS2-06),2024.6.13
- 軸屋敬介,梁瀬和哉,表英輝,土田裕登,加藤邦人: "大規模Vision&Languageマルチタスクモデルの学習効率化とHuman-Object Interactionへの適用",動的画像処理実利用化ワークショップ DIA 2024,OS3-2 (IS3-2),2024.3.5
国際学会 | International Conference
インターンシップ参加 | Internship
SB Intuitions株式会社
期間: 2024年8月1日~2024年9月30日
実施テーマ: 「高解像度文書画像理解に向けたVLM(画像と言語を理解できるAIモデル)の構築・研究開発」
URL: https://x.com/sbintuitions/status/1859869504240746794
実施内容: 文書画像に関して認識応答できるAIモデルは需要があり、これは画像を認識し言語で応答できるVLM(Vision and Language Model)で実現可能です。 そのため、文書画像理解に有用なVLMの構築方法を比較検討しました。 具体的には、VLMの画像エンコーダーとしてViTとCNNの異なるアーキテクチャを採用した場合の比較、 画像エンコーダーへの入力解像度を上げての比較、画像エンコーダーのパラメータ更新の有無の比較などを行いました。 研究成果は国内学会のViEW2024に投稿し発表予定です。
使用スキル: PythonとPyTorchを用いたVLMモデルのコーディング、Slurmを使用したVLMの分散並列学習、GiT・GitHubを使用した複数人でのコード開発・管理
制作物 | Products
ChatWith3DAgent(3次元狐耳少女と会話できるアプリ)
UnityでVRM形式の3Dエージェントと会話できるアプリを制作しました。こだわった点は表情変化です。
エージェント(ChatGPT)が生成した文章をGoogleNaturalLanguage APIで感情分析してそれに対応した表情を再生させます。また、VOICEVOXによる音声再生も実装しています。二次元美少女を動かせるWebアプリ
pixi-live2d-displayという描画ライブラリPixiJS上でLive2dキャラクターを動かせるライブラリを使用しました
こだわった点はキャラクターが音声の音量に応じて口パクの大きさを変える(VOICEVOX利用時のみ)ところです。
VOICEVOXを起動する場合はなつきちゃん様の記事(https://note.com/natukichan/n/n016bcd171da0)を参考にしていただきCORS Policy Modeをallにする必要があります。
ソースコード:TypeScritファイル、HTMLファイル
もともとQualtricsというアンケートサイトで動かすアプリのひな形として作成したのですが、QusltricsのJavaScriptに 対する制限が多く、CDN経由でビルドしたJSファイルをQualtrics上で読み込む方式にしたためとても煩雑なコードとなりました。