2022.4.19

StarGAN v2: Diverse Image Synthesis for Multiple Domains

Yunjey Choi, Jaejun Yoo, Jung-Woo Ha

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 8188-8197

近年,GANを用いた画像のスタイル変換に関する研究が盛んにおこなわれているが,既存の手法では多様性,もしくは拡張性の面で問題を抱えている.そこで本研究はその2つの問題を解決するStarGAN-v2を提案した.
提案手法はCelebA-HQとAFHQの2種類のデータセットを用いた実験から,視覚的品質,多様性,拡張性の面で既存の手法に対する優位性を示した.

(発表者:矢部 涼介)


2022.4.26

Deep Implicit Templates for 3D Shape Representation

Zerong Zheng

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 1429-1439

深 層暗黙関数(Deep implicit functions:DIF)はそのコンパクトさと強力な表現力により3Dビジョン界隈での人気が高まっているが,DIFで表される形状間で密な対応やそ の他のセマンティック関係を推論することは依然として課題となっている.そこでDIFをより解釈するためのDeep implicit Templatesを提案する.この論文の鍵となるアイデアは,暗黙関数のテンプレートの条件付き変形としてDIFを定式化することにある.

(発表者:大平 悠貴)


2022.5.17

Video-Based Depression Level Analysis by Encoding Deep Spatiotemporal Features

Mohamad AI Jazaery, Guodong Guo

IEEE Transactions on Affective Computing, 2018, pp. 262-268

う つ病は,人間の感情や考え方,睡眠などの日常的な活動に深刻な影響を与える.本論文では,Beck Depression Inventory II (BDI-II) 値を推定する新しいフレームワークであるRNN-C3Dを提案する.RNN-C3Dによって,連続した顔の表情から,局所的および大域的な時空間情報をモ デル化し,抑うつ度を予測することができるようになった.うつ病データセットに対して実験を行ったところ,最先端の視覚ベースのうつ病分析手法と比較し て,本手法が有望であることが示された.

(発表者:日野 湧太)


2022.5.24

Remote Heart Rate Measurement From Highly Compressed Facial Videos: An End-to-End Deep Learning Solution With Video Enhancement

Zitong Yu, Wei Peng, Xiaobai Li, Xiaopeng Hong, Guoying Zhao

IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 151-160

非接触で心臓の活動を測定するrPPG(Remote Photoplethysmography)は様々な場面で利用されている.
既存のrPPGでは,顔画像の非常に細かい部分の分析に依存しているため,ビデオ圧縮の影響を受けやすい.
本論文では,高圧縮映像からrPPG信号を復元するために,隠れたrPPG情報の強調とアテンションネットワークを用いた2段階のend to end手法を提案する.
高圧縮映像に対して本手法を適用したところ,既存手法よりもロバストに復元できた.

(発表者:大久保 匠)


2022.5.31

Infant Facial Expression Analysis: Towards a Real-Time Video Monitoring System Using R-CNN and HMM

Cheng Li, A. Pourtaherian, L. van Onzenoort, W. E. Tjon a Ten, P. H. N. de With

IEEE Journal of Biomedical and Health Informatics, 2020, pp. 1429 - 1440

乳 児は自分の気持ちをほとんど明確に表現できないため,逆流症などの病気に苦しんでいる幼児を手動で監視することは重要である.本研究では,乳児の表情や状 態を分析するためのビデオベースの乳児モニタリングシステムを提案する.本システムは,乳幼児の表情・状態検出,物体追跡,検出補正の3つの要素から構成 されている.提案されたシステムは,高速R-CNNを使用した式検出と,前のフレームからの情報を分析し,隠れマルコフモデルを利用した補正検出を組み合 わせたものに基づいている.提案手法による実験を行った所,高い検出精度を示した.

(発表者:郭 浩通)


2022.6.21

Remote sensing image colorization using symmetrical multi-scale DCGAN in YUV color space

Min Wu, Xin Jin, Qian Jiang, Shin-jye Lee, Wentao Liang, Guo Lin, Shaowen Yao

The Visual Computer: International Journal of Computer Graphics, Volume 37, pp 1707–1729 (2021)

画 像のカラー化技術はグレイレベル画像や単一チャンネル画像に対してよく用いられるが,特にリモートセンシング画像において非常に重要な処理である.本論文 では,敵対的生成ネットワーク(GAN)に基づくリモートセンシング画像のカラーリングのための新たな手法を提案する.提案手法では,オートエンコーダの 原理を用いた対称構造に加え,マルチスケール畳み込み演算も取り入れることで,画像の異なる特徴を効率的に抽出することを実現した.この手法では,RGB からYUV色空間に変換し,Yチャンネルを入力としてモデル全体を学習させることで,UチャンネルとVチャンネルを予測できるようにする.予測されたU, Vチャンネルと元のYチャンネルを連結し,最終的なカラー画像を取得する.異なるカラー化手法の性能と比較した結果,提案手法は視覚的品質と客観的指標の 両方において良い性能を持つことが示された.

(発表者:廣瀬 郁美)


2022.6.28

Global-Local Transformer for Brain Age Estimation

Sheng He , P. Ellen Grant , and Yangming Ou

IEEE Transactions on Medical Imaging, vol. 41, no. 1, pp. 213-224, Jan. 2022, doi: 10.1109/TMI.2021.3108910.

深 層学習を用いた脳のMRIに基づく脳年齢推定手法を提案する.近年,このような研究が多くなされてきたが,そのほとんどがMRI全体から特徴抽出を行って おり,細かな特徴を考慮しておりませんでした.そこで,本論文ではGlobal-Local Transformerを提案している.提案するモデルは画像全体の特徴に加えて細かな特徴までも抽出することが出来る.提案手法と従来手法を比較したと ころ,精度の向上が見られ,推定年齢と実年齢との誤差を2.7歳に低減することが可能となった.また,MRIのどの部分が年齢推定に有効であるかという考 察もしている.

(発表者:小野 可夢偉)


2022.7.5

Modified RGB Cameras for Infrared Remote-PPG

Wenjin Wang and Albertus C. den Brinker

IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING, VOL. 67, NO. 10, OCTOBER 2020

近赤外光は、人間の目には見えない光であるため、暗闇での応用が期待されている。しかし,可視光では脈波は容易に取得可能ですが、近赤外では正常な取得が難しい。
そこで、既存のRGBカメラをNIR-PPGに適合させることを提案した。具体的には,赤外におけるRGBチャンネルのスペクトルリークを利用した。ま た,狭帯域のデュアルバンド光学フィルターと組み合わせることで、赤外におけるRGBチャネルのスペクトル漏れを防ぐことが可能である。実験に用いられた カメラの構造は簡単で、費用対効果も高い。また、複数の狭帯域NIRカメラに匹敵するパルスレート抽出性能を達成することが示された。

(発表者:足田 幸一)


2022.7.19

Photorealistic Material Editing Through Direct Image Manipulation

Károly Zsolnai-Fehér, Peter Wonka, Michael Wimmer

Eurographics Symposium on Rendering 2020, Volume 39, Number 4

光 輸送アルゴリズムのためのフォトリアリスティックなマテリアルを作成する際、望ましい芸術的効果を達成するためには、マテリアルのパラメータを慎重に調整 する必要があります。これは、専門的な知識を持ったアーティストを必要とする長時間のプロセスです。本研究では、初心者や中級者でも画像処理の基本的な知 識があれば、高品質なフォトリアリスティックなマテリアルを合成できるようにすることを目的とした手法を提案します。本手法は、ニューラルネットワーク拡 張型オプティマイザとエンコーダニューラルネットワークの長所を組み合わせることで、30秒以内に高品質な出力結果を得ることができます。


(発表者:岩田 一希)


2022.7.19

Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation

Zhuangwei Zhuang, Rong Li, Kui Jia, Qicheng Wang, Yuanqing Li, Mingkui Tan

IEEE/CVF International Conference on Computer Vision, 2021, pp. 16280–16290.

セ マンティックセグメンテーションは自動運転やロボット工学など,多くのアプリケーションのシーン理解において重要である.RGBカメラとLiDARを搭載 した自律走行車では,ロバストかつ正確なセグメンテーションのために,異なるセンサーからの相補的な情報を融合することが極めて重要である.しかし,既存 の融合ベースの手法は,2つのモダリティの間に大きな違いがあるため有望なパフォーマンスを達成できない可能性がある.そこで本研究では,RGB画像から の外観情報と点群からの空間深度情報の2つのモダリティからの知覚情報を利用する,知覚考慮型マルチセンサフュージョン(PMF)と呼ばれる協調的融合方 式を提案する.2つのベンチマークデータセットに対する実験により,nuScenesにおいて,我々のPMFはmIoUで最先端手法を0.8%上回った.

(発表者:宮崎 凌伍)


2022.7.26

A Methodology for Multisensory Product Experience Design using Cross-Modal Effect : A Case of SLR Camera

Maki Takuma, Yanagisawa Hideyoshi

International Conference on Engineering Design : ICED19 August 2019

顧 客は製品体験の過程で、視覚、聴覚、触覚など複数の感覚を使用し、複数感覚が相互に作用して知覚を変化させている。本論文では、クロスモーダル効果を同時 刺激に適用することで、多感覚製品体験をデザインする手法を提案する。本手法の有効性を多感覚製品の代表格である一眼レフカメラを事例として実証した。

(発表者:後藤 哲朗)


2022.8.2