2025.10.17
Remote blood pressure estimation using BVP signal features from facial videos
Xiujuan Zheng, Binghang Zou, Chang Zhang, Haiyan Tu
Pattern Recognition Letters
本研究では、顔のビデオから非接触で脈波信号を取得し、連続的な血圧推定を行うための新しいrPPG手法を提案している。rPPG信号は血圧推定に有用な心血管情報を多く含むが、環境光や動きなど外乱の影響を受けやすく、信号品質の低下が精度に直結するという課題がある。そこで本研究では、信号処理と特徴選択を組み合わせた高精度化手法を構築した。まず、適応チャープモード分解を用いてノイズを抑制し、相関係数に基づく波形品質分析によって高品質な脈波セグメントを抽出した。次に、平均影響値(MIV)アルゴリズムにより血圧推定に有効な特徴を選択し、BPニューラルネットワークで血圧を推定。さらに、スズメ探索アルゴリズムによりネットワークパラメータを最適化した。自作データセットによる検証の結果、提案手法は標準的な血圧測定基準を満たし、非接触かつ高精度な血圧推定を実現した。
(発表者:杵渕 雅也)
2025.10.17
Real-time driver drowsiness detection using transformer architectures: a novel deep learning approach
Hassan, Osama F., Ahmed F. Ibrahim, Ahmed Gomaa, M. A. Makhlouf, and B. Hafiz.
*Scientific Reports* 15, no. 1 (2025): 17493.
本研究は、Transformerアーキテクチャと転移学習を活用したリアルタイムドライバー眠気検出フレームワークを提案する。MRL Eyeデータセットを用いた目の開閉分類では、ViTとSwin Transformerがそれぞれ99%以上の高精度を達成し、既存手法を上回った。NTHU-DDDやCEWなど多様なデータセットでの評価により、モデルの汎化性と堅牢性も確認された。Haar Cascadeによる顔・目検出やリアルタイム眠気スコアリング、CAMによる解釈性向上も統合され、事故防止に寄与する信頼性の高いシステムとなっている。今後は、マルチモーダル入力や組込み環境への最適化などにより、実運用性と安全性のさらなる向上が期待される。
(発表者:村井 利成)
2025.10.24
In-the-wild Material Appearance Editing using Perceptual Attributes
J. Daniel Subias, and M. Lagunas
EUROGRAPHICS 2023
本研究では、単一画像に基づく外観編集フレームワークを提案する。この手法では、「光沢がある」「金属的である」といった高レベルの知覚的属性を増減させることで、物体のマテリアル外観を直感的に変更することができる。入力として使用するのは、形状・材質・照明が制御されていない「自然環境下で撮影された1枚の物体画像」であり、逆レンダリングを必要としない。我々の手法は生成モデルに基づいており、入力画像の高周波ディテールを保持しつつ編集結果に反映させるために、新しいアーキテクチャ「Selective Transfer Unit(STU)」セルを考案した。学習には、物理ベースレンダリングで生成された合成画像ペアと、それに対応するクラウドソースによる高レベル知覚属性の評価データセットを用いた。実験の結果、提案するマテリアル編集フレームワークは既存手法を上回る性能を示し、合成画像、実際の自然画像、さらに動画シーケンスへの応用可能性を実証した。
(発表者:神取 歩)
2025.10.24
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views
Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
SIGGRAPH Asia 2025 (ACM TOG)
本研究では、カメラパラメータを持たない任意の画像群から、1回の順伝播で3Dガウシアン表現を生成する新しい手法を提案する。従来の3Dガウシアンスプラッティングは、SfMによるカメラ情報や多段階の最適化を必要とするため、汎用性や計算効率に課題があった。そこで本研究では、Geometry Transformerにより画像特徴からカメラ姿勢と深度を同時推定し、各ピクセルごとにガウシアンの形状・色・信頼度を回帰するガウシアンヘッドを組み合わせた。さらに、Differentiable Voxelizationによりピクセル単位ガウシアンを信頼度重み付きで統合し、冗長性を削減した。VGGTからの擬似ラベル蒸留と幾何一貫性損失により3D構造の破綻を抑制し、RGB画像のみで高品質な3D再構成を実現した。評価の結果、AnySplatは既存手法と同等の精度で、数千倍高速な3D生成を達成した。
(発表者:山﨑 奎典)
2025.10.31
Camera-Based Neonatal Blood Pressure Estimation From Multisite and Multiwavelength Pulse Transit Time—A Proof of Concept in NICU
Yongshen Zeng , Yingen Zhu , Xiaoyan Song , Qiqiong Wang , Jie Yang, and Wenjin Wang
IEEE Internet of Things Journal ( Volume: 12, Issue: 13, 01 July 2025)
血圧(BP)は、新生児集中治療室(NICU)における早期警告と迅速な介入治療のための重要な生理学的パラメータである。しかし、新生児における非接触式血圧測定法の応用は、依然として十分に研究されていない。本概念実証臨床研究では、遠隔光電式脈波測定法(rPPG)から生成される多部位・多波長の脈波伝播時間(PTT)を用いた新生児血圧推定を提案する。NICUにおいて40例の新生児を対象に、3つの交互のフェーズ(安静時-血圧測定-安静時)でデータセットを作成した。5つの身体部位から得られた空間平均rPPG信号を用い、異なる身体部位から導出された多部位PTT(MS-PTT)および異なる皮膚層から導出された多波長PTT(MW-PTT)を含む複数のPTT特徴量を血圧推定のために算出した。多変量線形回帰(MLR)、サポートベクター回帰(SVR)、ランダムフォレスト回帰(RFR)の3つの機械学習モデルを、単変量および多変量回帰の両方に適用した。MS-PTTとMW-PTTを組み合わせた場合が最良の結果を示し、被験者依存モデリングを用いたMLRに基づき、SBPで平均絶対誤差±標準偏差(MAE±STD)7.65±7.48 mmHg、DBPで6.31±5.58 mmHg、MBPで7.29±7.29 mmHgを達成した。英国高血圧学会のガイドラインによれば、これらの結果はグレード C の要件を満たしている。これらの知見は、カメラベースの MS-PTT および MW-PTT 特徴を用いた非接触型新生児血圧推定の臨床的実証として初めてのものである。
(発表者:遠藤 響)
2025.11.7
End-to-End Multimodal Emotion Recognition Based on Facial Expressions and Remote Photoplethysmography Signals
Jixiang Li and Jianxin Peng
IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS, VOL. 28, NO. 10, OCTOBER 2024
感情は複雑な生理的現象であり、単一のモダリティ(情報源)だけでは人間の感情状態を正確に判定することは難しい。本研究では、顔表情と非接触型生理信号を統合したエンドツーエンドのマルチモーダル感情認識手法を提案する。顔映像データから顔表情特徴量と遠隔光電容積脈波(rPPG)信号を抽出し、これら2つのモダリティ間の相関を学習するためにTransformerベースのクロスモーダルアテンション機構(TCMA: Transformer-based Cross-Modal Attention)を導入した。その結果、顔表情と正確なrPPG信号を組み合わせることで感情認識の精度がわずかに向上し、さらにTCMAを用いることで性能が一層改善された。具体的には、快–不快(valence)および覚醒度(arousal)の二値分類精度はそれぞれ91.11%および90.00%を達成した。さらに全データセットを用いた実験では、顔表情モダリティ単独と比較して、valenceおよびarousalの二値分類でそれぞれ7.31%、4.23%の精度向上、またvalence–arousalの4分類では5.36%の精度向上が得られ、TCMAによるモダリティ融合の有効性と頑健性が確認された。この手法により、顔表情と非接触生理信号を用いた現実的なマルチモーダル感情認識の実現可能性が示された。
(発表者:板谷 優輝)
2025.11.7
Machine learning based classification of presence utilizing psychophysiological signals in immersive virtual environments
Shuvodeep Saha, Chelsea Dobbins, Anubha Gupta, Arindam Dey
Scientific Reports, 2024
VRのプレゼンス(臨場感)は体験の質や没入感を大きく左右するが、従来のアンケート方式には主観的偏りがある。本研究では、脳波(EEG)と皮膚電気活動(EDA)といった心理生理信号を用いて、VR内でのプレゼンス(高・中・低)のレベルを機械学習により客観的に分類する手法を提案した。22名の被験者がグラフィック精細度、音響刺激、レイテンシ、ハプティクスを伴うエンボディメントを系統的に変化させた3種類のVR環境をランダム順で体験。SVM、k近傍法、XGBoost、ランダムフォレスト、ロジスティック回帰、多層パーセプトロン(MLP)を比較した結果、MLPモデルが最も高精度で、平均正答率93±0.03%を達成した。さらにSHAP解析により、前頭・頭頂領域における相対バンドパワー(特にβ/θ比・α比)や微分エントロピーがプレゼンス識別に最も寄与することを明らかにした。本研究は、主観的アンケートに依存しない、客観的かつリアルタイムなプレゼンス推定の実現に向けた重要な一歩を示した。
(発表者:清原 大稀)
2025.11.14
Explainable feature selection and deep learning based emotion recognition in virtual reality using eye tracker and physiological data
Hanan Alharbi, Naveed Ishaque, Badar Alshamsi, Ameena Alsubaie, Sara Almutairi, Abdullah Alharbi, Rawan, Alqurashi, Abdulrahman Al-Sultan, Ibrahim Al-Zahrani, Nawal Al-Anazi
Frontiers in Medicine, 2024
VR環境における情動反応をより客観的に評価するため、本研究では生理信号(GSR・心拍・皮膚温)と視線データ(瞳孔径・注視・瞬目)を統合し、深層学習による感情認識モデルを構築した。64名の参加者が没入型VR空間で「ポジティブ/ネガティブ/ニュートラル」3種の情動シナリオを体験し、Empatica E4とHTC Vive Pro Eyeを用いてデータを収集。特徴選択にはBoruta Random ForestとRFEを併用し、主要特徴としてGSR平均値、心拍変動(SDNN)、瞳孔径分散、注視時間、皮膚温変動が抽出された。複数のモデル(SVM、RF、DNN、Bi-LSTM、Attention-LSTM)を比較した結果、Attention-LSTMモデルが99.99 %という最も高精度な正答率を達成した。さらにSHAP解析により、GSR・HRV・瞳孔径変化が感情分類に最も寄与する特徴であることが明示された。これにより、AIがどの生理・視線要素を重視して感情を判定しているかを可視化できた。本研究は、説明可能AIを備えたリアルタイム情動推定の実現に向け、VRを用いた医療・教育・メンタルヘルス領域への応用可能性を示す重要な成果を得た。
(発表者:韓 智樹)
2025.11.14
RANet: a custom CNN model and quanvolutional neural network for the automated detection of rheumatoid arthritis in hand thermal images
R. K. Ahalya, Fadiyah M. Almutairi, U. Snekhalatha, Varun Dhanraj & Shabnam M. Aslam
Scientific Reports, 2023
関節リウマチ(RA)の早期発見は治療管理に不可欠だが 、従来のX線やMRI等の診断法は高コストや温度変化を可視化できない課題があった 。本研究では、炎症による温度変化を非侵襲で捉えるサーマルイメージング に基づき、RA患者と健常者を自動分類する深層学習(DL)および量子コンピューティングの手法を提案した 。健常者50名・RA患者50名から取得した手のサーマル画像(計600枚、データ拡張後1440枚)を使用 。既存のDLモデル(ResNet101V2等)、カスタム開発した「RANet」モデル、および量子畳み込みニューラルネットワーク(QNN)の性能を比較した 。結果、カスタムのRANetモデルが最も高い分類精度95%を達成した 。さらに、RANetで抽出した特徴量を機械学習(ML)分類器で検証するハイブリッド手法も行い、「RANet + SVM」モデルが最高の精度97%を記録した 。本研究は、開発したRANetやQNNモデルが、RAを鑑別する正確な自動診断ツールとして、特にRA評価のための前スクリーニングツールとして有効である可能性を示した 。
(発表者:鈴木 伯)
2025.11.21
Multimodal Emotion Detection via Attention-Based Fusion of Extracted Facial and Speech Features
Dilnoza Mamieva, Akmalbek B. Abdusalomov, Alpamis Kutlimuratov, Bahodir Muminov, Taeg Keun Whangbo
Sensors, 2023
本研究は,顔表情と音声の2種類のモダリティを統合した多モーダル感情認識モデルを提案し,従来の単一モダリティに依存した感情推定の限界を克服することを目的としている。顔画像からはCNNを用いて局所的な筋肉の動きなどの低レベル特徴と,表情全体の構造変化を捉える高レベル特徴を抽出し,音声からはMFCCおよび波形特徴を取得した。これらの異なる特徴を単純に結合するのではなく,注意機構(attention mechanism)を導入することで,各モダリティの中で感情推定に有効な部分に高い重みを与え,情報を動的に統合している。実験にはIEMOCAPおよびCMU-MOSEIといった代表的な感情認識データセットを使用し,モデル性能を検証した結果,加重精度はそれぞれ74.6%および80.7 %を達成し,既存の単純結合モデルや非注意ベースモデルを上回る結果が得られた。これにより,attentionによる特徴融合がモダリティ間の冗長性を抑え,より頑健で精度の高い感情推定を実現することが示された。また,表情と音声の相補的関係を活用することで,照明や雑音,個人差といった外的要因に対しても安定した性能を維持できることが確認された。提案手法は,人間–ロボット対話やメンタルヘルス支援,教育分野におけるリアルタイム情動認識システムへの応用が期待される。
(発表者:重岡 拓郎)
2025.11.21
The Effect of Directional Tactile Memory of the Back of the User on Reaction Time and Accuracy
Ali Elshafei, Daniela Romano, Irene S.Fahim
Electronics, 2024
触覚フィードバックはヒューマン・マシン・インターフェース(HMI)に応用されているが、即時的な反応に用いられることが多く、特に背中への「方向性触覚記憶」(DTM)の持続時間や認知負荷下での影響については十分に研究されていなかった。本研究では、背中に提示された方向性触覚フィードバック(方向指示)をユーザーがどの程度記憶・保持できるか、またその記憶が認知負荷(テトリス)によってどう影響されるかを検証した。40名の被験者が参加し、9個の振動モーターを内蔵した触覚シートを使用した。実験1では、方向指示(触覚)から行動指示(視覚または触覚)までの遅延時間を10秒と20秒に設定し、反応時間とエラーを測定。実験2では、同様のタスクをテトリスプレイ(認知負荷)と同時に行った。実験1の結果、方向性触覚記憶は10秒後でも20秒後でも有意差なく保持されることが示された。また、行動指示は触覚(全モーター振動)で行うよりも視覚(フラッシュ)で行う方が、エラーが少なく反応時間も速かった。実験2では、テトリスによる認知負荷が加わると、エラー数と反応時間が有意に増加し、パフォーマンスが悪化することが確認された。NASA-TLXの評価でも、精神的負荷、フラストレーションの増大が報告された。本研究は、背中への方向性触覚記憶が最大20秒間持続可能であること、認知負荷や後続の触覚刺激によって妨害されうることを実証し、自動運転車などへの応用可能性を示した。
(発表者:田中 零響)
2025.12.5
(発表者:外山 幸太)
2025.12.5
(発表者:高橋 玲央)