講座・教員知能情報学講座INTELLIGENT INFORMATICS

音声情報処理、画像情報処理、神経情報処理 などを学ぶ

知能情報学分野では、人間の知的な処理の仕組みを解明して高度な情報処理システムを作ることを目指して、言語や視覚などのマルチモーダル処理や、情報の推論に関する分野などへ展開します。特に、画像・音声などのメディアを中心とする知的情報処理技術を高度化するための画像処理とコンピュータグラフィックスを扱う分野、音声・言語処理を扱う分野、統計的情報処理に基づく推論技術を扱う分野を中心に教育・研究を進めます。 この分野の学習を通して、知能情報処理に対応できる知識や技術、画像や言語などのメディア処理システムの開発技法、機械学習などを修得し、知識基盤社会に重要な知能情報システムを開発できる人材の育成を目指します。

言語音声メディア工学グループ

人間の感情を理解するコンピュータを作ろう!

人間の口調や表情などの情報からその人の感情や意欲を推定したり、また逆に感情を込めた声や表情を作成したりするための技術を中心に、幅広い研究に取り組んでいます。

教員

研究テーマ

  • 人間の口調や表情からの感情推定

    人は口調や表情の変化から相手が喜んだり怒ったりしていることを、本研究室ではその口調や表情変化の特徴を機械学習器に学習させることで、話し手の感情や本心をリアルタイムで推定するための手法について研究しています。

  • 感情推定技術の社会的応用

    声や表情から感情を推定する技術を応用することで、相手がやる気になっているか、強がりやお世辞を言っているかなどの判別にも使えます。さらに、そのような本心を考慮して対話できるシステムについても研究を行っています。

  • 音源分離/声質変換

    特定話者の音声だけを抽出したり、他人の声に変換したり、人間の声に関する研究を行っています。特に、振幅や位相と言った音声情報を2次元の特徴量として扱うことにより、畳み込み等の深層学習との親和性を高めています。独自のVTuber育成も目的のひとつです。

  • 印象抽出

    人間が持つ印象決定をコンピュータに行わせるため、商品紹介文等のテキスト情報だけでなく、コーディネート写真等の画像を処理する技術を研究しています。シルエットによるサイズ感を抽出(Figure 3)したり、フレア感を抽出(Figure 4)したりすることにより、コーディネート写真から得られる雰囲気を決定します。

  • 観光情報学に関する研究

    旅行ブログエントリ中のテキストや画像を用いて、様々な観点から分類し、旅行者のみならず観光地を活性化するために役立つ情報を見つける研究をしています。しまなみジャパンと協力して集めた観光サイクリストの行動情報を分析する研究に展開しています。

  • テキストマイニングに関する研究

    新型コロナウイルス感染症に関する英語で書かれた学術論文が大量に生産されています。大量の文書集合から役立つ知識を見つけるテキストマイニング技術は今後ますます重要となります。ベンチャー企業を題材に、機械学習を用いてWebにある文書から企業情報を抽出・分析する研究を進めています。

場所および連絡先

パターン認識グループ

パターン(規則性)を見分ける、聴き分けるコンピュータを作ろう!

パターン認識とは、波形などの時間的信号や、文字、図形などの空間的信号を取り込んで、 その特徴を抽出・判断し、信号を属すべきカテゴリーに対応づける操作です。 研究室では、ビデオ(動画像)、オーディオ(音声、環境音)、楽曲、手書き文字、テキストなど (時)系列データのパターン認識に力を入れています。

教員

研究テーマ

  • 時系列データの階層構造モデル

    多くの時系列データについて、時間スケールの異なる階層構造を考えることができます。例えば、音声では、最上層は単語、中間層は音素(発音記号)、最下層はサブ音素とすることができます。また、スポーツ映像などのビデオは、図1に示すように、シーン、ショット、フレームという階層構造とすることができます。階層構造を持つ時系列データの表現には、従来より階層隠れマルコフモデル(HHMM)が用いられてきました。近年、多くの問題に対して、生成モデルよりは識別モデルの方がより良い性能を示すことが分かってきました。私達は、生成モデルである階層隠れマルコフモデルに対応する識別モデルである階層隠れCRF(HHCRF)を提案しています。人工データや実データ(脳波データ、バレーボール映像)のラベルづけ問題、すなわち、観測系列から最上層の状態系列(例えば単語列、あるいはシーン列)を推定する問題にHHMMとHHCRFを適用し、精度を比較しています。

    図1: スポーツ映像の階層構造モデル
  • 隠れマルコフモデルの変分ベイズ学習と環境音認識への応用

    確率モデルの学習でよく用いられる最尤法では、訓練データ数が少ない場合に過学習(オーバーフィティング)と呼ばれる、モデル化が訓練データに強く依存し、真のモデルとは異なるモデルが学習されるという問題が起こりやすいことが知られています。これに対して、変分ベイズ法は、最尤法とほぼ同じ計算時間で、ベイズ法の近似推論ができる手法であり、過学習が起こりにくいという性質を持っており、近年注目されています。 ベルの音、自動車のエンジン音など、周囲に存在する音声以外を音を環境音と言います。本研究では、上で説明した変分ベイズ法を環境音の認識に応用します。環境音を音声認識で有名な隠れマルコフモデルでモデル化しますが、モデル学習法として、変分ベイズ法を用います。環境音のサンプル(訓練データ)が少ない場合に、分類精度を向上させることが目的です。

  • ベイズ統計の応用に関する研究

    ベイズ統計では、データに対して、それが生まれる確率的な仕組みである生成モデルを仮定することで解析を行います。このアプローチは、データを類似した複数のグループに分けたり、将来の予測を行ったりと、様々な問題へ応用できます。

    3次元ベクトルをパラメータとして持つ生成モデルから画像が生まれると仮定すると、画像データベースの画像を、似た画像ほど近くに位置するように3次元空間へ配置する(埋め込む)ことができます(図2参照)。 3次元空間に配置された画像データベースは、例えば、フォトモザイク画像の生成に利用できます。元画像を格子に分割し、各小領域に似た画像を3次元に埋め込まれた画像データベースから見つけて、その小領域と入れ替えるのです。こうして作成されたフォトモザイク画像の例を図3に示します。

    図2: 3次元空間への埋め込み
    図3: フォトモザイク画像の例
  • 階層クラスタ分析によるラベルの階層構造の推定

    顧客データや行政統計データ等の統計データからそれらの母集団のある傾向を分析するといった多変量データ解析は近年盛んに行われており、階層クラスタ分析はそのデータ解析の一つの手法としてよく使われます。この研究では、階層クラスタ分析における標本のラベル(分類値)の階層性をボトムアップ的に推定することを目的としています。例えば、パターン認識グループという標本は、知能情報学講座というラベルに属しており、もう少し広い目で見ると知能工学科というラベルに属しており、さらに広い目で見ると情報科学部というラベルに属しています(組織図参照)。標本の集合が与えられたとき、こうした標本のラベルの階層性を推定することがこの研究の目的です。具体的な実データに対するこれまでの成果としては、窓ガラス等のガラス成分の標本集合からガラスの階層構造を同定する場合や音声データから抽出した音素成分の標本集合から音素の階層構造を同定する場合に、この研究が有効であることが示されています。

  • 曲線整合による形の分類

    与えられた二つの曲線に対して、一方の曲線上のある点とそれに対応するもう一方の曲線上の点を見つけるための曲線整合の手法は、パターン認識分野での幅広い応用が期待されます。例えば、曲線を手書き文字とすれば文字認識に、曲線を画像の輪郭とすれば画像認識や画像検索に応用することができます。この研究では、元は同じ二つの曲線のうちの一方が区分的に変形しても適当な曲線整合をとることができるアルゴリズムを求め、その曲線整合を使って区分的変形に対して影響を受けにくい形の分類をすることを目的としています。例をあげると、図4は同じ形(ト音記号)を表している手書き曲線の二つの対を示しています。それぞれの対(a)、(b)において、左の曲線をほぼ区分的に相似に変形させたのが右の曲線となっています。曲線上の点の番号は左から右の曲線への対応を示すもので、例えば、左の曲線の0番の点は右の曲線の0番の点に対応しています。二つの対(a)、(b)は、視覚的には適当な対応がとれていることがわかります。このような適当な対応を得るためのアルゴリズムを導き、それを基にして、同じ形を表す曲線を同じカテゴリーに分類すること(同じ形であると認識すること)がこの研究の目的です。

    図4: 区分的に相似な変形の例

場所および連絡先

研究室
情報科学部棟7階(710室~717室)

画像メディア工学・CGグループ

光の物理現象を解析する画像技術を実現しよう!

カメラで捉えた実物体の画像から、物体の形や表面の質感などを計測・認識する研究を行っています。様々な波長の光を照射したり、光の振動方向を解析することで、光の物理現象の解析を利用した画像処理技術に取り組んでいます。

教員

研究テーマ

  • 3次元形状復元

    現実のシーンの3次元情報を取得・解析・加工することで、より魅力的な映像を表現しようとしています。細かい凹凸のある表面形状まで復元することができます。左図の物体の3次元形状を計測した結果が右図になります。正確な3次元CGを自由に眺めることができ、そこに実在するように感じることができます。

    3次元形状計測システム
    (ビデオプロジェクタによる顔の計測)
  • 色彩情報と表面材質のCG表現

    物体表面の材質や微細構造の物理モデルの仮説を立て、光が反射・透過・吸収・放射・屈折する現象をシミュレートすることで、物体表面のリアルなコンピュータグラフィックスを計算する技術を開発しています。光源方向や視点を変化させながら大量の画像を撮影(サンプリング)することで、物体の反射特性や、見えの変化を計測し、CGレンダリング可能なモデルとして利用します。左図にあるような物体のツヤを解析するために偏光板を使って右図のようにツヤのない画像も撮影しています。これにより、通常のCGモデルとしては表現しにくい物体を、リアルにレンダリングできるシステムを目指しています。

  • 色覚に応じた画像の色変換

    画像中の色を解析し、色の識別が容易になるように画像処理をする技術を開発しています。ヒトの目は赤、緑、青の三色を知覚する細胞があります。ヒトが色を知覚する仕組みを利用し、様々な色覚の人に対応した色変換を行っています。

  • 異なる波長の光を利用した材質の識別

    可視光だけでなく紫外線や赤外線の波長域における光を利用することで、材質を識別する研究を行っています。左図は可視光の画像ですが、水が透明なので画像中のどの部分が水なのかが分かりません。右図は近赤外線の画像ですが、近赤外線では水は黒いので画像中のどの部分が水なのか分かります。

場所および連絡先

画像やCGに興味がある人、根気よく実験やプログラミングができる人を待っています。

研究室
情報棟、(610室、612室、614室、615室、616室)
情報別館、(303室、305室、309室)