第113回 音声言語情報処理研究会 アブストラクト集

(1) 日本語話し言葉音声における半教師ありDNN学習の検討
    加藤 拓,篠崎 隆宏(東京工業大学)

音声認識システム開発における書き起こしコスト削減のために,Deep Neural 
Network (DNN) 音響モデルのための効果的な半教師あり学習アルゴリズムの実
現は重要である.少量のラベル付き音声データと大量のラベルなし音声データを
用いた半教師あり学習では,まずラベル付きデータを用いて認識システムを学習
し,それを用いてラベルなし音声を認識し,その結果をラベル情報の代わりとし
て用いるのが,典型的な枠組みである.その具体的な実現方法としては,学習時
と認識時で同じネットワークを用いる手法の他,学習時には出力層を分岐させた
ネットワークを用いる手法や,或いはネットワークの出力層を学習の途中で置換
する手法などが提案されている.また学習のスケジューリングについても,種々
の方法が考えられる.本研究ではこれらの手法を日本語話し言葉音声をタスクと
して体系的に比較すると共に,教師なし学習により得られたクラスタ情報と組み
合わせた手法について検討を行う.


(2) NECの音環境理解技術と国際技術評価イベントDCASE2016への取り組み
    近藤 玲史,小松 達也,戸泉 貴裕,加藤 正徳,仙田 裕三
    (NEC データサイエンス研究所)

NEC における音環境理解技術への取り組みについて紹介する.音響監視を中心に,
技術要素としての音響イベント検知・音源方向推定技術を概説する.企業におけ
る研究開発活動で重要な実証活動と技術評価活動について,特に後者で DCASE 
を活用した事例を紹介する. 


(3) PepperおよびIBM Watsonの全貌と驚異の活用法
    中山 五輪男(ソフトバンク/ソフトバンクロボティクス)

昨年 6 月からの Pepper 一般販売開始および 10 月からの企業向け Pepper 販
売開始により,既に国内には 1 万台以上の大変多くの Pepper が導入されてい
ます.様々な業種業態の国内企業が Pepper をビジネス分野で活用しており,こ
の流れは日本から世界へと拡がろうとしています.また世界的な人工知能ブーム
の到来により,米 IBM 開発の IBM Watson を筆頭に様々な人工知能システムが
登場して,これまた企業が導入に向けて検討を開始したり,既に活用されていま
す.そこで今回の講演では Pepper のロボットとしての実力や機能概要をはじめ
国内の Pepper 企業導入事例や企業向けの Pepper ソリューション,さらには 
IBM Watson の概要やソフトバンク社での活用事例もデモ (驚きのデモです) を
交えながら詳しく紹介させていただきます.必見の内容です.


(4) 「人工知能」技術の応用と実用化
    緒方 淳(産業技術総合研究所)

本招待講演では,産業技術総合研究所人工知能研究センターにおける,最近の人
工知能技術に関する応用研究とその実用化について述べる.まず,音声認識に関
する事例として,音声情報検索 Web サービス 「PodCastle」 の開発経緯と運用
結果,ならびに実用化・ビジネス展開について報告する.さらに,振動・音響解
析技術,機械学習技術の応用事例として,現在 NEDO プロジェクトとして推進し
ている風力発電システム異常検知の研究開発について説明する.


(5) 日本語音声教育支援システム OJAD の開発とその運用 〜実システムの開発・
運用を通して学んだこと〜
    峯松 信明(東京大学)

日本語音声合成の技術を応用した,日本語音声教育 (韻律教育) を支援する 
web システム,OJAD (Online Japanese Accent Dictionary ) [1] を開発し,継
続的に運用している.当初の予想を大きく裏切るアクセス数を得ており,全世界
の日本語教育現場に浸透している.既に 14 ヶ国語に翻訳され,本システムの講
習会も 27 ヶ国,約 90 回開催するに至っている.本発表では,音声科学が得た
様々な知見や,その応用となる音声技術を広く社会に浸透させるためには何が必
要か,という観点から,本システムの開発・運用を通して学んだことを述べさせ
て戴く.と同時に現在検討しつつある,新たな活動についても報告する.


(6) スポーツ中継のリアルタイムデータからの解説音声自動生成実験
    佐藤 庄衛,熊野 正,清山 信正,今井 篤,山田 一郎(NHK)

スポーツ競技のラジオ中継放送では,競技の進行状況が音声だけで理解できるよ
うに実況されている.一方,テレビの実況音声は,得点など映像上に表示されて
いる情報や映像を見ただけで容易に理解できる情報の一部はコメントされていな
いため,音声だけで競技の進行を理解することが難しい.NHK では,視覚に障害
のある方など映像を伴わずに視聴する方々が,音声だけで楽しめるスポーツ中継
の実現を目指して,テレビのスポーツ実況を補完する音声ガイドの自動生成に取
り組んでいる.本稿では,この自動生成システムの大規模な検証実験を紹介する.


以上