NTT、ビッグデータ活用や音声処理など基礎研究の成果を公開

WirelessWire News編集長。日経BP社でネットワーク、モバイル、デジタル関連の各種メディアの記者・編集者を経て独立。ITジャーナリスト、フリーランスライターとしても雑誌や書籍、Webサイトに幅広く執筆している。

NTTは2013年6月3日、NTTコミュニケーション科学基礎研究所（以下、NTT研究所）の研究成果を、都内で報道陣に公開した。ビッグデータを活用したデータ解析やプライバシー確保、音声処理技術を使ったデモなど興味深い研究が披露された。

今回の報道陣向けの成果公開は、6月7日、8日に京都府相良郡精華町のNTT研究所施設で開く研究所の一般公開である「オープンハウス2013」に先駆けたもの。オープンハウス2013で展示する4カテゴリー、30点の研究成果のうち、7点をピックアップしてデモなどを交えて説明した。

●ビッグデータから多種のデータを同時に解析
ビッグデータの新しい活用の仕方を提案するのは「NTT研究所でのビッグデータ解析の取組み」の展示。ビッグデータには膨大で、なおかつ多種多様な情報が含まれている。こうしたビッグデータに「機械学習技術」と呼ぶ統計的な処理技術を施すことで、未来を予測しようという研究だ。デモでは、Twitterのまとめサイトの情報を4年分集めたビックデータから、あるキーワードに対して「関連する単語」「投稿したユーザー」などが統計的に現れるパターンを抽出していた。ビックデータを統合してデータ解析することで、単一のデータからでは見えてこない人や社会の動向が把握できるようになるという。

▼「サントリー」で解析すると、「チョコ」「バレンタイン」「スパークリング」などの単語と関連してツイートされていることがわかる

●環境モニタリングを省力化するデータ圧縮技術
農業ICTや被災地モニタリングなど、さまざまな環境データを収集して統計的に活用する情報分析が注目されている。しかし、そのためには多くのセンサーを実際の農地などに配置する必要がある。そこで問題になるのがセンサーの電源。内蔵した電池をできるだけ長時間使えるようにするために開発したのが「相関性を用いたセンサデータ圧縮技術」だ。センサーが取得したデータを圧縮してデータ量を減らすことができれば、通信にかかる消費電力が削減でき、電池の持ちにつながる。研究では環境データは近隣では「似ているデータ」になることに着目。データから情報を間引いて送り、似ているデータを使って復元する方法で、従来の手法よりも2分の1に情報量を圧縮した。

▼データの一部を間引いてデータ量を減らし（圧縮）、他のセンサーの「似ているデータ」を使って復元する様子

●位置情報活用とプライバシー保護を両立
スマートフォンなどの普及により、位置情報を使ったサービスが急速に普及する半面、そのプライバシー保護が懸念されている。NTT研究所では「仮名（かめい）交換による位置プライバシー」の研究で、位置情報の活用とプライバシー保護を両立させる技術を確立した。仮名交換とは、ユーザーAとユーザーBがすれ違うときに、位置情報に付けた名前（仮名）を交換してしまうというもの。「A」の仮名を持つデータは、最初はユーザーAの行動履歴を示すが、交換後はユーザーBの行動履歴を示す。こうした繰り返しにより、個人の行動を特定できなくした上で、位置情報の統計的な処理に利用する。この研究では、併せて位置プライバシーの保護度合い（すなわち安全度）を数値で示す方法も提案している。

▼仮名交換の考え方。十字路で「仮名」を交換し、本来の人の行動（左）と「仮名」データの人の行動（右）を変えてプライバシーを保護する

===

●外国語を”自然な”日本語に翻訳
外国語を機械翻訳すると、不思議な日本語になってしまうことが多い。これをより自然にするための技術が「英語・中国語・韓国語から日本語への統計翻訳」だ。これは自然な日本語への翻訳に主眼を置いた技術で、外国語と日本語の間で異なる「語順」に着目した。たとえば、英語や中国語では「文の前半」に置かれる動詞を、翻訳の前処理として日本語の動詞の語順である「文の最後」に並べ替える。その後に翻訳することで、高い精度で日本語に翻訳できるというしくみだ。この技術の適用の有無で、「ひと目でわかる」ほど日本語の自然さに違いが出るという。

▼デモでは中国語から日本語に翻訳。一番上の行の中国語の動詞を、2行目では中国語のまま文末に移動。その後日本語に翻訳すると、日本語の語順に従った翻訳ができる（3行目）

●日本人の英語をネイティブらしく変換
音声処理の研究の1つが「非負値時空間分解法に基づく発話リズムの抽出」だ。これは音声信号から「発音」と「リズム」の2つの要素を分離する技術。これにより、音声のリズムだけを取り出して自由に制御できるようになった。応用の例として、日本人の英語の発音を、ネイティブのリズムに変換することで「ネイティブっぽい発話」に変えるデモを行っていた。

▼いわゆる”ジャパニッシュ”が、かなりネイティブに似た発話に修正されていて、この技術の有用性を示したデモ

●自然に発生した音声の認識エラー率をぐんと下げる
音声認識は、機械に向かって意識して発声すればかなりの認識率を得られる。一方、講義などで自然に発生した言葉や騒音の中の言葉には不明瞭な部分も多く認識率が下がる。「話者や発音スタイルの多様性に頑健な音声認識技術」のデモでは、講義の音声を認識した際に従来技術が30％前後だったエラー率を、新技術で20％前後まで引き下げられたことを示した。「特徴抽出」「音素推定」「出力文推定」という音声認識の3つの要素を連携させて学習させる「一体型モデル学習」と呼ぶ技術を開発し、エラー率を引き下げることに成功した。

▼上段が「正解」、中段が「従来技術」、下段が「新技術」。赤い部分がエラーで、エラー率が下がっていることがわかる

●「錯視」を研究して人間の視覚を追求
最後に、NTT研究所の研究の中でもユニークな「ヒューマンサイエンス」の研究の紹介があった。「錯視からわかる脳の物体認識の仕組み」というもので、ものを見誤る「錯視」を研究している。今回は、ある物体の画像を見続けると、その後に見る物体の形や質感が変わって感じられるという新しい錯視を世界で初めて発見し、そのデモを披露した。人間が視覚の認識に使っている情報を理解することで、CGなどの低コストでの作成につながる可能性があるという。

▼左がギザギザ、右につるつるの物体を見続けてから、左右同じ物体を見せられると、人間の視覚では「左につるつる」「右にギザギザ」が見える

Tags

NTT、ビッグデータ活用や音声処理など基礎研究の成果を公開

Newsletter

Related Articles