コロンブスの卵的・音声認識ソフト

このページをDeliciousに追加 このページをはてなブックマークに追加 このページをYahoo!ブックマークに追加

2004年1月31日(土)版

コロンブスの卵的・音声認識ソフト

音声認識ソフトってどんな感じ?


一昔前、IBM社がTVCMで男性アイドル?を起用して「メールを声で送信できます」etc..のコマーシャルを打っていたけれども、いつのまにか"音声認識"というキーワード自体を耳にすることが少なくなった、と思う。(販売実績があまりよくなかったのか・・・?)
しかし最近出回っているカーナビ機器の中には、カーナビにマイク端子を接続し、目的地を音声で入力・検索できるタイプのものも少なくない。(もちろんタッチパネルで操作をすることも可能)つまりシーンに応じて、色々な入力方法をユーザがチョイス出来るようになった、というわけだ。実際に使用してみると最初は使用方法に戸惑うかもしれないが音声の方が確かに便利なのかもしれない。(といいつつ私は使用したことがないし、実際はカーナビさえ使用しない地図派。(^^;))

さて、今回は音声認識をPDA上で実現させる、音声認識ソフトを開発された(株)ドクターシュミットさんの音声認識ソフトを使用体験してみることとした。
対応OSはPocketPC2002 / CE.net対応だ。


開発元(株)ドクターシュミット 田中氏によると「このソフトはコロンブスの卵的なソフト。高い技術を駆使しているわけではないけれども、PDA上でサクサク動くために辞書の作り方を工夫しています。」とのこと。

そこで早速、音声認識ソフトの一つである「在庫管理システム」を使用してみる。
まずは、とあるスーパーなどの在庫管理シーンを想像する。

音声認識される辞書データ
音声認識による在庫管理システムの画面

[使用方法]
1.マイクに口を近づける
2.在庫を見ながら"商品名,個数"を読み上げる。「ガーリックソース・サン」
3.再度読み上げる「ガーリックソース・サン」2回読み上げることで登録できるらしい
#周りに人がいると不思議な人になるのでご注意
4.「"ガーリックソース・サン"登録しました。」音声が聞こえる
5.読み上げた製品がCSVファイルで出力される

ファイルの中身(例)
110010,ガーリックソース,3,,,日次,センター,がーりっくそーす,,


なるほど。このCSVファイルを管理することで、ハンズフリーで在庫の管理ができる。
さて、気になる認識率だが、読み間違えをしなければ割と高い感じ。ただ、マイクの性能が良すぎて色々な声を拾ってしまうらしく、静かな場所と騒々しい場所とでは全く認識度が違った。(マイクに口を近づければキチンと認識した)
また時々認識を間違うこともあるが、一度入力が間違えても再度読み上げることで入力が可能なので、要は入力慣れをすることが重要のようだ。
登録までの待ち時間も1秒ないので使用上は問題ないだろう。


そこでこの音声認識ソフトの特徴についてご説明しよう。

[特徴]
1.人識別は不要である
PDA上で動作させるために、誰がを音声を入力しても(同じ発音ならば)同じように
検索できる。
(IBM社からリリースされているVia Voiceは人識別が必要)

2.実際に検索対象音節、つまりどれ位の長さの単語を登録できるのか?
これはPDAの処理速度に関わってくる。
システム的には最大511音節まで登録できるが、PDAのCPU的に20音節位までを推奨されている。PDAはCPUの処理速度がPCよりも遅いため、検索時間がそれだけ長くなってしまうのだ。

3.検索対象の語数はどれだけか?
検索対象の語数は、本来は無制限なのにPDAのCPU的に1辞書あたり1000語迄が推奨されている。これも上記同様PDAのCPUの速度に依存している。
1000件以上のデータを検索したい場合は複数の辞書を作成し、絞り込み検索などを利用して何万件ものデータを検索することが可能であるらしい。


在庫管理システムの他にも介護補助システムも開発されているとのこと。
利用シーンによっては、便利で面白いものになるのではないだろうか。




コロンブスの卵的・音声認識ソフト

Reported by チャリエン


Last-modified: Sun, 24 May 2009 23:45:30 JST (3854d)