icon

これは、すごい。

midomiの鼻歌検索もすばらしかったが、それを上回る可能性&実用性。

私がはじめて「ふつうに使ってみよう」と感じた音声入力ソフトウェア。

しゃべったー」は、文字通りiPhoneにむかってしゃべってことがそのままつぶやき=tweetになるというiPhoneアプリ。

使い方は、

にあるとおりなのだけど、今までの音声入力ソフトウェアと決定的に違う点が二つあって、それが秀逸。

形態素ごとに再入力が可能

「私の名前は小飼弾」って言ったのに…

「こがいだん」としゃべりなおして…

「子飼弾」を「小飼弾」にして…

「描い」「た」「ん」はゴミ箱へ。

これ、音声入力付きのIMEですよ!iPhoneに独占させとくのもったなすぎdeath!

殺速な部分はローカルに、複殺な部分はクラウドに

このアプリ、758KBしかありません。弾言 for iPhoneなんか14MBもあるのに(笑)。それで音声認識してるなんてすごい!?

してないんですよ、これが。

なぜそうとわかったかといえば、この画面。

そう。実際の音声認識はサーバーがやってるんです。

iPhone側は、入力した音を、そのままサーバーに送りつけているだけ。

すみません、doremiでなくてmidomiでした。

業務連絡はさておき、なぜ音声をiPhoneで(ほとんど)前処理していないかと弾言できるかというと、音声は結構なデータ量にならないから。

Trails in the Sand ? Blog Archive Exploring iPhone Audio Part 1 ?
mSampleRate is the number of samples that will be captured per second. 8000 is suitable for voice recording. 44100 samples per second is used for Audio CD quality recording.

音楽ならとにかく、音声であれば8kHz、モノラルで十分。16bitで量子化しても、16KB/s。しゃべったーでは最長15秒なので、圧縮なしでもたかだか300KB。写真よりかさばらないのです。

そして音声をただファイルにするだけなら、iPhoneのAPIでも十分。「iPhone SDK アプリケーション開発ガイド」のP.180あたりにも登場します。この場を借りて献本御礼。

要するに、しゃべったーというのは音声入力付きSocial IMEに、Twitterクライアントがついたものだと言えばよいでしょう。

で、Twitterクライアントとしての部分はまだまだ荒削り。たとえばRTの時には文節が全部ひっくりかえって挿入されるというトホホなバグもあります。

しかし、ヴォーカルIMEとしてのしゃべったーの実力、そしてUIのありようは、本物。

株式会社カタログの将来は明るい。セカイカメラともコラボしてほしいなあ。

Dan the Shabetter Tweeter