
これは、すごい。
midomiの鼻歌検索もすばらしかったが、それを上回る可能性&実用性。
私がはじめて「ふつうに使ってみよう」と感じた音声入力ソフトウェア。
「しゃべったー」は、文字通りiPhoneにむかってしゃべってことがそのままつぶやき=tweetになるというiPhoneアプリ。
使い方は、
にあるとおりなのだけど、今までの音声入力ソフトウェアと決定的に違う点が二つあって、それが秀逸。
形態素ごとに再入力が可能
![]() 「私の名前は小飼弾」って言ったのに… |
![]() 「こがいだん」としゃべりなおして… |
---|---|
![]() 「子飼弾」を「小飼弾」にして… |
![]() 「描い」「た」「ん」はゴミ箱へ。 |
これ、音声入力付きのIMEですよ!iPhoneに独占させとくのもったなすぎdeath!
殺速な部分はローカルに、複殺な部分はクラウドに

このアプリ、758KBしかありません。弾言 for iPhoneなんか14MBもあるのに(笑)。それで音声認識してるなんてすごい!?
してないんですよ、これが。
なぜそうとわかったかといえば、この画面。
そう。実際の音声認識はサーバーがやってるんです。
iPhone側は、入力した音を、そのままサーバーに送りつけているだけ。

gjyutuya1: 音声データから辞書のインデックスになるようなデータを作成して、検索はサーバー側で処理している感じなのでしょうか? RT @dankogai: やはり音声認識はサーヴァーでやってた http://twitpic.com/qvv0j

dankogai: いや、音声全体を丸投げしてると思う。doremiみたく<@gjyutuya1 音声データから辞書のインデックスになるようなデータを作成して、検索はサーバー側で処理している感じなのでしょうか?<@dankogai http://twitpic.com/qvv0j

gjyutuya1: 圧縮しても結構なデータ量になりそうな気がするのですが、サーバーの負荷とかトラフィック間に合うのでしょうか? doremi調べてみます。ありがとうございます!! RT @dankogai: いや、音声全体を丸投げしてると思う。doremiみたく
すみません、doremiでなくてmidomiでした。
業務連絡はさておき、なぜ音声をiPhoneで(ほとんど)前処理していないかと弾言できるかというと、音声は結構なデータ量にならないから。

iPhone SDK アプリケーション開発ガイド
Jonathan Zdziarski
近藤誠監 / 武舎広幸 / 武舎るみ訳
[原著:iPhone SDK Application Development]
mSampleRate is the number of samples that will be captured per second. 8000 is suitable for voice recording. 44100 samples per second is used for Audio CD quality recording.
音楽ならとにかく、音声であれば8kHz、モノラルで十分。16bitで量子化しても、16KB/s。しゃべったーでは最長15秒なので、圧縮なしでもたかだか300KB。写真よりかさばらないのです。
そして音声をただファイルにするだけなら、iPhoneのAPIでも十分。「iPhone SDK アプリケーション開発ガイド」のP.180あたりにも登場します。この場を借りて献本御礼。
要するに、しゃべったーというのは音声入力付きSocial IMEに、Twitterクライアントがついたものだと言えばよいでしょう。
で、Twitterクライアントとしての部分はまだまだ荒削り。たとえばRTの時には文節が全部ひっくりかえって挿入されるというトホホなバグもあります。
しかし、ヴォーカルIMEとしてのしゃべったーの実力、そしてUIのありようは、本物。
株式会社カタログの将来は明るい。セカイカメラともコラボしてほしいなあ。
Dan the Shabetter Tweeter
http://oshio-movie4.blogspot.com/
今回の映像では薬物を使用した様子は見られないが、なんとテレビで見たことのある人が・・・
●押尾学有罪!!野口美佳所有の問題の部屋での乱交パーティー映像流出!!
http://oshio-movie4.blogspot.com/