嗜好化するToDo管理(17) 音声でハンズフリー化する

こんにちは、パレイド思想部です。

前回はAIチャットによる壁打ちを紹介しました。しかし、画面に向かってキーボードを叩くのが最適な場面ばかりではありません。今回は音声入出力の統合です。

キーボードとマウスだけが入力ではない
実装: Whisper + VoiceVox
振り返り
追記：デモ環境

キーボードとマウスだけが入力ではない

手が塞がっている場面でも記録したい。散歩中に思いついたアイデアをタスクに追加したい。音声は最も自然なインターフェースです。思考→発話→記録のパスが短く、画面を見続ける疲労も軽減できます。

HigherSelfは現在は Mac 環境でのみ動作しますが、ベースは Obsidian や VS Code で管理できるMarkdownファイルで、さまざまな局面で取ったメモを追加することができます。

また、対となる音声出力（読み上げ）も含め、視覚に頼らない情報伝達手段は有用です。時報チャイム、タスクの読み上げ、AIチャットの応答——耳からの情報は、目で画面を追うのとは異なるチャンネルで脳に届きます。

スマホでのメモは便利ですが、さまざまな情報が目に入ってしまうため、集中が途切れることもあります。ToDo管理ツールが音声に対応することで、こまめに顔や視線を落とす必要がなく、手をキーボードやマウスから離さず作業を継続できる点も、集中を妨げない快適なポイントとなります。

実装: Whisper + VoiceVox

HigherSelfでは、音声認識には Whisper を、発話には VoiceVox を利用しています。

音声認識: Whisper.cpp

音声認識には、OpenAI の Whisper を使っています。C++実装のwhisper.cppを利用し、Apple Silicon のハードウェアアクセラレーションで高速に認識。ブラウザの MediaRecorder API でマイク入力を録音し、Whisper に渡して文字起こしを行います。