嗜好化するToDo管理(17) 音声でハンズフリー化する

嗜好化するToDo管理(17) 音声でハンズフリー化する — 音声, ハンズフリー, Whisper 思想部

こんにちは、パレイド思想部です。

前回はAIチャットによる壁打ちを紹介しました。しかし、画面に向かってキーボードを叩くのが最適な場面ばかりではありません。今回は音声入出力の統合です。

キーボードとマウスだけが入力ではない

手が塞がっている場面でも記録したい。散歩中に思いついたアイデアをタスクに追加したい。音声は最も自然なインターフェースです。思考→発話→記録のパスが短く、画面を見続ける疲労も軽減できます。

HigherSelfは現在は Mac 環境でのみ動作しますが、ベースは Obsidian や VS Code で管理できるMarkdownファイルで、さまざまな局面で取ったメモを追加することができます。

また、対となる音声出力(読み上げ)も含め、視覚に頼らない情報伝達手段は有用です。時報チャイム、タスクの読み上げ、AIチャットの応答——耳からの情報は、目で画面を追うのとは異なるチャンネルで脳に届きます。

スマホでのメモは便利ですが、さまざまな情報が目に入ってしまうため、集中が途切れることもあります。ToDo管理ツールが音声に対応することで、こまめに顔や視線を落とす必要がなく、手をキーボードやマウスから離さず作業を継続できる点も、集中を妨げない快適なポイントとなります。

実装: Whisper + VoiceVox

HigherSelfでは、音声認識には Whisper を、発話には VoiceVox を利用しています。

音声認識: Whisper.cpp

音声認識には、OpenAI の Whisper を使っています。C++実装のwhisper.cppを利用し、Apple Silicon のハードウェアアクセラレーションで高速に認識。ブラウザの MediaRecorder API でマイク入力を録音し、Whisper に渡して文字起こしを行います。

チャット欄やポモドーロタイマーのコメント入力で利用できる音声入力ボタンを提供。🎤ボタンを押して話すだけで、タスクのコメントや説明に音声認識結果が挿入されます。

また、LLMに渡す際にはプロンプト指示で「ソースは音声の文字起こしである」ことを伝え、多少の誤字であれば文脈から意図を解釈してくれることも期待できます。

音声合成: VoiceVox

発話には、以前にも紹介したVoiceVox(ローカル音声合成エンジン)の API を利用しています。

時報チャイム、タスク読み上げ、AIチャットの応答読み上げに使用。日本語の自然な発話が可能で、ローカル実行のためレイテンシーもほぼありません。事務的な音声から、キャラクター性の高い音声まで選択肢が多いことも助かります。HigherSelfでは、設定から音声を選べるようにしています。

振り返り

音声入出力は「便利機能」ではなく、入力の障壁を下げる手段です。キーボードに向かうのが億劫なとき、声で一言つぶやくだけでタスクが記録される。この障壁の低さが、継続的な記録を可能にします。

次回は、日々の活動を自動でまとめる「日次レポート」です。

タイトルとURLをコピーしました