はじめに
AssemblyAI は、音声データの自動文字起こし(Speech-to-Text)や要約、感情分析、コンテンツモデレーションなどを API 経由で提供する AI プラットフォームです。主な特徴は:
- 高精度な文字起こし
エンドツーエンドのディープラーニングモデルを使い、ノイズ環境や複数話者の録音でも高い認識率を実現 - 話者識別(Speaker Diarization)
誰がいつ話したかを区別してタイムスタンプ付きで出力 - 要約 & ハイライト
長い音声・動画の内容を自動的に要約し、キーフレーズを抽出 - 感情分析 & コンテンツモデレーション
発話の感情トーンを解析したり、不適切な表現を検出 - リアルタイム & バッチ両対応
ストリーミング API でリアルタイム文字起こし、ファイルアップロードによるバッチ処理の両方に対応
API キーを取得すれば、REST エンドポイントに音声ファイルを送信するだけで結果を JSON で受け取れるため、SDK も含めて比較的簡単に組み込みが可能です。
料金
- Free(無料)
- 開始時に $50 の無料クレジットを付与
- 事前録音音声の文字起こしなら最大185時間分、ストリーミング文字起こしなら最大333時間分を無料で利用可能
- 1分あたり最大5件のストリーミングセッション開始制限あり
- Pay-As-You-Go(従量課金プラン)※最も人気
- 音声→テキストモデル(1時間あたり)
- Universal/Slam-1(高精度):$0.27/時間
- Nano(コスト重視):$0.12/時間
- ストリーミング文字起こし:$0.15/時間
- Audio Intelligence 機能(1時間あたり)
- Auto Chapters(自動チャプター分割):$0.08
- Content Moderation(コンテンツモデレーション):$0.15
- Entity Detection(エンティティ検出):$0.08
- Key Phrases(自動ハイライト抽出):$0.01
- ほか、感情分析や要約なども個別課金
- すべてのモデル・機能に無制限アクセス可能。ライブチャット&メールサポート付き。事前録音ファイルの同時処理数は200ファイルから
- 音声→テキストモデル(1時間あたり)
- Custom(エンタープライズ向けカスタムプラン)
- 数百万時間規模にも対応する柔軟な従量制料金
- 無制限の同時ストリーム&カスタムレートリミット設定
- 専任テクニカルサポート(SLA/SLO)、HIPAA準拠のBAA契約、EU内データレジデンシー、オンプレミス/VPC展開オプション、新モデルの早期アクセスなど提供
主なユーザー
AssemblyAI は、以下のような多数の企業や組織に導入されています:
- Zoom
AI リサーチ・開発に AssemblyAI の高精度モデルを活用し、Zoom AI Companion の性能向上を図っています (assemblyai.com) - EdgeTier
音声認識ワークフローで新規市場を開拓し、成長を加速させています (assemblyai.com) - Supernormal
無料ユーザーから有料ユーザーへのコンバージョン率を 2 倍に改善しました (assemblyai.com) - Siro
顧客クレームとサポートチケットを 90% 削減しました (assemblyai.com) - Google Cloud
大規模データ処理基盤として AssemblyAI を取り込み、コスト削減とスケーラビリティ向上を実現 (assemblyai.com) - Veed
動画編集プラットフォームに音声 AI を導入し、誰でも手軽に AI 動画編集を可能にしています (assemblyai.com)
さらに、スタートアップからフォーチュン500まで 5,000社以上 の業界リーダーが AssemblyAI の Speech AI モデルを採用しています (assemblyai.com)。