2025.07.5

Assembly AI とは？

Table of Contents

はじめに

AssemblyAI は、音声データの自動文字起こし（Speech-to-Text）や要約、感情分析、コンテンツモデレーションなどを API 経由で提供する AI プラットフォームです。主な特徴は：

高精度な文字起こし
エンドツーエンドのディープラーニングモデルを使い、ノイズ環境や複数話者の録音でも高い認識率を実現
話者識別（Speaker Diarization）
誰がいつ話したかを区別してタイムスタンプ付きで出力
要約 & ハイライト
長い音声・動画の内容を自動的に要約し、キーフレーズを抽出
感情分析 & コンテンツモデレーション
発話の感情トーンを解析したり、不適切な表現を検出
リアルタイム & バッチ両対応
ストリーミング API でリアルタイム文字起こし、ファイルアップロードによるバッチ処理の両方に対応

API キーを取得すれば、REST エンドポイントに音声ファイルを送信するだけで結果を JSON で受け取れるため、SDK も含めて比較的簡単に組み込みが可能です。

料金

Free（無料）
- 開始時に $50 の無料クレジットを付与
- 事前録音音声の文字起こしなら最大185時間分、ストリーミング文字起こしなら最大333時間分を無料で利用可能
- 1分あたり最大5件のストリーミングセッション開始制限あり
Pay-As-You-Go（従量課金プラン）※最も人気
- 音声→テキストモデル（1時間あたり）
  - Universal／Slam-1（高精度）：$0.27／時間
  - Nano（コスト重視）：$0.12／時間
  - ストリーミング文字起こし：$0.15／時間
- Audio Intelligence 機能（1時間あたり）
  - Auto Chapters（自動チャプター分割）：$0.08
  - Content Moderation（コンテンツモデレーション）：$0.15
  - Entity Detection（エンティティ検出）：$0.08
  - Key Phrases（自動ハイライト抽出）：$0.01
  - ほか、感情分析や要約なども個別課金
- すべてのモデル・機能に無制限アクセス可能。ライブチャット＆メールサポート付き。事前録音ファイルの同時処理数は200ファイルから
Custom（エンタープライズ向けカスタムプラン）
- 数百万時間規模にも対応する柔軟な従量制料金
- 無制限の同時ストリーム＆カスタムレートリミット設定
- 専任テクニカルサポート（SLA/SLO）、HIPAA準拠のBAA契約、EU内データレジデンシー、オンプレミス／VPC展開オプション、新モデルの早期アクセスなど提供

主なユーザー

AssemblyAI は、以下のような多数の企業や組織に導入されています：

Zoom
AI リサーチ・開発に AssemblyAI の高精度モデルを活用し、Zoom AI Companion の性能向上を図っています (assemblyai.com)
EdgeTier
音声認識ワークフローで新規市場を開拓し、成長を加速させています (assemblyai.com)
Supernormal
無料ユーザーから有料ユーザーへのコンバージョン率を 2 倍に改善しました (assemblyai.com)
Siro
顧客クレームとサポートチケットを 90% 削減しました (assemblyai.com)
Google Cloud
大規模データ処理基盤として AssemblyAI を取り込み、コスト削減とスケーラビリティ向上を実現 (assemblyai.com)
Veed
動画編集プラットフォームに音声 AI を導入し、誰でも手軽に AI 動画編集を可能にしています (assemblyai.com)

さらに、スタートアップからフォーチュン500まで 5,000社以上 の業界リーダーが AssemblyAI の Speech AI モデルを採用しています (assemblyai.com)。

投稿者: s3lab
AI

INNGEST AgentKitとは前の記事

WERによる文字起こし精度チェック次の記事

Assembly AI とは？

はじめに

料金

主なユーザー

関連記事

最近の記事

n8n – Community nodeの作り方

Firebase+Nextjsでチャットアプリをつくってみる

Convex – チュートリアル：外部サービス連携

カテゴリー

アーカイブ

検索