Assembly AI とは?

はじめに

AssemblyAI は、音声データの自動文字起こし(Speech-to-Text)や要約、感情分析、コンテンツモデレーションなどを API 経由で提供する AI プラットフォームです。主な特徴は:

  • 高精度な文字起こし
    エンドツーエンドのディープラーニングモデルを使い、ノイズ環境や複数話者の録音でも高い認識率を実現
  • 話者識別(Speaker Diarization)
    誰がいつ話したかを区別してタイムスタンプ付きで出力
  • 要約 & ハイライト
    長い音声・動画の内容を自動的に要約し、キーフレーズを抽出
  • 感情分析 & コンテンツモデレーション
    発話の感情トーンを解析したり、不適切な表現を検出
  • リアルタイム & バッチ両対応
    ストリーミング API でリアルタイム文字起こし、ファイルアップロードによるバッチ処理の両方に対応

API キーを取得すれば、REST エンドポイントに音声ファイルを送信するだけで結果を JSON で受け取れるため、SDK も含めて比較的簡単に組み込みが可能です。

料金

  • Free(無料)
    • 開始時に $50 の無料クレジットを付与
    • 事前録音音声の文字起こしなら最大185時間分、ストリーミング文字起こしなら最大333時間分を無料で利用可能
    • 1分あたり最大5件のストリーミングセッション開始制限あり
  • Pay-As-You-Go(従量課金プラン)※最も人気
    • 音声→テキストモデル(1時間あたり)
      • Universal/Slam-1(高精度):$0.27/時間
      • Nano(コスト重視):$0.12/時間
      • ストリーミング文字起こし:$0.15/時間
    • Audio Intelligence 機能(1時間あたり)
      • Auto Chapters(自動チャプター分割):$0.08
      • Content Moderation(コンテンツモデレーション):$0.15
      • Entity Detection(エンティティ検出):$0.08
      • Key Phrases(自動ハイライト抽出):$0.01
      • ほか、感情分析や要約なども個別課金
    • すべてのモデル・機能に無制限アクセス可能。ライブチャット&メールサポート付き。事前録音ファイルの同時処理数は200ファイルから
  • Custom(エンタープライズ向けカスタムプラン)
    • 数百万時間規模にも対応する柔軟な従量制料金
    • 無制限の同時ストリーム&カスタムレートリミット設定
    • 専任テクニカルサポート(SLA/SLO)、HIPAA準拠のBAA契約、EU内データレジデンシー、オンプレミス/VPC展開オプション、新モデルの早期アクセスなど提供

主なユーザー

AssemblyAI は、以下のような多数の企業や組織に導入されています:

  • Zoom
    AI リサーチ・開発に AssemblyAI の高精度モデルを活用し、Zoom AI Companion の性能向上を図っています (assemblyai.com)
  • EdgeTier
    音声認識ワークフローで新規市場を開拓し、成長を加速させています (assemblyai.com)
  • Supernormal
    無料ユーザーから有料ユーザーへのコンバージョン率を 2 倍に改善しました (assemblyai.com)
  • Siro
    顧客クレームとサポートチケットを 90% 削減しました (assemblyai.com)
  • Google Cloud
    大規模データ処理基盤として AssemblyAI を取り込み、コスト削減とスケーラビリティ向上を実現 (assemblyai.com)
  • Veed
    動画編集プラットフォームに音声 AI を導入し、誰でも手軽に AI 動画編集を可能にしています (assemblyai.com)

さらに、スタートアップからフォーチュン500まで 5,000社以上 の業界リーダーが AssemblyAI の Speech AI モデルを採用しています (assemblyai.com)。

関連記事

カテゴリー

アーカイブ

Lang »