AI

WERによる文字起こし精度チェック

はじめにWER(Word Error Rate) は、音声認識システムや文字起こしサービスの精度を評価するための代表的な指標です。文字起こし結果と正解テキスト(ゴールドスタンダード)を比較し、誤りの割合を定量化します。WER の定義と計算式WER は次の3種類の誤りをすべて合計し、正解語数で割って算出します。S(Substitutions):誤って別の単語に置き換えられた単語数D(Deletions):正解ではあるが出力に欠落した単語数I(Insertions):出力に余分に挿入された単語数N:正解テキスト中の総単語数たとえば、正解テキストが「今日はいい天気ですね」、文字起こし結果が「今日はいい天気です」の場合:置換(Substitution):“ですね”→“です” ⇒ S=1挿入(Insertion):なし ⇒ I=0欠落(Deletion):なし ⇒ D=0正解語数:4(「今日は」「いい」「天気」「ですね」) ⇒ N=4なぜ WER を使うのか?

AI

Assembly AI とは?

はじめにAssemblyAI は、音声データの自動文字起こし(Speech-to-Text)や要約、感情分析、コンテンツモデレーションなどを API 経由で提供する AI プラットフォームです。主な特徴は:高精度な文字起こしエンドツーエンドのディープラーニングモデルを使い、ノイズ環境や複数話者の録音でも高い認識率を実現話者識別(Speaker Diarization)誰がいつ話したかを区別してタイムスタンプ付きで出力要約 & ハイライト長い音声・動画の内容を自動的に要約し、キーフレーズを抽出感情分析 & コンテンツモデレーション発話の感情トーンを解析したり、不適切な表現を検出リアルタイム & バッチ両対応ストリーミング API でリアルタイム文字起こし、ファイルアップロードによるバッチ処理の両方に対応API キーを取得すれば、REST エンドポイントに音声ファイルを送信するだけで結果を JSON で受け取れるため、SDK も含めて比較的簡単に組み込みが可能です。料金Free(無料)

AI駆動開発

INNGEST AgentKitとは

はじめにAgentKit とは?TypeScript 製のエージェント開発フレームワークで、以下を特徴とします。決定論的ルーティング入力内容や意図に応じて、あらかじめ定義したルールで必ず同じ経路を通す仕組み。マルチプロバイダー対応OpenAI、Anthropic、Azure など、複数の大規模言語モデル(LLM)サービスを差し替え可能。MCP(Model-Agent Communication Protocol)採用プロンプトやツール呼び出しを標準化するプロトコルで、外部ツールやプラグインとの連携を簡単に。TypeScript コミュニティとの親和性型定義やエコシステム(npm/GitHub)を活用し、既存の開発ツールとスムーズに統合。Inngest Dev Server との統合ローカル開発環境Dev Server を立ち上げるだけで、クラウドにデプロイする前のイベント駆動ワークフローを手元でシミュレーション可能。オーケストレーションエンジン本番環境では Inngest がイベント処理をクラウド上で管理し、失敗時の自動リ

AI AI駆動開発

GitHub Copilotとプログラミング⑤ – ChatGPTとの使い分け

ChatGPTと GitHub Copilot Chat は、それぞれ得意分野と最適な用途が異なります。以下に整理しておきます:✅ ChatGPTに向いていること領域内容ビジネス相談アイデア検討、戦略立案、市場分析、収益モデル、競合調査など設計システムアーキテクチャ、プロジェクト構成、フレームワーク選定AI活用どんな業務にAIを使うと効果的か、などの企画技術調査「このエラーはなぜ出るのか?」といった幅広い調査や背景説明複数ツール連携「ShopifyとGA4とMeta広告の連携」など広い視点が必要な相談✅ GitHub Copilot Chat に向いていること領域内容実装サポート「この関数バグってる?」「ユニットテスト書いて」など具体的なコード編集ファイル横断複数ファイルにまたがる変更点を提案・自動化したいときローカル環境との連携現在のプロジェクトを読んだ上で補完・修正・新規生成したいとき小さなタスクの自動化「このReactコンポーネント、CSSモジュールに分けて」など素早い修正🎯 使い分けまとめ(簡潔)シーン推

AI AI駆動開発

GitHub Copilotとプログラミング④ – エージェントモードとは?

🧠 GitHub Copilot の「エージェントモード」とは?これは Copilotが「自律的な開発アシスタント」として動くモードです。目標を伝えると、Copilotが複数のファイルを分析し、提案・修正・実行の手助けをしてくれる機能です。✅ できること(例)エージェントモードでは、こんなことができます:タスク例Copilotの動き「バグを修正して」コード全体をスキャンし、問題箇所を見つけて提案「このコードにAPI呼び出しを追加して」必要なインポート、関数、エラーハンドリングなどをまとめて挿入「この機能をNext.jsで書き直して」フォルダ構成やルーティング含めて再構築案を提示🧪 現在の特徴サイドバーに「Ask Copilot」や「Agents」などのUI が出る複数ファイルを横断して意図を理解VS Code限定の機能(2025年時点)Copilot Chatと統合されている(チャット+ファイル操作)🔧 表示されたものの意味(例)表示UI意味Goal:目標やタスク(例:

AI AI駆動開発

GitHub Copilotとプログラミング③ – GitHub Copilot Chatとは?

GitHub Copilot Chat は、VS Code 内で Copilot とチャット形式でやりとりできる強力な開発アシスタントです。コードの説明、バグの原因調査、リファクタ提案などができます。✅ GitHub Copilot Chat の設定と使い方🔧 必要なもの項目要件VS Code最新版推奨GitHub アカウントCopilot の有料サブスクリプション拡張機能GitHub Copilot Chat(別途インストール)① 拡張機能をインストールVS Code 左側の拡張機能アイコンをクリック「GitHub Copilot Chat」と検索GitHub Copilot Chat をインストール💡「GitHub Copilot」拡張も同時に必要です。先に入れておくとスムーズ。② GitHub アカウントでログインインストール後、右下に「Sign in to GitHub」が出ることがありますGitHub にログインし、Copilot Chat にアクセス許

AI AI駆動開発

GitHub Copilotとプログラミング② – VS Codeでの設定

VS Code で GitHub Copilot を使い始める手順は、以下の通りです。✅ GitHub Copilot を VS Code で使う手順① 必要なもの✅ Visual Studio Code (VS Code)(最新版推奨)✅ GitHub アカウント(Copilotのサブスクリプションが必要)② VS Code に Copilot 拡張機能をインストールVS Code 左側の拡張機能アイコン(四角4つのアイコン)をクリック検索バーに「GitHub Copilot」と入力「GitHub Copilot」拡張機能を選んで「インストール」③ GitHub アカウントでログイン拡張機能インストール後、右下に「Sign in to GitHub」が表示されたらクリックブラウザが開くので、GitHubアカウントでログインし、アクセスを許可サブスクリプションを持っていない場合は、7日間のトライアルか有料プランの選択画面に進みます④ 設定

AI AI駆動開発

GitHub Copilotとプログラミング① – GitHub Copilotとは?

GitHub CopilotとはGitHub Copilot(ギットハブ・コパイロット)とは、AIがコードをリアルタイムで提案・補完してくれる開発支援ツールです。GitHubとOpenAIが共同開発し、プログラマーの作業を大幅に効率化します。🔍 一言で言うと:✨「AIがペアプロの相棒になってくれるコードアシスタント」✨🧠 どう動くの?自然言語のコメントや関数名を元に、AIがコードの続きを予測例: // Fetch user data from API と書くと、自動的にfetch関数を提案してくれる🛠️ できること(主な機能)機能説明✍️ 自動コード補完数行~関数単位で自動生成🔄 コード変換Copilot LabsでTypeScript → Pythonなど変換💬 コードの意味を説明「この関数何してる?」などの自然言語質問も可能(Copilot Chat)🧪 テスト生成テストケースの自動生成📚 ドキュメント作成コメントやREADMEの作成支援⚙️ 対応エディタVi

AI

AI関連サービス調査(2024.10) – その他

はじめに興味のある生成サービスを列挙します。動画の字幕生成サービスキャプション生成に特化したAIサービスは、動画や画像に自動でキャプションを付けるための強力なツールを提供しています。以下は、キャプション生成に役立つ代表的なAIサービスです:1. Google Cloud Video Intelligence概要: Google Cloud Video Intelligenceは、動画内の内容を解析し、自動的にキャプションやトランスクリプトを生成します。特に動画のシーンやオブジェクトの認識に優れ、これらをもとにキャプションを自動生成します。特徴: リアルタイムの動画キャプション生成、音声解析、タグ付けが可能で、多言語対応もしています。2. Microsoft Azure Video Indexer概要: MicrosoftのAzure Video Indexerは、動画コンテンツのキャプションを自動生成できるツールです。音声認識技術を使用し、さまざまな言語でのキャプション生成に対応しています。特徴: 音声から

AI

AI関連サービス調査(2024.10) – Meta Llama3

Llama3とはLlama 3は、Meta(旧Facebook)が開発した大規模言語モデル(Large Language Model)の最新バージョンです。Llamaシリーズは、自然言語処理(NLP)のタスクに特化したAIモデルであり、生成的AI技術の一環として開発されています。Llama 3は、文章生成、会話、翻訳、質問応答、テキスト要約など、幅広いNLPタスクに対応可能なモデルです。特徴:高度な言語理解: Llama 3は、前バージョンに比べてさらに高度なテキスト理解と生成能力を持っており、複雑なタスクにも対応可能です。効率性: Llamaシリーズは、他の大規模言語モデルに比べて計算効率が高く、リソースを抑えながら高精度な結果を提供できるように設計されています。オープンソースライセンス: Llama 3は「Meta Llama 3 Community License」に基づいて提供されており、非商用および商用利用のために利用・改変・再配布が許可されていますが、特定の商業規模を超える場合には別途ライセンスの取得が必要です。主な用途

Lang »