AI

2Dモデルの準備ゼロでできる生成AIによるリップシンクのアバター生成 – HeyGen LiveAvatar APIの利用

はじめにWebアプリやサービスにキャラクターを実装しようと考えたとき、私たちは今、二つの大きな分岐点に立っています。一つは、Live2Dに代表される「職人芸の世界」です。パーツを切り分け、緻密なリギングを施すことで、アニメやゲームレベルの完璧な制御と美しさを実現します。この「魂を込める」ような手作業が生み出す品質は、技術者としても深く尊敬すべき領域ですが、同時に膨大な時間と専門スキルを要求される、非常に険しい道でもあります。もう一つは、生成AI(HeyGen等)による「自動リップシンクの世界」です。こちらはクリエイティブな事前準備をスキップし、1枚の画像(あるいはAIがその場で生成した画像)を即座に喋らせるアプローチです。「職人に依頼する」のではなく「AIに依頼する」ことで、準備コストを極限まで削ぎ落とします。本稿では、どちらが良い悪いではなく、「今のAI技術で、準備なしにどこまでの印象を作れるのか」という到達点と、「運用コストや制限」という現実的な側面を整理します。1. 概要AIスタッフとのリアルタイムな音声会話において、HeyGen

AI

Live2D カスタムモデル制作 — イラスト1枚から動くアバターを作る

はじめに既存のイラストから Live2D で動くアバターを制作する手順をまとめます。Web アプリに組み込んでリップシンクや表情切り替えを行うことを前提とした「技術者・クリエイター向け」の構成です。制作の前提条件ゴール: イラスト1枚 → パーツ分解 → リギング → Web表示必須ツール: * Live2D Cubism Editor(無料版 or PRO)画像編集ソフト(Photoshop / CLIP STUDIO PAINT)最終成果物: .moc3 ファイル一式(テクスチャ、設定JSON、物理演算、モーション)全体ワークフロー制作は大きく分けて「描画」と「設定」の2フェーズに分かれます。Step 1: パーツ分解(PSD作成)Step 2〜3: インポート & メッシュ設定Step 4〜5: デフォーマ & パラメータ設定(リギングの核心)Step 6〜7: 物理演算 & モーション作成Step 8: 書き出し & Web配置Step 1:パーツ分解(PS

AI

音量連動アニメーションの実装 – レベル3:Live2Dアバターの実装

はじめにWebアプリ上でLive2Dキャラクターを表示し、音声に合わせてリップシンク(口パク)や感情による表情切り替えをリアルタイムに行う実装方法を解説します。Next.js環境でPixiJSを使用して、低遅延かつ自然な表現を目指します。技術スタックカテゴリライブラリ役割FrameworkNext.js (App Router)フロントエンド基盤RenderingPixiJS v7.x2D描画エンジンLive2D Libpixi-live2d-display-lipsyncpatchモデル表示 + リップシンクパッチRuntimelive2dcubismcore.min.jsCubism 5 SDK全体構成音声入力から描画までのデータフローは以下の通りです。AudioContext (AnalyserNode):マイク入力を解析し、音量レベル(0〜1)を取得。React Component (useRef):再レンダリングを避け、値を保持。PixiJS Ticker:毎フレーム描画。Live2D Model U

AI

音量連動アニメーションの実装 – レベル3:感情ステートと音声の同期

はじめに本稿では、単なる「音量に合わせた口の開閉」を超え、アニメやゲームのような「意思を感じさせるキャラクター表現」をWebブラウザ上で実装する手法について解説します。3Dモデル(VRM)による精緻な制御も一つの解ですが、計算負荷とアセット制作のコストを抑えつつ、現代的なアニメ調の高品質なビジュアルを維持するためには、「静止画のレイヤー合成」と「ステートマシンによる制御」の組み合わせが極めて有効です。本実装の目的は、AI(Gemini)から得られる「文脈(感情)」と、リアルタイムな「音声信号(音量)」を独立した軸として扱い、1枚のスプライトシート上でそれらを再合成することにあります。1. 3×3 ステートマトリックスによる描画ロジックキャラクターの状態を「感情(行)」と「口の形(列)」の2軸で定義します。感情軸(Emotion): Geminiのレスポンス内容から「通常・笑顔・真剣」を判定し、Y座標を決定します。音声軸(MouthState): 音量解析値(RMS)から「閉じ・半開き・全開」を判定し、X座標を決定します。

AI

音量連動アニメーションの実装 – レベル2:Gemini Live APIとVRMによる動的アバター制御

はじめに本稿で解説するのは、Gemini Multimodal Live APIから取得した音量値(RMS)を、VRMモデルのBlendShapeに反映させるリアルタイム・リップシンクの実装です。現代のアニメやゲームのような高精度な表現とは異なり、ここで行っているのは「音声の内容とは無関係に、裏でループしている複数のサイン波を、音量という包絡線(Envelope)で切り出しているだけ」の極めてプリミティブな手法です。この実装には、音素解析(Visemeの特定)や感情推論といった高度なレイヤーは一切含まれていません。あくまで「音声データが届いている間、規定の計算式に基づいた『口らしい動き』を自動生成し、静止状態を回避する」という一点に特化した、低コストなハックを詳述します。実装の要点音素解析の完全なオミット ブラウザ側の負荷と遅延を最小化するため、入力ソースからは振幅(Amplitude)のみを抽出します。非同期サイン波による形状合成 「あ・お・え」の各母音パラメータに対し、異なる周波数と位相のサイン波を割り当て、それらを加算合成するこ

AI

音量連動アニメーションの実装 – レベル1:Web Audio APIによる動的プロパティ制御

はじめに本実装は、AIから届く音声波形をリアルタイムに解析し、その振幅(音量)を数値化してUIのスタイル属性へ反映させる手法である。画像ファイル自体には一切変更を加えず、CSSやアニメーションライブラリを用いて、外郭の視覚的パラメータを操作する。画像そのものを動かすのではなく、画像を配置したdivなどのコンテナに対して、以下の3つの変化を「音量(0.0〜1.0)」に比例させて適用する。Scale(拡大・縮小): 脈動感を出す。Shadow / Glow(影・発光): 声のエネルギーを視覚化する。Opacity(不透明度): 存在感の強弱を表現する。実装1. 音声データのデコードと再生準備Geminiから届くBase64形式のL16(16bit PCM)データを、ブラウザが再生できる形式に変換する箇所です。// L16(Binary) -> Float32Array(Web Audio形式) への変換const enqueueAudio = useCallback((pcmBase64: string)

AI

Gemini Multimodal Live APIを使ってみる

ステップ1:Google Cloud (Vertex AI) の準備プロジェクトの作成: Google Cloud Consoleでプロジェクトを作成。APIの有効化: Vertex AI API を有効にします。サービスアカウントの発行: 独自APIからGoogleへ接続するための「鍵」を作ります。役割:Vertex AI User 権限を付与。キー形式:JSON でダウンロードし、独自APIの環境変数に設定します。ステップ2:バックエンドAPIとGeminiの中継の実装WebSocketサーバーの構築: Next.jsからの接続を待機します。Google認証の実装: サービスアカウントを使って OAuth 2.0 のアクセストークンを取得します。Geminiへの接続: 取得したトークンを使って、GoogleのLive APIエンドポイント(wss://...)へWebSocketを繋ぎます。中継: フロントから来た音声バイナリを realtime_input イベントとしてGeminiへ投げ

AI

Antoropic Academy – Claude 101を受けてみる

はじめにClaude 101というコースは、Claudeを使うための最低限の情報があると思われるので受けてみる。本家はこちらClaudeとは?1. 3つの基本原則(Constitutional AI)Helpful(有益): ユーザーの意図を汲み取り、的確に助ける。Harmless(無害): 有害・不法な活動を助長しない。Honest(正直): 誠実で透明性の高い振る舞いをする。2. 進化したコア機能超長文解析: 最大20万トークン(本数冊分)を一括処理。世界最強のコード: Claude Opus 4.5 がデバッグから実装まで完遂。推論ブースト: Extended Thinking モードで難解な問題を段階的に解く。学習支援: 答えを与えるだけでなく、考え方をガイドする「学習モード」。3. あらゆる場所でつながるClaude.ai: Web・アプリ。文書作成やリサーチの拠点。Claude Code: ファイル編集やコマンド実行を行うエンジニア向けツール。

AI

Anthropic Academy – Claude Code in Actionで学んでみる

はじめにAnthropic Academyの学習コンテンツでは、API開発ガイドからエンタープライズデプロイメントのベストプラクティスまでカバーしているとのこと。Featured courses, Build with Claude, Claude for work, Claude for personalというメニューがある。私は、Claude Codeを本格的に使って数ヶ月で、かなり自己流なので、Featured courceのトップのClaude code in Actionで、本家が推奨する使い方を一から学んでみることにした。Anthoropic Academyの元ネタはこちらClaude Code in ActionをざっくりまとめてみるAIコーディングアシスタントとはAIモデルと人の間でツール(ファイル操作など)を利用するのがアシスタントClaudeの特徴は、複雑無タスクに強く、拡張性があり、セキュリティが高いことAdding Context: Claudeへの基本的な情報の与え方/initでプロジェクトの全体

AI

Claudeパートナーネットワークとは?

Anthropic、Claude導入支援パートナー向けに1億ドルを投資——「Claude Partner Network」始動Anthropicが2026年、企業へのClaude導入を支援するパートナー組織向けのプログラム「Claude Partner Network」を立ち上げた。初年度の投資額は1億ドルで、今後さらに拡大する予定だという。パートナーには、トレーニング教材・セールスプレイブックへのアクセス、専任エンジニアによる技術サポート、共同マーケティング支援などが提供される。また、企業バイヤーがClaude導入経験のある会社を探せる「Services Partner Directory」への掲載も可能になる。あわせて、初の技術認定資格「Claude Certified Architect, Foundations」も公開。Claudeを使った本番アプリケーションを構築するソリューションアーキテクト向けの試験で、年内にはセラーや開発者向けの資格も追加予定だ。参加は無料。「Claudeを市場に持ち込む組織であれば規模を問わず参加資格あり」とされており

Lang »