イスラエルのスタートアップD-ID社は、1枚の写真と文章から、あたかも人が話しているかのような動画を作成できる合成技術を持っています。Open AIの「GPT-3」、Stability AIの「Stable Diffusion」を統合したもので、119の言語に対応しています。
こちらが実際に試してみたものです。たった1枚の写真をアップロードして、話す文章を入力しただけです。
ちなみに英語バージョンも作ってみました。実物とは違い、英語の発音が素晴らしいです(笑)
いかがでしたでしょうか?技術が進化するスピードが非常に速いです。同社は、ここに話題のChatGPTを組み込んで会話ができるサービス「chat.D-ID」もリリースしました。ChatGPTのベースとなるGPT技術のGPT-4が今週(2023年3月13日週)リリースされると言われており、現状のGPT-3.5より数百倍以上の性能が高まるとのこと。本当にこのGenerative AIの領域は目が離せません。