AIの領域で革新的な基盤技術を提供する「株式会社EmbodyMe」。2016年に設立された同社は、リアルタイム映像生成AI技術により、リモート会議やライブ配信、映像制作などの分野で画期的な製品を生み出している。代表取締役の吉田一星氏のリーダーシップのもと、同社のパワフルな技術を体感できるxpressionシリーズは世界中で高い評価を受けている。吉田氏は、生成AIやリモートワークが普及する中で、自社の技術を最大限に活用し、ユーザーのニーズに応える製品を次々と開発してきた。xpression camera、xpression avatar、xpression chatといったシリーズ製品は、競合他社の数百倍高速な映像生成AI技術により、インタラクティブな映像体験を提供している。今回は、吉田一星氏に、多国籍なチームを率いるマネジメントの秘訣、そしてAI時代の未来展望について詳しく伺った。多国籍なチームメンバーのマネジメントチームマネジメント「日本はエンジニアが特に少なく、取り合いになっています」メンバーを見ると、とても優秀なエンジニアの方がジョインされている印象があります。採用は苦労されていますか?エンジニアに関していうと、少なくともそこまで採用に困ったことはないですね。要因は色々あると思うんですけど、1つは公用語が英語で、日本人はあまりターゲットになっていなくて、基本的に全世界から探していくことが多い。一度サイトにポジションを掲載すると、1回につき100人くらいの応募があって、逆に選別が大変なくらいです。そこから厳選した人を採用しています。また、日本人については、全体の人口に対するエンジニア人口の割合が特に少ないですね、他国に比べて。なので完全に取り合いになっているというのはあって、そこの競争じゃないところにいるっていうのは大きいですかね。また、弊社の事業的に、エンジニアにかなり魅力を持ってもらえるというか、こういったAIの映像をやっている会社は世界を見てもなかなかないというのがあるので、特にAIエンジニアに限らず、エンジニアにとって興味のある分野ではあるので、そこを魅力的に感じてもらいやすい、というのはありますね。多国籍のチーム運営、マネジメントをされて、気づきやチャレンジなどはありましたか?基本的には、日本人だから、とか海外の人だから、とかそういう違いはないかなと思いますね。英語と日本語でマネジメントスタイルが変わっているということもなくて。国というよりは、その人の性格が影響する部分が多いですね。ただ基本的にマネジメント手法は変わらない。強いて言えば、アジア系の人は真面目、一方でそれ以外の方は手を抜けるところは抜いて、合理的に進める、という印象くらいですかね。週1出社にしていて、英語についても、弊社はエンジニアがほとんどで、非ネイティブスピーカーで英語があまり得意でない人でも技術で会話ができるところがあるので、あまり困ってはいない状態ですね。デジタルヒューマンと未来展望デジタルヒューマンと未来展望「究極の目標は”人間の限界を越えること”です」それだけ世の中のAIに対する注目も高い中で、先日ChatGPT4oが発表されて、世間がまた一段と盛り上がりました。同じ技術者として、いまのAIが普及し始めた世の中をどうご覧になっていますか?ここ最近のAIの進化には2つの側面があると思っています。一つは言語を通じて誰でも気軽にAIとやりとりができるようになった点です。今までは、例えば画像の中にある物を認識するには、学習データを集めて、学習データにラベルをつけ、プログラムを作り、高いマシンを用意して時間をかけて学習させるといった大変な労力が必要で、いわば人間の脳を一から作っているような状態でした。それが今は画像を見せて「ここに何がある?」と聞くだけで、まるで人間が答えるかのように、即座にAIが答えてくれるようになりました。そのおかげで今までAI開発会社やAIエンジニアが担っていた「大変な労力」の部分が必要なくなり、プログラマですらない一般の人が気軽にAIを扱えるようになりました。これは、例えばプログラミング言語の進化に似ています。コンピュータが登場した当時は、コンピュータの動作原理に近い部分を人間がすべて指示しなければいけませんでしたが、そうした人間の労力を減らし純粋にやりたいことだけを指示すればよいようにプログラミング言語が進化していきました。そのおかげでコンピュータの動作原理を理解して指示をする難しい部分を担っていたエンジニアの需要がだんだんと減っていきました。これと同じことがAI開発でもおきていると言えます。ちなみにプログラミング言語の進化の話で言うと、AIのおかげで人間が話す言語を使って簡単にソフトウェアが作れるようになってきているので、そもそもプログラミング言語自体の必要がなくなってきて、だんだんとソフトウェアエンジニアの需要は減っていくのかもしれません。今のAIの進化のもう一つの側面は、テキスト、画像、映像、音声といったものを生成できるようになったという点です。AIのタスクは、大きく分けて認識と生成に分かれます。例えば画像に写っているのが犬である認識するのが「認識」で、犬が写っている画像自体を作り出すのが「生成」です。認識のタスクに関しては、2010年代中盤あたりに人間の精度に追いついたものが多いのですが、生成は昔は大変難しいタスクでした。それが2022年後半ぐらいから人間の精度に追いつき始めたというのが、生成AIが注目を集めた原因です。2022年後半から2023年にかけて、まず、テキストや画像の生成が人間の精度に追いつき、ChatGPTなどが世の中に大きく普及しました。また、映像生成においては、普及するのに十分な精度に追いつくのは時間の問題で、今年から来年にかけて大きく普及していくことが予想されます。弊社は今まさに立ちあがろうとしている映像生成AIの時代のさらに先にやってくる「リアルタイム映像生成AI」にフォーカスしています。現在の映像生成AIは映像生成に時間を要するため、映像制作分野での活用にとどまっていますが、その先の発展には「リアルタイム性」が必要不可欠です。リアルタイム映像生成は、スマホやPCの画面表示処理に使われているだけでなく、ゲーム、ライブ配信、デジタルヒューマン、バーチャルアシスタント、ビデオ会議、メタバース、VR/ARなど、映像制作分野だけに限らない幅広い市場をターゲットとしています。弊社はこのリアルタイム映像生成AI技術を世界に先駆けて研究開発し続け、世界でも弊社にしかない競合優位性のある技術を有しています。基盤技術の上に、様々なサービスやプロダクトが生まれてくるのが楽しみですね。最後に、今後の展望を教えてください。弊社のリアルタイム映像生成AI技術が活かせるという意味でも、AIで人格や体、声といった人間そのもの作り出す「デジタルヒューマン」の実現を目指しています。そもそも、AIという言葉や研究分野の成り立ちからして「人間を再現しよう」としています。AIは、自然言語処理、音声認識・合成、画像認識など様々な分野に分かれますが、これは言語、声、目、耳といった人間の機能一つひとつを再現しようとしているものです。ロボットの分野では人間の「動き」の再現です。少なくとも人工知能とロボティクスの分野においては、究極的な目標は「人間の再現」です。弊社でも特に「見た目」のところを重視しながら、人間の再現を目指しています。声、会話・思考の内容も含めて、人間が再現できた世界を実現するというのが、一番のビジョンです。自分では5~10年で訪れると思っていますが、20~30年かかったとしても、人間の仕事がどんどん置き換えられていくと思います。特に見た目が関わる分野だと、人とコミュニケーションをとる分野がわかりやすいですよね。接客、営業、教育、人事などあらゆる分野が置き換わってくと思います。また特に社長や芸能人といった人間のコスト自体が高い分野がまず置き換わっていくと思います。一般の会社にとってはコストが高い芸能人も、AIで自由に使えてマーケティングに使えるようになったらいいですよね。そういった意味では、人間自体が抽象化されるというか、自分が稼働しなくても、自分の姿を使って接客ができたり、営業をしてくれたりする。自分のコピーが完全に自律的に動いてくれる世界。そこでは人格はコピーできていなくてもよくて、パーソナリティをカスタマイズしたり、若い思考や大人な思考にしてもいいですし。また、自分の見た目を若返らせたり、亡くなった人を活用したり、絶世の美女を作り出したりすることもできます。人間の能力の限界を越え、時空の制約、生と死のような人間の在り方を超えて、新しい人間の未来を創造する、そういったことを実現したいですね。インタビュー後記株式会社EmbodyMeの代表・吉田氏へのインタビューを通じて、AI技術の先駆者としての彼の姿勢と情熱を深く知ることができた。吉田氏は映像生成AIの分野で革新的なプロダクトを次々と生み出し、業界をリードしてきた。その技術的な挑戦とマーケットニーズを見越した戦略的な展開が、同社の成功を支えている。特に、リアルタイム映像生成AI技術を駆使したxpressionシリーズの成功には、彼の独自の発想と実行力が感じられる。未来展望として語られた「デジタルヒューマン」の実現への取り組みは、単なる技術開発に留まらず、人間の在り方そのものを変革する可能性を秘めている。吉田氏の言葉から、AI技術の進化がもたらす未来の姿を鮮明に想像することができた。EmbodyMeが描く未来は、生活や仕事のあり方を大きく変える力を持つ。その技術の進化とともに、どのような新しいプロダクトが生まれてくるのか、ますます期待が高まる。