Google、Gemini 1.5発表 GPT-4を大きく上回りつつ省電力 入力トークン長は「1000万」
【東京総合 = テクノロジー】Googleは日本時間15日、大規模言語モデル(LLM)のGeminiの設計改良を行い、アップデートを行ったと発表した。LLMは、生成AIチャットボットの根幹になるシステムだ。新アーキテクチャのMoEを活用する。
今回のアップデートを踏まえて、Geminiファミリーのバージョンを1.0から1.5に引き上げた。ミドル性能の「Gemini 1.5 Pro」では、消費電力を大幅に抑えつつ、1.0のUltraに迫る性能を実現した。処理できる情報量を示す「トークン」を、標準で12.8万、研究目的の場合では従来の30倍以上、約100万に引き上げた。生成AIで競合する米新興OpenAIが開発した最新の「GPT-4ターボ」の約12万、トークン量をアピールする「Claude」の21万も上回り、性能の高さが伺える。Googleのレポートによると、テストでは1,000万トークンも達成したとしている。最大1時間の動画や11時間の音声、70万の単語を処理できる性能を備えた。
毎回驚かされるGoogleのデモムービーは今回も新鮮だ。まず、無声の映像動画「キートンの探偵学入門」をGeminiに渡す。次に、数秒で書いたような適当な人が水を被るイラストを添えて「これが発生した時点は」とプロンプトを入力すると、Geminiは、15分34秒と返す。加えて、出来事の背景や推論なども行う。
つい先日、BardにGeminiを導入して盛り上がったGoogle。子会社に置いたDeepMindを自社のGoogleAIと統合し「Google DeepMind」として再出発した影響が如実にも現れ始めている。部署間のやり取りをスムーズにすることで、変化の激しい生成AI業界を生き抜く。
初版Bardの登場時に「出遅れ」を認めた同社だが、2010年から本格的に研究し、ほとんどのAIの根幹となる「トランスフォーマー」を設計したプライドは大きかった。ポットでと言われても仕方がないOpenAIに遅れをとっているという事実に対する悔しさが、Googleを本気にさせている。
Gemini 1.5はトランスフォーマと新たなアーキテクチャーMoEを組み合わせて動作する。トランスフォーマーが、データを収束して扱う考え方だったのに対し、MoEは一つ一つが枝のように分岐し、大きな幹を形成するようになった。それぞれに役割を持たせることで、動作に必要な電力を大幅に削減する効果をもたらした。維持管理費に苦しむOpenAIを尻目に、余裕のある運用を目標にする。