Anthropicが最新モデル「Claude 3.5 Sonnet」発表 性能テストでGPT-4o上回る 振り返りフォーマット
ニュース

Anthropicが最新モデル「Claude 3.5 Sonnet」発表 性能テストでGPT-4o上回る

namiten

6月20日23:45(最終更新:21日08:47)
【東京総合 = テクノロジー】Anthropicは20日、同社の大規模言語モデル「Claude」シリーズの最新版「Claude 3.5 Sonnet」の提供を開始した。アカウントを作成すれば誰でも無料で利用できる。従来モデルで最も性能の高かった自社の3 Opusや、他社製の最新モデルを性能テストの多くで上回る。ChatGPTで活用されているOpenAIのGPT-4oや、GoogleのGeminiに対抗する。

Anthropicのホームページ。Claude 3.5 Sonnetを発表するプレスリリースのスクリーンショット。

同社モデルで最上位モデルだったClaude 3 Opusを性能面で上回りつつ、出力速度は約2倍、1回あたりの生成コストも大幅に下げた。大学院レベルの科学知識を問うGPQAで59.4%、一般的な推論能力のMMLUで90.4%、コーディング能力のHumanEvalで92.0%と、各分野のベンチマークで軒並み記録を更新した。

Claude 3.5 Sonnetと他社製AIの性能比較。Claude 3.5 Sonnetが同社製のOpusやGPT-4oやGemini 1.5 Proを大幅に上回るスコアを記録している。
性能テストでは、ほとんどで他社製AIを上回った。

一度に扱える情報量を示すコンテキストウィンドウは20万で、従来と変わらない。GPT-4oの12.8万を上回っている。Googleの最大200万トークンには及ばないが、業界最高水準だ。

性能を大幅に強化した一方、運用コストが大幅に下がったため、3.0 SonnetからAPI使用料は据え置く。入力トークン100万あたり3ドル、出力トークン100万個あたり15ドル。従来モデルで最上位のOpusは15ドル/75ドルだった。GPT-4oの5ドル/15ドルより割安感がある。もっとも、Gemini 1.5 Proは3.5/10.5ドルと、出力で割高だった。

各モデルのAPI使用料
(入/出力100万トークン)
モデル入力出力MMLUスコア
Claude 3.5 Sonnet3ドル15ドル88.7
Claude 3 Opus157586.8
GPT-4o515
Gemini 1.5 Pro3.510.585.9
広告

Claude 3.5 Sonnetのビジョン性能「最高峰」

Claude 3.5 Sonnetは、同社史上最強のビジョン性能を誇る。標準的なビジョンベンチマークで軒並み従来モデルのClaude 3 Opusや他社製の生成AIを上回った。

不完全な画像からのテキスト文字起こしに優れる。小売、物流、金融サービスといった分野では、AIが分析にテキストデータよりも画像を扱う使うことが多い。

レシートやフォーム、損傷した書類など品質の悪い画像からも正確にテキストを抽出できる。企業は、梱包ラベルの自動読み取り、棚割りの自動認識、手書き書類のデジタル化などさまざまな業種で活用できる。

視覚的な推論を必要とするタスクも大幅に改善した。チャートやグラフの解釈を問うベンチマークであるChartQAでは90.8%の高い精度を示した。これはClaude 3 Opusの80.8%から10ポイント向上した。GPT-4oの85.7%をも上回る。

ビジョン分野でのClaude 3.5 Sonnetと他モデルの性能テスト結果の比較。多くのテストでClaude 3.5 Sonnetが上回っている。

ビジョン分野の総合ベンチマークであるMMMUのスコアは68.3%と、Claude 3 Opusの59.4%から大幅に改善。数式や科学図解の理解を問うMathVistaでは67.7%、AI2Dでは94.7%と軒並み高得点を記録した。

Googleの最新モデルGemini 1.5でもMMLtUで62.2%と健闘したが、Claude 3.5 Sonnetの68.3%には及ばなかった。現時点ではClaude 3.5 Sonnetが画像理解で頭一つ抜きん出た存在と言えそうだ。

対話履歴を参照する「Artifacts」機能も展開する。右半分にウィンドウを表示。スライドの作成からSVGファイルの生成、複雑なプログラムの生成(クリックして画面を遷移できるアプリの作成)、アイコン生成などなど、さまざまなことが実行できる。ユーザーとAIがリアルタイムで協業できる環境を整えた。一方で、ユーザーデータをモデルの学習に利用する際は明示的な許可が必要としており、プライバシー保護にも配慮している。

安全性評価では、誤用防止のための厳格なテストに加え、英国のAI安全性研究所とも連携。現時点ではAIセーフティレベル2(ASL-2)に分類されるという。

生成AI競争は激しくなっている。Googleが発表していた「Gemini 1.5 Pro」は、MMLUで85.9%、HumanEvalで84.1%とClaude 3.5 Sonnetと比べると劣る。OpenAIは早ければ8月にもGPT-5のリリースを計画中で、性能面で巻き返しを図る。イーロン・マスク氏率いるxAIもマルチモーダル化を目指してGrok 2.0の開発しているが詳細は不明だ。

Anthropicは今後数ヶ月ごとに知性、速度、コストのバランスを大幅に改善する方針を示した。今年後半にも、軽量版のHaiku、上位版のOpusでClaude 3.5をリリースすることを目指している。

※SNSシェアの場合、必ず利用規約をご確認ください。
コンテンツの翻案、リンクを含まない引用・スクリーンショットの共有は法律・法令、当サイト利用規約で禁止されています。
サイト内PR

Google Newsでnamiten.jpをフォロー

広告
namiten.jp
namiten.jp
広報
namiten.jp広報班にお問い合せがある場合、以下の通りお願いします。

当サイト掲載情報について、法的請求がある場合…お問い合わせへ
当サイト掲載情報について、不備や依頼等がある場合…メール、Twitter DM等
広告
記事URLをコピーしました