不快な真実:「モデル選択」はあなたの早急なエンジニアリングの半分です レシピなら、モデルはキッチンです。 素晴らしいレシピは役に立たない: ウォンは小さい(コンテストウィンドウ) 材料は高価(トークン価格)です。 リーダーは遅い(遅い)。 あなたのツールが合わない(機能呼び出し / JSON / SDK / エコシステム) こちらはA 実際に使える比較です。 practical 「パラメーター」に関する注意:多くの境界モデルでは、パラメーター数は公表されていません。実践では、コンテキストウィンドウ + 価格 + ツール機能は、パラメータースケールを推測するよりも「適合」を予測します。 多くの境界モデルでは、パラメータの数値は公表されていません。実践では、コンテキストウィンドウ + 価格 + ツール機能は、パラメータのスケールを推測するよりも「フィット」をよりよく予測します。 Note on “parameters”: 1) 迅速な比較:あなたが最初に気にするべきこと 1.1 重要な「4つのボタン」 文脈: 1 つのリクエストに仕事を合わせることができますか? コスト:容量は許可できますか? 遅延:あなたのUXは待つことを許しますか? 互換性:あなたのスタックはきれいに統合されますか? 他のすべては第二の秩序です。 2)モデルスペックテーブル(コンテキスト+ポジション) このテーブルは、安定したものに焦点を当てています: . family, positioning, and context expectations で、 で、 ) 一般用途、強力なツールエコシステム 価格 + キャッシュ入力は明確に発表されています。 OpenAI「o」推理ファミリー(例えば、 で、 深い考え方 / 計画の難しさ よく高いコストを使用し、選択的に使用します。 Anthropic クラウド ファミリー (e.g., Haiku / Sonnet tiers) 強力な書き込み + 安全な姿勢; クリーン ドキュメント クリーン ドキュメント 価格のテーブルには複数の価格サイズが含まれています。 Google クラウド ジェミニファミリー (Flash / Pro tiers) マルチモダル + Google エコシステム + キャッシング / グローディングオプション バーチャル バーチャル 価格ページは、明示的にキャッシング + グローディング バーチャル バーチャル バーチャル DeepSeek バーチャル DeepSeek チャット + gpt-4o gpt-4.1 gpt-5* o3 o1 3)価格表(あなたのCFOが実際に読んでいる部分) 以下は 公式ドキュメント(USD per ) これをベースラインとして使用し、次に適用します:キャッシュ、バッチ割引、そして実際の出力長。 public list prices 1M tokens 3.1 OpenAI (selected highlights) OpenAIは、1Mトークンあたりの入力、キャッシュ入力、出力価格を公開します。 Model Input / 1M Cached input / 1M Output / 1M When to use gpt-4.1 $2.00 $0.50 $8.00 High-quality general reasoning with sane cost gpt-4o $2.50 $1.25 $10.00 Multimodal-ish “workhorse” if you need it gpt-4o-mini $0.15 $0.075 $0.60 High-throughput chat, extraction, tagging o3 $2.00 $0.50 $8.00 Reasoning-heavy tasks without the top-end pricing o1 $15.00 $7.50 $60.00 “Use sparingly”: hard reasoning where mistakes are expensive gpt-4.1 2 ドル 0.50 ドル 8 ドル 健全なコストを伴う質の高い一般的推論 gpt-4o 2.50 ドル 1.25 ドル 10 ドル Multimodal-ish “workhorse” if you need it gpt-4o-mini ドル 0.15 075 ドル ドル 0.60 High-throughput chat, extraction, tagging トップページ o3 2 ドル 0.50 ドル 8 ドル トップエンドの価格設定なしの合理的で重いタスク o1 15 ドル 7.50 ドル 60 ドル “Use sparingly”: hard reasoning where mistakes are expensive. 「節約的に使用する」:過ちが高価な場合の厳しい推論 あなたが製品を構築している場合:あなたはしばしば80~95%の通話をより安価なモデル(ミニ/高速レベル)で実行し、ハードケースだけをエスカレートします。 あなたが製品を構築している場合:あなたはしばしば走ります。 より安価なモデル(ミニ / スピード レベル)で呼び出し、厳しいケースだけをエスカレートします。 80–95% 3.2 アントロピック(クラウド) Anthropic は Claude docs でモデル価格表を公開しています。 Model Input / MTok Output / MTok Notes Claude Haiku 4.5 $1.00 $5.00 Fast, budget-friendly tier Claude Haiku 3.5 $0.80 $4.00 Even cheaper tier option Claude Sonnet 3.7 (deprecated) $3.75 $15.00 Listed as deprecated on pricing Claude Opus 3 (deprecated) $18.75 $75.00 Premium, but marked deprecated クルド・ハイク 4.5 1 ドル 5.00 ドル 早い、予算フレンドリーな動物 クルド・ハイク 3.5 0.80 ドル 4 ドル もっと安いオプション クラウド・ソネット 3.7 (deprecated) 3.75 ドル 15 ドル Listed as deprecated on pricing に記載されている クロード・オプス3 (Deprecated) 18.75 ドル 7500 ドル プレミアム, but marked deprecated 重要: モデル可用性の変化. 価格表を「現時点で存在するもの」として権威あるものとして扱う。 重要: モデル可用性の変化. 価格表を「現時点で存在するもの」として権威あるものとして扱う。 Google Gemini(開発者API) Geminiの価格は階層によって異なり、コンテキストキャッシュ + 地付け価格を含みます。 Tier (example rows from pricing page) Input / 1M (text/image/video) Output / 1M Notable extras Gemini tier (row example) $0.30 $2.50 Context caching + grounding options Gemini Flash-style row example $0.10 $0.40 Very low output cost; good for high volume ジェミニ・ティア(Row Example) ドル 0.30 2.50 ドル コンテキストキャッシング + grounding options Gemini フラッシュ スタイル ライン 例 ドル 0.10 ドル 0.40 非常に低い出力コスト;高容量に良い Geminiの価格ページもリストしています: コンテキストキャッシュ価格、および Google検索の価格設定/制限 4.4 ディープ検索(API) DeepSeek は、API ドキュメントおよび価格設定ページに価格を公開します。 Model family (per DeepSeek pricing pages) What to expect DeepSeek-V3 / “chat” tier Very low per-token pricing compared to many frontier models DeepSeek-R1 reasoning tier Higher than chat tier, still aggressively priced DeepSeek-V3 / 「チャット」 多くの国境モデルと比較してトークンごとに非常に低い価格 DeepSeek-R1 論理 チャットレイヤーより高い、依然として攻撃的価格 4) 遅延:偽の「平均秒」テーブルを使用しないこと ほとんどのブログの遅延テーブルも以下の通りです。 ある日、ある地域、ある使用量で測定され、その後永遠にリサイクルされる。 純粋なフィクション 代わりに、使用 : two metrics you can actually observe TTFT(Time to First Token) - ストリーミングがどのように早く始まるか トークン/セク — 出力が開始するとどれくらいの速さで到着するか 4.1 実用的な遅延期待値(方向性) 「ミニ/フラッシュ」レベルは通常、チャットスタイルのワークロードのためのTTFTとトランスポートを獲得します。 「合理化」レベルは通常、TTFTが遅くなり、より多くのトークン(より多くの思考)を出力する可能性があります。 長いコンテキストの入力は、どこでも遅延を増加させます。 4.2 自分の製品のベンチマークの作成方法(15分の方法) 以下を送信する小さなベンチマークスクリプトを作成します。 同じプロンプト(例えば、400~800トークン) 固定マックス出力(例えば、300トークン) あなたのターゲット地域では、 30~50レース。 レコード: p50 / p95 TTFT p50 / p95 全時間 トークン / SEC その後、Vibesではなくデータで決定を下す。 5)互換性:なぜ“tooling fit”が原型モデルの品質を打ち負かすのか 5%「スマート」ですが、あなたのバックを破るモデルは、純損失です。 5.1 Prompt + API 表面互換性(モデルを切り替えると壊れる) 5.2 生態系適合性(A.k.a. 「あなたはすでに何を使用していますか?」) Google ワークスペース / Vertex スタイルのワークフローで生活している場合は、Gemini 統合 + 地形オプションが自然に適合する可能性があります。 幅広い第三者自動化エコシステムに依存している場合、OpenAI + Claude は成熟した SDK + ツールのカバー(LangChain など)を持っています。 データレジデンス/オンプレムが必要な場合は、オープンソースモデル(Llama/Qwen)でデータを限界内に保管できますが、MLOpsで支払うことができます。 6)決定チェックリスト:エンジニアのようにモデルを選択する STEP 1 - タスクの分類 High Volume / Low Stakes: Tagging, rewrite, FAQ, extraction Medium stakes: customer support responses, internal reporting (顧客サポートの回答、内部レポート) 高い賭け:法的、金融、セキュリティ、医療のような分野(注意してください) Step 2 — decide your stack (the “2-3 モデルルール”) 共通の設定: ほとんどのリクエストに最適な低価格 Strong tier for hard prompts, long context, tricky reasoning (ハード・ポンプト、長い文脈、複雑な推論) オプション:リアルタイムまたは特定の UX/機能のための深い推論レベル ステップ3 - コストコントロール戦略(出荷する前に) 出力制限の長さ cache repeated system/context シリーズ バッチ Homogeneous Jobs エスカレーションルールを追加する(すべてを最も高価なモデルに送るな) 7) PRDに貼り付けることができる実用的な比較テーブル 以下は、利害関係者向けの短い「コピー/ペスト」テーブルです。 Scenario Priority Default pick Escalate to Why Customer support chatbot Latency + cost (or Gemini Flash-tier) gpt-4o-mini / Claude higher tier gpt-4.1 Cheap 80–90%, escalate only ambiguous cases Long document synthesis Context + format stability Claude tier with strong long-form behaviour gpt-4.1 Long prompts + structured output Coding helper in IDE Tooling + correctness or equivalent gpt-4.1 / o3 o1 Deep reasoning for tricky bugs Privacy-sensitive internal assistant Data boundary Self-host Llama/Qwen Cloud model for non-sensitive output Keep raw data in-house 顧客サポートチャットボット 遅延 + コスト (ジェミニ・フラッシュ・ティア) gpt-4o-mini クロード・ハイジャー・ティア (Claude Superior Tier) gpt-4.1 安い80~90%、曖昧なケースだけをエスカレート 長い文書の概要 コンテキスト + 形式の安定性 Claude tier with strong long-form behavior(強力な長い形態の行動) gpt-4.1 Long Prompts + Structured Output(構造化された出力) コード・ヘルパー in IDE トップ > 正確性 あるいは等価 gpt-4.1 / / o3 o1 Deep Reasoning for Tricky Bugs(トリック・バグ) プライバシーに敏感な内部アシスタント データ境界線 オリジナルタイトル Llama/Qwen 非敏感な出力のためのクラウドモデル RAW DATA IN-HOUSE 最終取 「ベストモデル」は一つではない。 There is only . best model for this prompt, this latency budget, this cost envelope, and this ecosystem もしあなたが乗船した場合: 測定されたベンチマークは、 2~3モデルスタック 生産制限の厳しさ、 バッチャング/バッチャング ...あなたは毎月最新のモデルを追いかけているチームを上回ります。