不快な真実:「モデル選択」はあなたの早急なエンジニアリングの半分です レシピなら、モデルはキッチンです。 素晴らしいレシピは役に立たない: 
 
 
 
 
 ウォンは小さい(コンテストウィンドウ) 材料は高価(トークン価格)です。 リーダーは遅い(遅い)。 あなたのツールが合わない(機能呼び出し / JSON / SDK / エコシステム) こちらはA 実際に使える比較です。 practical 
 
 「パラメーター」に関する注意:多くの境界モデルでは、パラメーター数は公表されていません。実践では、コンテキストウィンドウ + 価格 + ツール機能は、パラメータースケールを推測するよりも「適合」を予測します。 多くの境界モデルでは、パラメータの数値は公表されていません。実践では、コンテキストウィンドウ + 価格 + ツール機能は、パラメータのスケールを推測するよりも「フィット」をよりよく予測します。 Note on “parameters”: 1) 迅速な比較:あなたが最初に気にするべきこと 1.1 重要な「4つのボタン」 
 
 
 
 
 文脈: 1 つのリクエストに仕事を合わせることができますか? コスト:容量は許可できますか? 遅延:あなたのUXは待つことを許しますか? 互換性:あなたのスタックはきれいに統合されますか? 他のすべては第二の秩序です。 2)モデルスペックテーブル(コンテキスト+ポジション) このテーブルは、安定したものに焦点を当てています: . family, positioning, and context expectations で、 で、 ) 一般用途、強力なツールエコシステム 価格 + キャッシュ入力は明確に発表されています。  OpenAI「o」推理ファミリー(例えば、 で、 深い考え方 / 計画の難しさ よく高いコストを使用し、選択的に使用します。 Anthropic クラウド ファミリー (e.g., Haiku / Sonnet tiers) 強力な書き込み + 安全な姿勢; クリーン ドキュメント クリーン ドキュメント 価格のテーブルには複数の価格サイズが含まれています。 Google クラウド ジェミニファミリー (Flash / Pro tiers) マルチモダル + Google エコシステム + キャッシング / グローディングオプション バーチャル バーチャル 価格ページは、明示的にキャッシング + グローディング バーチャル バーチャル バーチャル DeepSeek バーチャル DeepSeek チャット + gpt-4o gpt-4.1 gpt-5* o3 o1 3)価格表(あなたのCFOが実際に読んでいる部分) 以下は 公式ドキュメント(USD per ) これをベースラインとして使用し、次に適用します:キャッシュ、バッチ割引、そして実際の出力長。 public list prices 1M tokens 3.1 OpenAI (selected highlights) OpenAIは、1Mトークンあたりの入力、キャッシュ入力、出力価格を公開します。 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 Input / 1M 
 Cached input / 1M 
 Output / 1M 
 When to use 
 
 
 
 
 
 
 gpt-4.1 
 $2.00 
 $0.50 
 $8.00 
 High-quality general reasoning with sane cost 
 
 
 
 
 
 
 gpt-4o 
 $2.50 
 $1.25 
 $10.00 
 Multimodal-ish “workhorse” if you need it 
 
 
 
 
 
 
 gpt-4o-mini 
 $0.15 
 $0.075 
 $0.60 
 High-throughput chat, extraction, tagging 
 
 
 
 
 
 
 o3 
 $2.00 
 $0.50 
 $8.00 
 Reasoning-heavy tasks without the top-end pricing 
 
 
 
 
 
 
 o1 
 $15.00 
 $7.50 
 $60.00 
 “Use sparingly”: hard reasoning where mistakes are expensive gpt-4.1 2 ドル 0.50 ドル 8 ドル 健全なコストを伴う質の高い一般的推論 gpt-4o 2.50 ドル 1.25 ドル 10 ドル Multimodal-ish “workhorse” if you need it gpt-4o-mini ドル 0.15 075 ドル ドル 0.60 High-throughput chat, extraction, tagging トップページ o3 2 ドル 0.50 ドル 8 ドル トップエンドの価格設定なしの合理的で重いタスク o1 15 ドル 7.50 ドル 60 ドル “Use sparingly”: hard reasoning where mistakes are expensive. 「節約的に使用する」:過ちが高価な場合の厳しい推論 
 
 あなたが製品を構築している場合:あなたはしばしば80～95%の通話をより安価なモデル(ミニ/高速レベル)で実行し、ハードケースだけをエスカレートします。 あなたが製品を構築している場合:あなたはしばしば走ります。 より安価なモデル(ミニ / スピード レベル)で呼び出し、厳しいケースだけをエスカレートします。 80–95% 3.2 アントロピック(クラウド) Anthropic は Claude docs でモデル価格表を公開しています。 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 Input / MTok 
 Output / MTok 
 Notes 
 
 
 
 
 
 Claude Haiku 4.5 
 $1.00 
 $5.00 
 Fast, budget-friendly tier 
 
 
 
 
 
 Claude Haiku 3.5 
 $0.80 
 $4.00 
 Even cheaper tier option 
 
 
 
 
 
 Claude Sonnet 3.7 (deprecated) 
 $3.75 
 $15.00 
 Listed as deprecated on pricing 
 
 
 
 
 
 Claude Opus 3 (deprecated) 
 $18.75 
 $75.00 
 Premium, but marked deprecated クルド・ハイク 4.5 1 ドル 5.00 ドル 早い、予算フレンドリーな動物 クルド・ハイク 3.5 0.80 ドル 4 ドル もっと安いオプション クラウド・ソネット 3.7 (deprecated) 3.75 ドル 15 ドル Listed as deprecated on pricing に記載されている クロード・オプス3 (Deprecated) 18.75 ドル 7500 ドル プレミアム, but marked deprecated 
 
 重要: モデル可用性の変化. 価格表を「現時点で存在するもの」として権威あるものとして扱う。 重要: モデル可用性の変化. 価格表を「現時点で存在するもの」として権威あるものとして扱う。 Google Gemini(開発者API) Geminiの価格は階層によって異なり、コンテキストキャッシュ + 地付け価格を含みます。 
 
 
 
 
 
 
 
 
 
 Tier (example rows from pricing page) 
 Input / 1M (text/image/video) 
 Output / 1M 
 Notable extras 
 
 
 
 
 
 Gemini tier (row example) 
 $0.30 
 $2.50 
 Context caching + grounding options 
 
 
 
 
 
 Gemini Flash-style row example 
 $0.10 
 $0.40 
 Very low output cost; good for high volume ジェミニ・ティア(Row Example) ドル 0.30 2.50 ドル コンテキストキャッシング + grounding options Gemini フラッシュ スタイル ライン 例 ドル 0.10 ドル 0.40 非常に低い出力コスト;高容量に良い Geminiの価格ページもリストしています: 
 
 
 コンテキストキャッシュ価格、および Google検索の価格設定/制限 4.4 ディープ検索(API) DeepSeek は、API ドキュメントおよび価格設定ページに価格を公開します。 
 
 
 
 
 
 
 
 Model family (per DeepSeek pricing pages) 
 What to expect 
 
 
 
 DeepSeek-V3 / “chat” tier 
 Very low per-token pricing compared to many frontier models 
 
 
 
 DeepSeek-R1 reasoning tier 
 Higher than chat tier, still aggressively priced DeepSeek-V3 / 「チャット」 多くの国境モデルと比較してトークンごとに非常に低い価格 DeepSeek-R1 論理 チャットレイヤーより高い、依然として攻撃的価格 4) 遅延:偽の「平均秒」テーブルを使用しないこと ほとんどのブログの遅延テーブルも以下の通りです。 
 
 
 ある日、ある地域、ある使用量で測定され、その後永遠にリサイクルされる。 純粋なフィクション 代わりに、使用 : two metrics you can actually observe 
 
 
 TTFT(Time to First Token) - ストリーミングがどのように早く始まるか トークン/セク — 出力が開始するとどれくらいの速さで到着するか 4.1 実用的な遅延期待値(方向性) 
 
 
 
 「ミニ/フラッシュ」レベルは通常、チャットスタイルのワークロードのためのTTFTとトランスポートを獲得します。 「合理化」レベルは通常、TTFTが遅くなり、より多くのトークン(より多くの思考)を出力する可能性があります。 長いコンテキストの入力は、どこでも遅延を増加させます。 4.2 自分の製品のベンチマークの作成方法(15分の方法) 以下を送信する小さなベンチマークスクリプトを作成します。 
 
 
 
 
 同じプロンプト(例えば、400～800トークン) 固定マックス出力(例えば、300トークン) あなたのターゲット地域では、 30～50レース。 レコード: 
 
 
 
 p50 / p95 TTFT p50 / p95 全時間 トークン / SEC その後、Vibesではなくデータで決定を下す。 5)互換性:なぜ“tooling fit”が原型モデルの品質を打ち負かすのか 5%「スマート」ですが、あなたのバックを破るモデルは、純損失です。 5.1 Prompt + API 表面互換性(モデルを切り替えると壊れる) 5.2 生態系適合性(A.k.a. 「あなたはすでに何を使用していますか?」) 
 
 
 
 Google ワークスペース / Vertex スタイルのワークフローで生活している場合は、Gemini 統合 + 地形オプションが自然に適合する可能性があります。 幅広い第三者自動化エコシステムに依存している場合、OpenAI + Claude は成熟した SDK + ツールのカバー(LangChain など)を持っています。 データレジデンス/オンプレムが必要な場合は、オープンソースモデル(Llama/Qwen)でデータを限界内に保管できますが、MLOpsで支払うことができます。 6)決定チェックリスト:エンジニアのようにモデルを選択する STEP 1 - タスクの分類 
 
 
 
 High Volume / Low Stakes: Tagging, rewrite, FAQ, extraction Medium stakes: customer support responses, internal reporting (顧客サポートの回答、内部レポート) 高い賭け:法的、金融、セキュリティ、医療のような分野(注意してください) Step 2 — decide your stack (the “2-3 モデルルール”) 共通の設定: 
 
 
 
 ほとんどのリクエストに最適な低価格 Strong tier for hard prompts, long context, tricky reasoning (ハード・ポンプト、長い文脈、複雑な推論) オプション:リアルタイムまたは特定の UX/機能のための深い推論レベル ステップ3 - コストコントロール戦略(出荷する前に) 
 
 
 
 
 出力制限の長さ cache repeated system/context シリーズ バッチ Homogeneous Jobs エスカレーションルールを追加する(すべてを最も高価なモデルに送るな) 7) PRDに貼り付けることができる実用的な比較テーブル 以下は、利害関係者向けの短い「コピー/ペスト」テーブルです。 
 
 
 
 
 
 
 
 
 
 
 
 
 Scenario 
 Priority 
 Default pick 
 Escalate to 
 Why 
 
 
 
 
 
 
 Customer support chatbot 
 Latency + cost 
  (or Gemini Flash-tier) gpt-4o-mini 
  / Claude higher tier gpt-4.1 
 Cheap 80–90%, escalate only ambiguous cases 
 
 
 
 
 
 
 Long document synthesis 
 Context + format stability 
 Claude tier with strong long-form behaviour 
 gpt-4.1 
 Long prompts + structured output 
 
 
 
 
 
 
 Coding helper in IDE 
 Tooling + correctness 
  or equivalent gpt-4.1 
  /  o3 o1 
 Deep reasoning for tricky bugs 
 
 
 
 
 
 
 Privacy-sensitive internal assistant 
 Data boundary 
 Self-host Llama/Qwen 
 Cloud model for non-sensitive output 
 Keep raw data in-house 顧客サポートチャットボット 遅延 + コスト (ジェミニ・フラッシュ・ティア) gpt-4o-mini クロード・ハイジャー・ティア (Claude Superior Tier) gpt-4.1 安い80～90%、曖昧なケースだけをエスカレート 長い文書の概要 コンテキスト + 形式の安定性 Claude tier with strong long-form behavior(強力な長い形態の行動) gpt-4.1 Long Prompts + Structured Output(構造化された出力) コード・ヘルパー in IDE トップ > 正確性 あるいは等価 gpt-4.1 / / o3 o1 Deep Reasoning for Tricky Bugs(トリック・バグ) プライバシーに敏感な内部アシスタント データ境界線 オリジナルタイトル Llama/Qwen 非敏感な出力のためのクラウドモデル RAW DATA IN-HOUSE 最終取 「ベストモデル」は一つではない。 There is only . best model for this prompt, this latency budget, this cost envelope, and this ecosystem もしあなたが乗船した場合: 
 
 
 
 
 測定されたベンチマークは、 2～3モデルスタック 生産制限の厳しさ、 バッチャング/バッチャング ...あなたは毎月最新のモデルを追いかけているチームを上回ります。

This story contains AI-generated text. The author has used AI either for research, to generate outlines, or write the text itself. 

Read My Stories

このオーディオは、ストーリーの元の言語で制作されています。

2026年にLLMを選択する:実践的な比較テーブル(スペクトル、コスト、遅延、互換性)

About Author

コメント

ラベル

この記事は

Related Stories

Telegram: クリプト島と本土を結ぶ橋

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

ユニークなエコシステムを支えるビットコインUTXOのモデル

暗号通貨の成長: 効果的なユーザーペルソナの作成

Telegram: クリプト島と本土を結ぶ橋

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

ユニークなエコシステムを支えるビットコインUTXOのモデル

暗号通貨の成長: 効果的なユーザーペルソナの作成

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps