AIモデルの選定 — GPT-5.4 nanoを選んだ理由
篠原 隆司
アフィリエイト広告を利用しています
このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります
挨拶や報告は無しで大丈夫です
前回の記事で、チャットボットの構築に Dify を使うことに決めました。次に決めるのは、Dify の中で使う AI モデルです。
この記事では、Dify で必要になるモデルの種類を整理し、候補を比較して選定するまでの経緯をまとめています。
【広告】 XServer VPS には Dify のアプリイメージが用意されています。
VPS上に独立した Claude Code 環境を簡単に構築することができます。
VPSでいろいろ試すなら『XServer VPS』
Difyで使うAIモデルは2種類ある
Dify でチャットボットを作るとき、AI モデルは1つではなく2種類必要です。それぞれ役割が違います。
ドキュメントをベクトル化する
1つ目は Embedding(エンベディング)モデル です。FAQ や商品情報などのドキュメントを、AI が検索しやすい数値データ(ベクトル)に変換する役割を持ちます。
お客様が「送料はいくら?」と質問したとき、Dify はまずこのベクトルを使って「送料に関する情報が書かれたドキュメント」を探し出します。この検索精度が、最終的な回答の品質に直結します。
質問への回答を生成する
2つ目は LLM(大規模言語モデル) です。ChatGPT や Claude のような、文章を読んで自然な言葉で回答を生成するモデルです。
Embedding モデルが見つけてきたドキュメントの内容を読み、お客様の質問に対して自然な文章で回答を組み立てます。この仕組みを RAG(Retrieval-Augmented Generation)と呼びます。前回の記事で Dify を選んだ理由の一つが、この RAG の調整が細かくできる点でした。
LLMの候補を比較する
Embedding モデルは OpenAI の text-embedding-3-small を使います。Dify で実績が多く、日本語の検索精度も十分で、コストも低い($0.02 / 100万トークン)ためです。
問題は LLM のほうです。選択肢が多いので、候補を並べて比較しました。
比較表
EC サイトの FAQ チャットボットという用途を考えると、最高性能は不要です。低〜中コスト帯のモデルに絞って比較しました(2026年4月時点の価格)。
| 提供元 | モデル | 入力($/100万) | 出力($/100万) |
|---|---|---|---|
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | |
| OpenAI | GPT-5.4 nano | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | |
| Gemini 2.5 Flash | $0.30 | $2.50 | |
| OpenAI | GPT-5.4 mini | $0.75 | $4.50 |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 | |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 |
月額コストの目安
実際にいくらかかるのか。月1,000回のチャット(1回あたり入力500トークン+出力500トークン)を想定して試算しました。
| モデル | 月額目安(円) |
|---|---|
| Gemini 2.5 Flash-Lite | 約40円 |
| GPT-5.4 nano | 約110円 |
| Gemini 3.1 Flash-Lite | 約130円 |
| Gemini 2.5 Flash | 約210円 |
| GPT-5.4 mini | 約400円 |
| Claude Haiku 4.5 | 約450円 |
最安は Google の Gemini 2.5 Flash-Lite で月約40円。ただし、この金額差だけで決められない理由があります。
今回の選定結果と理由
結論として、LLM には GPT-5.4 nano(OpenAI)を選びました。
最安の Gemini 2.5 Flash-Lite ではなく、OpenAI のモデルを選んだ最大の理由は API キーの管理をシンプルにしたい からです。
Embedding モデルは OpenAI の text-embedding-3-small を使うことが決まっています。ここに Gemini の LLM を組み合わせると、OpenAI と Google の2つの API キーを管理することになります。月70円の差(GPT-5.4 nano との差額)、年間でも約840円です。API キーの発行・管理・更新の手間を考えると、OpenAI で統一するほうが合理的だと判断しました。
OpenAI の中では、nano と mini の2つが候補になります。
| GPT-5.4 nano | GPT-5.4 mini | |
|---|---|---|
| 月額目安 | 約110円 | 約400円 |
| 位置づけ | 分類・抽出・ランキング向け | 汎用・高負荷ワークロード向け |
| FAQ対応 | 十分 | 十分 |
今回の用途は EC サイトの FAQ 対応です。RAG で取得したドキュメントをもとに回答を生成するタスクは、nano の得意領域(情報の抽出・整理)に合致します。月額コストも3分の1以下で済むため、まずは nano で始めて、回答品質に不足を感じたら mini に切り替える方針としました。
なお、GPT-5.4 nano が Dify のクラウド版で使えるかどうかは、次の記事(アカウント作成)で実際に確認します。もし対応していなければ mini を使います。
音声入力・音声出力への対応
テキストでのチャットに加えて、音声での入出力も将来の選択肢として押さえておきます。
音声→テキスト、テキスト→音声
音声対応には2つの方向があります。
- 音声→テキスト(STT) — お客様が声で質問し、それをテキストに変換してチャットボットに渡す
- テキスト→音声(TTS) — チャットボットの回答を音声で読み上げる
ワークフローにノードとして追加できる
Dify はワークフロービルダーの中に STT や TTS のノードを組み込めます。チャットボットの基本構成を作った後から、音声対応のノードを追加するだけで拡張できる設計です。最初から音声を考慮して構築し直す必要はありません。
対応モデル
| 方向 | モデル | 提供元 |
|---|---|---|
| 音声→テキスト | Whisper | OpenAI |
| テキスト→音声 | OpenAI TTS | OpenAI |
いずれも OpenAI のモデルなので、LLM・Embedding と同じ API キーで利用できます。今回は基本構成に含めず、将来の拡張オプションとして設計余地を残しておきます。
まとめ — 今回使うモデルの一覧
| 役割 | モデル | 提供元 |
|---|---|---|
| ドキュメントのベクトル化 | text-embedding-3-small | OpenAI |
| 質問への回答生成 | GPT-5.4 nano | OpenAI |
| 音声→テキスト(将来) | Whisper | OpenAI |
| テキスト→音声(将来) | OpenAI TTS | OpenAI |
すべて OpenAI で統一したことで、API キーの管理は1つで済みます。月額コストは LLM(GPT-5.4 nano)と Embedding を合わせても数百円程度の見込みです。
次の記事では、Dify のクラウド版にアカウントを作成し、管理画面で GPT-5.4 nano が実際に使えるかどうかを確認します。
【広告】 XServer VPS には Dify のアプリイメージが用意されています。
VPS上に独立した Claude Code 環境を簡単に構築することができます。
VPSでいろいろ試すなら『XServer VPS』
このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります
本ページの内容は可能な限り正確な情報を提供するよう努めていますが、内容の正確性・最新性・安全性を保証するものではありません。本情報を利用して生じたいかなる損害についても、当方は一切の責任を負いません。実施にあたっては必ずご自身の判断と自己責任にてお願いいたします。