AIモデルの選定 — GPT-5.4 nanoを選んだ理由
篠原 隆司
アフィリエイト広告を利用しています
このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります
挨拶や報告は無しで大丈夫です
前回の記事で、チャットボットの構築に Dify を使うことに決めました。次に決めるのは、Dify の中で使う AI モデルです。
この記事では、Dify で必要になるモデルの種類を整理し、候補を比較して選定するまでの経緯をまとめています。
[SC_ADD_CHATBOT_DIFY_TOP]Difyで使うAIモデルは2種類ある
Dify でチャットボットを作るとき、AI モデルは1つではなく2種類必要です。それぞれ役割が違います。
ドキュメントをベクトル化する
1つ目は Embedding(エンベディング)モデル です。FAQ や商品情報などのドキュメントを、AI が検索しやすい数値データ(ベクトル)に変換する役割を持ちます。
お客様が「送料はいくら?」と質問したとき、Dify はまずこのベクトルを使って「送料に関する情報が書かれたドキュメント」を探し出します。この検索精度が、最終的な回答の品質に直結します。
質問への回答を生成する
2つ目は LLM(大規模言語モデル) です。ChatGPT や Claude のような、文章を読んで自然な言葉で回答を生成するモデルです。
Embedding モデルが見つけてきたドキュメントの内容を読み、お客様の質問に対して自然な文章で回答を組み立てます。この仕組みを RAG(Retrieval-Augmented Generation)と呼びます。前回の記事で Dify を選んだ理由の一つが、この RAG の調整が細かくできる点でした。
LLMの候補を比較する
Embedding モデルは OpenAI の text-embedding-3-small を使います。Dify で実績が多く、日本語の検索精度も十分で、コストも低い($0.02 / 100万トークン)ためです。
問題は LLM のほうです。選択肢が多いので、候補を並べて比較しました。
比較表
EC サイトの FAQ チャットボットという用途を考えると、最高性能は不要です。低〜中コスト帯のモデルに絞って比較しました(2026年4月時点の価格)。
| 提供元 | モデル | 入力($/100万) | 出力($/100万) |
|---|---|---|---|
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | |
| OpenAI | GPT-5.4 nano | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | |
| Gemini 2.5 Flash | $0.30 | $2.50 | |
| OpenAI | GPT-5.4 mini | $0.75 | $4.50 |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 | |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 |
月額コストの目安
実際にいくらかかるのか。月1,000回のチャット(1回あたり入力500トークン+出力500トークン)を想定して試算しました。
| モデル | 月額目安(円) |
|---|---|
| Gemini 2.5 Flash-Lite | 約40円 |
| GPT-5.4 nano | 約110円 |
| Gemini 3.1 Flash-Lite | 約130円 |
| Gemini 2.5 Flash | 約210円 |
| GPT-5.4 mini | 約400円 |
| Claude Haiku 4.5 | 約450円 |
最安は Google の Gemini 2.5 Flash-Lite で月約40円。ただし、この金額差だけで決められない理由があります。
今回の選定結果と理由
結論として、LLM には GPT-5.4 nano(OpenAI)を選びました。
最安の Gemini 2.5 Flash-Lite ではなく、OpenAI のモデルを選んだ最大の理由は API キーの管理をシンプルにしたい からです。
Embedding モデルは OpenAI の text-embedding-3-small を使うことが決まっています。ここに Gemini の LLM を組み合わせると、OpenAI と Google の2つの API キーを管理することになります。月70円の差(GPT-5.4 nano との差額)、年間でも約840円です。API キーの発行・管理・更新の手間を考えると、OpenAI で統一するほうが合理的だと判断しました。
OpenAI の中では、nano と mini の2つが候補になります。
| GPT-5.4 nano | GPT-5.4 mini | |
|---|---|---|
| 月額目安 | 約110円 | 約400円 |
| 位置づけ | 分類・抽出・ランキング向け | 汎用・高負荷ワークロード向け |
| FAQ対応 | 十分 | 十分 |
今回の用途は EC サイトの FAQ 対応です。RAG で取得したドキュメントをもとに回答を生成するタスクは、nano の得意領域(情報の抽出・整理)に合致します。月額コストも3分の1以下で済むため、まずは nano で始めて、回答品質に不足を感じたら mini に切り替える方針としました。
なお、GPT-5.4 nano が Dify のクラウド版で使えるかどうかは、次の記事(アカウント作成)で実際に確認します。もし対応していなければ mini を使います。
音声入力・音声出力への対応
テキストでのチャットに加えて、音声での入出力も将来の選択肢として押さえておきます。
音声→テキスト、テキスト→音声
音声対応には2つの方向があります。
- 音声→テキスト(STT) — お客様が声で質問し、それをテキストに変換してチャットボットに渡す
- テキスト→音声(TTS) — チャットボットの回答を音声で読み上げる
ワークフローにノードとして追加できる
Dify はワークフロービルダーの中に STT や TTS のノードを組み込めます。チャットボットの基本構成を作った後から、音声対応のノードを追加するだけで拡張できる設計です。最初から音声を考慮して構築し直す必要はありません。
対応モデル
| 方向 | モデル | 提供元 |
|---|---|---|
| 音声→テキスト | Whisper | OpenAI |
| テキスト→音声 | OpenAI TTS | OpenAI |
いずれも OpenAI のモデルなので、LLM・Embedding と同じ API キーで利用できます。今回は基本構成に含めず、将来の拡張オプションとして設計余地を残しておきます。
まとめ — 今回使うモデルの一覧
| 役割 | モデル | 提供元 |
|---|---|---|
| ドキュメントのベクトル化 | text-embedding-3-small | OpenAI |
| 質問への回答生成 | GPT-5.4 nano | OpenAI |
| 音声→テキスト(将来) | Whisper | OpenAI |
| テキスト→音声(将来) | OpenAI TTS | OpenAI |
すべて OpenAI で統一したことで、API キーの管理は1つで済みます。月額コストは LLM(GPT-5.4 nano)と Embedding を合わせても数百円程度の見込みです。
次の記事では、Dify のクラウド版にアカウントを作成し、管理画面で GPT-5.4 nano が実際に使えるかどうかを確認します。
[SC_ADD_CHATBOT_DIFY_BOTTOM]