AIモデルの選定 — GPT-5.4 nanoを選んだ理由

アフィリエイト広告を利用しています

このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります
挨拶や報告は無しで大丈夫です

前回の記事で、チャットボットの構築に Dify を使うことに決めました。次に決めるのは、Dify の中で使う AI モデルです。

この記事では、Dify で必要になるモデルの種類を整理し、候補を比較して選定するまでの経緯をまとめています。

[SC_ADD_CHATBOT_DIFY_TOP]

Difyで使うAIモデルは2種類ある

Dify でチャットボットを作るとき、AI モデルは1つではなく2種類必要です。それぞれ役割が違います。

ドキュメントをベクトル化する

1つ目は Embedding(エンベディング)モデル です。FAQ や商品情報などのドキュメントを、AI が検索しやすい数値データ(ベクトル)に変換する役割を持ちます。

お客様が「送料はいくら?」と質問したとき、Dify はまずこのベクトルを使って「送料に関する情報が書かれたドキュメント」を探し出します。この検索精度が、最終的な回答の品質に直結します。

質問への回答を生成する

2つ目は LLM(大規模言語モデル) です。ChatGPT や Claude のような、文章を読んで自然な言葉で回答を生成するモデルです。

Embedding モデルが見つけてきたドキュメントの内容を読み、お客様の質問に対して自然な文章で回答を組み立てます。この仕組みを RAG(Retrieval-Augmented Generation)と呼びます。前回の記事で Dify を選んだ理由の一つが、この RAG の調整が細かくできる点でした。

LLMの候補を比較する

Embedding モデルは OpenAI の text-embedding-3-small を使います。Dify で実績が多く、日本語の検索精度も十分で、コストも低い($0.02 / 100万トークン)ためです。

問題は LLM のほうです。選択肢が多いので、候補を並べて比較しました。

比較表

EC サイトの FAQ チャットボットという用途を考えると、最高性能は不要です。低〜中コスト帯のモデルに絞って比較しました(2026年4月時点の価格)。

提供元モデル入力($/100万)出力($/100万)
GoogleGemini 2.5 Flash-Lite$0.10$0.40
OpenAIGPT-5.4 nano$0.20$1.25
GoogleGemini 3.1 Flash-Lite$0.25$1.50
GoogleGemini 2.5 Flash$0.30$2.50
OpenAIGPT-5.4 mini$0.75$4.50
AnthropicClaude Haiku 4.5$1.00$5.00
GoogleGemini 2.5 Pro$1.25$10.00
AnthropicClaude Sonnet 4.6$3.00$15.00

月額コストの目安

実際にいくらかかるのか。月1,000回のチャット(1回あたり入力500トークン+出力500トークン)を想定して試算しました。

モデル月額目安(円)
Gemini 2.5 Flash-Lite約40円
GPT-5.4 nano約110円
Gemini 3.1 Flash-Lite約130円
Gemini 2.5 Flash約210円
GPT-5.4 mini約400円
Claude Haiku 4.5約450円

最安は Google の Gemini 2.5 Flash-Lite で月約40円。ただし、この金額差だけで決められない理由があります。

今回の選定結果と理由

結論として、LLM には GPT-5.4 nano(OpenAI)を選びました。

最安の Gemini 2.5 Flash-Lite ではなく、OpenAI のモデルを選んだ最大の理由は API キーの管理をシンプルにしたい からです。

Embedding モデルは OpenAI の text-embedding-3-small を使うことが決まっています。ここに Gemini の LLM を組み合わせると、OpenAI と Google の2つの API キーを管理することになります。月70円の差(GPT-5.4 nano との差額)、年間でも約840円です。API キーの発行・管理・更新の手間を考えると、OpenAI で統一するほうが合理的だと判断しました。

OpenAI の中では、nano と mini の2つが候補になります。

GPT-5.4 nanoGPT-5.4 mini
月額目安約110円約400円
位置づけ分類・抽出・ランキング向け汎用・高負荷ワークロード向け
FAQ対応十分十分

今回の用途は EC サイトの FAQ 対応です。RAG で取得したドキュメントをもとに回答を生成するタスクは、nano の得意領域(情報の抽出・整理)に合致します。月額コストも3分の1以下で済むため、まずは nano で始めて、回答品質に不足を感じたら mini に切り替える方針としました。

なお、GPT-5.4 nano が Dify のクラウド版で使えるかどうかは、次の記事(アカウント作成)で実際に確認します。もし対応していなければ mini を使います。

音声入力・音声出力への対応

テキストでのチャットに加えて、音声での入出力も将来の選択肢として押さえておきます。

音声→テキスト、テキスト→音声

音声対応には2つの方向があります。

  • 音声→テキスト(STT) — お客様が声で質問し、それをテキストに変換してチャットボットに渡す
  • テキスト→音声(TTS) — チャットボットの回答を音声で読み上げる

ワークフローにノードとして追加できる

Dify はワークフロービルダーの中に STT や TTS のノードを組み込めます。チャットボットの基本構成を作った後から、音声対応のノードを追加するだけで拡張できる設計です。最初から音声を考慮して構築し直す必要はありません。

対応モデル

方向モデル提供元
音声→テキストWhisperOpenAI
テキスト→音声OpenAI TTSOpenAI

いずれも OpenAI のモデルなので、LLM・Embedding と同じ API キーで利用できます。今回は基本構成に含めず、将来の拡張オプションとして設計余地を残しておきます。

まとめ — 今回使うモデルの一覧

役割モデル提供元
ドキュメントのベクトル化text-embedding-3-smallOpenAI
質問への回答生成GPT-5.4 nanoOpenAI
音声→テキスト(将来)WhisperOpenAI
テキスト→音声(将来)OpenAI TTSOpenAI

すべて OpenAI で統一したことで、API キーの管理は1つで済みます。月額コストは LLM(GPT-5.4 nano)と Embedding を合わせても数百円程度の見込みです。

次の記事では、Dify のクラウド版にアカウントを作成し、管理画面で GPT-5.4 nano が実際に使えるかどうかを確認します。

[SC_ADD_CHATBOT_DIFY_BOTTOM]