AIモデルの選定 — GPT-5.4 nanoを選んだ理由

2026.04.09 2026.04.11 篠原隆司

アフィリエイト広告を利用しています

このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります
挨拶や報告は無しで大丈夫です

前回の記事で、チャットボットの構築に Dify を使うことに決めました。次に決めるのは、Dify の中で使う AI モデルです。

この記事では、Dify で必要になるモデルの種類を整理し、候補を比較して選定するまでの経緯をまとめています。

【広告】　XServer VPS には Dify のアプリイメージが用意されています。
VPS上に独立した Claude Code 環境を簡単に構築することができます。
VPSでいろいろ試すなら『XServer VPS』

Difyで使うAIモデルは2種類ある

Dify でチャットボットを作るとき、AI モデルは1つではなく2種類必要です。それぞれ役割が違います。

ドキュメントをベクトル化する

1つ目は Embedding（エンベディング）モデルです。FAQ や商品情報などのドキュメントを、AI が検索しやすい数値データ（ベクトル）に変換する役割を持ちます。

お客様が「送料はいくら？」と質問したとき、Dify はまずこのベクトルを使って「送料に関する情報が書かれたドキュメント」を探し出します。この検索精度が、最終的な回答の品質に直結します。

質問への回答を生成する

2つ目は LLM（大規模言語モデル）です。ChatGPT や Claude のような、文章を読んで自然な言葉で回答を生成するモデルです。

Embedding モデルが見つけてきたドキュメントの内容を読み、お客様の質問に対して自然な文章で回答を組み立てます。この仕組みを RAG（Retrieval-Augmented Generation）と呼びます。前回の記事で Dify を選んだ理由の一つが、この RAG の調整が細かくできる点でした。

LLMの候補を比較する

Embedding モデルは OpenAI の text-embedding-3-small を使います。Dify で実績が多く、日本語の検索精度も十分で、コストも低い（$0.02 / 100万トークン）ためです。

問題は LLM のほうです。選択肢が多いので、候補を並べて比較しました。

比較表

EC サイトの FAQ チャットボットという用途を考えると、最高性能は不要です。低〜中コスト帯のモデルに絞って比較しました（2026年4月時点の価格）。

提供元	モデル	入力（$/100万）	出力（$/100万）
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40
OpenAI	GPT-5.4 nano	$0.20	$1.25
Google	Gemini 3.1 Flash-Lite	$0.25	$1.50
Google	Gemini 2.5 Flash	$0.30	$2.50
OpenAI	GPT-5.4 mini	$0.75	$4.50
Anthropic	Claude Haiku 4.5	$1.00	$5.00
Google	Gemini 2.5 Pro	$1.25	$10.00
Anthropic	Claude Sonnet 4.6	$3.00	$15.00

月額コストの目安

実際にいくらかかるのか。月1,000回のチャット（1回あたり入力500トークン＋出力500トークン）を想定して試算しました。

モデル	月額目安（円）
Gemini 2.5 Flash-Lite	約40円
GPT-5.4 nano	約110円
Gemini 3.1 Flash-Lite	約130円
Gemini 2.5 Flash	約210円
GPT-5.4 mini	約400円
Claude Haiku 4.5	約450円

最安は Google の Gemini 2.5 Flash-Lite で月約40円。ただし、この金額差だけで決められない理由があります。

今回の選定結果と理由

結論として、LLM には GPT-5.4 nano（OpenAI）を選びました。

最安の Gemini 2.5 Flash-Lite ではなく、OpenAI のモデルを選んだ最大の理由は API キーの管理をシンプルにしたい からです。

Embedding モデルは OpenAI の text-embedding-3-small を使うことが決まっています。ここに Gemini の LLM を組み合わせると、OpenAI と Google の2つの API キーを管理することになります。月70円の差（GPT-5.4 nano との差額）、年間でも約840円です。API キーの発行・管理・更新の手間を考えると、OpenAI で統一するほうが合理的だと判断しました。

OpenAI の中では、nano と mini の2つが候補になります。

	GPT-5.4 nano	GPT-5.4 mini
月額目安	約110円	約400円
位置づけ	分類・抽出・ランキング向け	汎用・高負荷ワークロード向け
FAQ対応	十分	十分

今回の用途は EC サイトの FAQ 対応です。RAG で取得したドキュメントをもとに回答を生成するタスクは、nano の得意領域（情報の抽出・整理）に合致します。月額コストも3分の1以下で済むため、まずは nano で始めて、回答品質に不足を感じたら mini に切り替える方針としました。

音声入力・音声出力への対応

テキストでのチャットに加えて、音声での入出力も将来の選択肢として押さえておきます。

音声→テキスト、テキスト→音声

音声対応には2つの方向があります。

音声→テキスト（STT） — お客様が声で質問し、それをテキストに変換してチャットボットに渡す
テキスト→音声（TTS） — チャットボットの回答を音声で読み上げる

ワークフローにノードとして追加できる

Dify はワークフロービルダーの中に STT や TTS のノードを組み込めます。チャットボットの基本構成を作った後から、音声対応のノードを追加するだけで拡張できる設計です。最初から音声を考慮して構築し直す必要はありません。

対応モデル

方向	モデル	提供元
音声→テキスト	Whisper	OpenAI
テキスト→音声	OpenAI TTS	OpenAI

いずれも OpenAI のモデルなので、LLM・Embedding と同じ API キーで利用できます。今回は基本構成に含めず、将来の拡張オプションとして設計余地を残しておきます。

まとめ — 今回使うモデルの一覧

役割	モデル	提供元
ドキュメントのベクトル化	text-embedding-3-small	OpenAI
質問への回答生成	GPT-5.4 nano	OpenAI
音声→テキスト（将来）	Whisper	OpenAI
テキスト→音声（将来）	OpenAI TTS	OpenAI

すべて OpenAI で統一したことで、API キーの管理は1つで済みます。月額コストは LLM（GPT-5.4 nano）と Embedding を合わせても数百円程度の見込みです。

次の記事では、Dify のクラウド版にアカウントを作成し、管理画面で GPT-5.4 nano が実際に使えるかどうかを確認します。

このページの内容が役に立ったら X (旧twitter) でフォローして頂けると励みになります

本ページの内容は可能な限り正確な情報を提供するよう努めていますが、内容の正確性・最新性・安全性を保証するものではありません。本情報を利用して生じたいかなる損害についても、当方は一切の責任を負いません。実施にあたっては必ずご自身の判断と自己責任にてお願いいたします。