GPT-3、GPT-3.5turbo、GPT-4の性能、料金、応用例を解説

Ryosuke
Mar 18, 2023
3 min read

Updated: Mar 24, 2023

ChatGPTとGPTについて

ChatGPTはOpenAI社が開発した大規模言語処理モデルに基づくチャットボットです。このチャットボットの裏で動いている機械学習アルゴリズムがGPTであり、2018年6月に初めて公開されGPT→GPT-2→GPT-3・・と改良されつづけ現在のGPT-4に至ります。2023/3/18日現在、無料版ChatGPTにはGPT3.5-turboが使用されています。今回はChatGPTが提供しているGPT系列の概要について解説していきます。

GPTの概要比較

OpenAI公式のドキュメントからGPT-3以降のバージョンの概要比較を表にまとめています。

現在、GPT-4はChatGPT Plusにアップグレードした人のみ利用可能で、使用されているモデルの最大トークンが8kか32kかは明記されていません。GPT-4のAPIはまだ一般公開されておらず、WaitListに登録して許可された人のみ使用可能です。またGPT-４は入力データがマルチモーダル対応と記載されていますが、現時点ではテキストのみの入力となっているようです。

GPT-4 is a large multimodal model (accepting text inputs and emitting text outputs today, with image inputs coming in the future) that can solve difficult problems with greater accuracy than any of our previous models, thanks to its broader general knowledge and advanced reasoning capabilities

	GPT-3	GPT-3.5-turbo	GPT-4 (8k)	GPT-4 (32k)
公開日	2022/11/30	2023/3/8	2023/3/16	2023/3/16
API利用料金	$0.02/1k	$0.002/1k	$0.03/1k prompt $0.06/1k completion	$0.06/1k prompt $0.12/1k completion
最大トークン数	2k	4k	8k	32k
入力データ	テキスト	テキスト	テキスト＆画像	テキスト＆画像
学習データ	~2019/10	~2021/9	~2021/9	~2021/9
fine-tuning	〇	×	×	×

トークン数は1kでだいたい750単語なのでA4で1.5～2ページ分くらいになります。

GPTを活用してプロダクト開発や社内システムに組み込みたい方が多いと思いますが、自社データを利用してモデルをfine-tuningできるのはGPT-3のみとなっています。

下画像のように

fine-tuningにも費用がかかる（Training）
API経由でカスタマイズモデルの推論すると費用がかかる（Usage）
どの程度なにが改善するかはデータの量と質依存

なので、投資してもいいと考える方はぜひトライしてみてください。ちなみに、Ada、Baggage、Curie、DavinciはGPT-３に基づくアーキテクチャで（GPT-3 family）Adaが最も処理が早く、Davinciが最も強力なモデルとなっています。ChatGPTで使用されていたGPT-3はDavinciでした。

GPTの性能比較

学術試験と資格試験のスコア

比較的わかりやすい試験のスコアだとこんな感じだと思います。

	スコア目安	GPT-4	GPT-4 (no vision)	GPT-3.5
Uniform Bar Exam （司法試験）	アメリカの最低合格点は280点	298/400	298/400	213/400
LSAT（法科大学院への入学テスト）	ハーバードロースクールの平均スコアは173	163	161	149
SAT（アメリカ版センター試験）	スタンフォード大学は1400点が最低点	1410/1600	1400/1600	1260/1600

GPT-3.5ではすべての試験でいまひとつの結果だったものの、GPT-4では多くの試験を通過しています。GPT-4のレベル感としては、トップレベルのロースクールには届かないものの、弁護士になれるレベルです。LSATはスタンフォードロースクールであれば十分合格の可能性がある点数だと思われます。そもそも弁護士資格を取得できる人間があまりいないことを考えると、言語処理という観点では大半の人間を超越していると解釈することもできます。

人間による定性的な評価

9つのトピックにおける敵対的に設計された事実性評価の結果です。Accuracyが100%の場合、評価中のすべての質問に対して人間の理想的な回答と一致するということを意味します。GPT-3.5とGPT-4を比較すると、GPT-4がすべてのトピックで約19％向上したという結果になっています。数値だけみると分かりづらいですが、GPT-3.5は10回質問して4回は幻覚的な回答していたのに対して、GPT-4は2回のみになるということなので、会話のストレスは大きく削減されるかと考えられます。

GPTの応用例

現状はChatGPTへの使いやすいインターフェースを提供したり、規則性のあるプロンプトを用意して入力に対して自動で決まったプロンプトの結果を表示するサービスが主で、すでに多くのユーザを獲得している。

	概要
AIチャットくん	ChatGPTとLINE上で会話できるサービス。ChatGPTの公式HPを開く必要がないため日常的に利用しやすくなる。
Poe	ChatGPTも含め、複数のAIから回答を受け取れるサービス。複数のサービスを移動する必要がなくなるため、効率的に各AIの回答を見れる。
Value Discovery	仮説を入力すると、より具体的な仮説の言語化、想定される障壁、代替手段を自動的に生成するサービス。
ChatGPT+VSCode	VSCode上でコードの最適化、バグ探索、テスト実装等を自動で実行するプラグイン。開発効率が非常に向上する。

まとめ

今回はGPT-3以降のバージョンについて、簡単な概要を解説しました。

GPT-4のAPIの利用料金は高額ですが、GPT-3→GPT-3.5-turboの時のように数か月ほどで軽量化されたモデルのAPIが公開されることが想定されるため、先行者利益を得たい開発者以外は安価になるのを待つのがいいと思います。

ChatGPTの出現によって世の中が大きく変わってきているので、協調できるようしばらくは動向をしっかりと追ってまとめていきたいと思います。