CriticGPT。ChatGPTのミスを見つけるGPT-4ベースのAIモデル。 / メモ / いがわ

CriticGPT。ChatGPTのミスを見つけるGPT-4ベースのAIモデル。

2024.06.29

Contents - 目次

1 CriticGPTとは？
2 ChatGPTを批評する、CriticGPT。
3 AI 関連メモ。

CriticGPTとは？

ChatGPTを批評する、クリティカルな「GPT」。（GPT： Generative Pre-trained Transformer）

ChatGPTと同様、RLHFでトレーニングされたGPT。

ChatGPTなどの生成AIは、事前に大規模なデータによるトレーニングが行われている。（Pre-trained）。

リリース後も、RLHF（Reinforcement Learning from Human Feedback）と呼ばれる人間からのフィードバックにより、微調整（ファインチューニング）などの追加学習をしている。

このPDCAでのチェック、OODAでの方向づけのようなプロセスを経て、間違った回答を繰り返さないようにと、フィードバックから生成能力が強化されていく。

ChatGPTの強化学習と回答の評価。

それでもChatGPTの生成内容は、常に正しいとは限らない。

また、事実と異なる物事を正当化しようとする、ハルシネーション（AIが見る幻覚。）が起きることもある。

ChatGPTを批評する、CriticGPT。

CriticGPTによるミスの指摘。使い方の例。

ChatGPTのコードエラーを検出。

CriticGPTは、間違いを含む内容を大量に確認し、エラーを検出、そして批評ができるようにトレーニングされているという。

CriticGPTの使い方。具体的なイメージ。

OpenAIのサイトでは、下記のイメージ画像が掲載されている。

ユーザーの依頼でChatGPTが生成したコード内に、CriticGPTが問題のある箇所を見つけ、チェックし、代替案を勧めている。

このイメージのまま実装されるかどうかは不明だが、使い方や機能としてはこのような感じ、ユーザーへ回答するChatGPTに、陰で見守る先生や監督、コーチがいるような感じになると思われる。

CriticGPTによるミスのチェック、批評のイメージ画像。

参照元：Finding GPT-4’s mistakes with GPT-4 | OpenAI

CriticGPT。ChatGPTのミスを見つける猫ちゃん。

以上、参考になれば幸いです。

※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。（元々はメモ書きでした。） ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。