ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。 / いがわ

.

Memo

ChatGPT(チャットGPT)のPDF要約を検証。

ChatGPTのPDF要約はどこまでできるのか?

PDF要約検証。Illustratorのショートカットキーのリスト。

GPT-4oのPDF要約をチェック。

GPT-4oではPDF要約もできる。そこで、どこまでできるのかを検証してみた。

無料プランでは回数などの制限あり。2024年5月下旬時点ではGPTsもまだ利用できない。)

PDFファイルを用意。

Adobe公式サイトから、PDFをダウンロード。

このPDFファイルは編集権限が必要なため、基本的に編集ができない。また、PDFファイルとしてはペライチのシンプルなもの。

Illustratorのショートカットキー一覧の画像。

参照元:Illustratorのショートカットキー一覧

ChatGPT(GPT-4o)へアップロード。

IllustratorのキーボードショートカットのPDFファイルを選択した画像。

ChatGPTがPDFファイル内の文字を認識し、要約をする。

PDFファイルの内容が、Adobe Illustratorのショートカットキーリストであることは正しく認識している。

キーボード部分の「shift」や「command」などの色分けも判断しているので、単純に文字だけを認識しているわけではない様子。

ChatGPT-4oがPDF要約をしている画像。

ChatGPTへのメッセージで「要約」という言葉を一切使用していないにもかかわらず、自主的に「主要なポイント」としてまとめている。

ただ、こちらが想定したものとは限らないので、指示出しに気をつけなければならない。

ChatGPT-4oがPDF要約をしている画像。

ChatGPTの要約が正しいかをチェック。

少なくとも、以下の4つはPDFには記載されていなかった。

そして、間違った内容も出力していた。

  • PDFには記載されていない、「背面へペースト」を出力している。(ショートカットは正しい。)
  • PDFには記載されていない、「ガイドを作成」を出力している。(ショートカットも間違い。)
  • PDFには記載されていない、「アンカーポイントの追加」を出力している。(ショートカットも間違い。)
  • PDFには記載されていない、「アンカーポイントの削除」を出力している。(ショートカットも間違い。)

ChatGPTの回答は、必ずしも正しいとは限らないということ。

ChatGPTへのメッセージ入力欄の下に注意書きがされているように。)

ChatGPTの使用上の注意点についての画像。


ChatGPTのPDF要約を再確認。

PDF要約検証。Photoshopのショートカットキーのリスト。

PDFファイルを用意。

別の日、同じくAdobe公式サイトから、Photoshopのショートカットキー一覧のPDFをダウンロード。

Photoshopのショートカットキー一覧の画像。

参照元:Photoshopのショートカットキー一覧

ChatGPT(GPT-4o)へアップロード。

PhotoshopのキーボードショートカットのPDFファイルを選択した画像。

ChatGPTがPDFファイル内の文字を認識し、要約をする。

前回とセッションを変えて、メッセージは同じ、「こんにちは」と「このファイルの内容がわかりますか?」にして検証。

前回同様、Adobe PhotoshopのショートカットキーリストのPDFファイルであることは認識している。

ChatGPT-4oがPDF要約をしている画像。

やはり、GPT-4oが自主的に「Mac用ショートカット」と「Windows用ショートカット」を要約してくれている。

もしかしたら学習しているのか、前回よりも見やすく、無難になっている。

そして比較的難しいと思われる、「キーボードの部分」については一切触れていない。

ChatGPT-4oがPDF要約をしている画像。

改めて「キーボードの配列部分」について聞いてみたところ、ちょっとややこしい感じとなってしまった。

なので、「Mac用だけの、すべてのキーボードショートカットを箇条書きにしてください。Windowsは必要ありません。」という指示で依頼してみた。

ChatGPT-4oがPDF要約をしている画像。

ChatGPT-4oがPDF要約をしている画像。

ChatGPT-4oがPDF要約をしている画像。

これでだいぶ想定通りの感じに要約、テキスト化ができた。

ChatGPTの要約が正しいかをチェック。

内容を確認したところ、PDFの「テキスト」の部分はほぼ間違いなかった。

が、「キーボードの配列」の箇所はいくつか間違いがあった。

  • PDFに記載されている、「色の校正」のショートカットが間違っている。
  • PDFに記載されている、「不透明度」のショートカットが間違っている。(10%〜100%までの計10箇所。)
  • PDFには記載されていない、「ブラシ設定変更」を出力している。(ショートカットも間違い。)

少なくとも上記の3項目は誤り。この感じであれば、このままでは学校などのテストでは使えない。

ファクトチェックは必須。


GPT-4oによるPDFと画像の違いを確認。

画像認識検証。Illustratorのショートカットキーのリスト。

ChatGPTの画像認識をチェック。

GPT-4oでは画像認識もできる。そこで、PDFと全く同じ内容のWebPファイルで検証。

画像なので、PDFのような「テキストデータ」は含まれていない。

今回も前回とセッションを変えて、メッセージは同じにして検証。

GPT-4oの画像認識用のスクショ。

Illustratorのショートカットキーリストであることは、しっかりと認識している。

ただし、間違いや記載されていない内容を出力している。

GPT-4oの画像認識用のスクショ。

画像認識検証。Photoshopのショートカットキーのリスト。

ChatGPTの画像認識をチェック。

次に同じく、Photoshopのショートカットキーリストの画像。

GPT-4oの画像認識用のスクショ。

Photoshopのショートカットキーリストであるという認識は問題なし。

しかし、やはり明らかな間違いがチラホラと見られる。

GPT-4oの画像認識用のスクショ。

PDFファイルでも画像ファイルでも、人間からは見た目は一緒だが、ChatGPTからは違うのかもしれない。

少なくとも、こちらが全く同じ言葉で依頼しても、回答が同じとはならない。


GPT-4oのPDF要約をチェックしてみた感想。

ChatGPTとはなんなのか?

ソフトウェアとハードウェア。

今回は2種類だけなのでサンプル数は少ない。
それでも想像以上に精度は高く、自信満々で間違うというということはわかる。

一旦原点に戻って考えてみた。

ChatGPTは、同じ「ソフトウェア」であるIllustratorやPhotoshopとは違う。
もちろん、同じ「機械」である、MacやWindows、iPhoneやAndroidとも違う。

機械が間違うリスク。

機械が間違うのは不思議なことでもあり、リスクでもある。

100円ショップで買える計算機でも、間違うことはまず考えられない。
しかし医療機器や自動運転が間違ってしまうと、極めてリスクが大きい。

デバイスとシナプス。

ChatGPTなどの生成AIのポテンシャルと成長速度は、デジタルデバイスが普及したときと似ている。

そしてそれらは互いに組み込まれていく。

気持ちの通じ合い、みたいな複雑でありシンプルでもある、シナプスのようなものが必要なのかもしれない。

PDF要約チェック。犬と猫のような意思疎通のようなものが必要かも。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。