シンプル・スマートな画面録画ソフト EaseUS RecExperts
ChatGPTの活用方法を学ぶならUdemy【初回ユーザ限定・最大91%割引】

  • GPT-4の新機能に画像認識があると聞いたので、それを使ってみたい
  • 画像をアップロードする方法について教えて下さい!
  • というか、現時点で画像認識機能って使えるの?

この記事では、以上の疑問にお答えします。

 

ChatGPTの最新モデルであるGPT-4では、画像認識機能が追加されるとアナウンスされています。

アップロードした画像を認識して「この画像は◯◯ですね」と、その画像に関する内容を文章にして返してくれるという機能です。

 

公式ブログでは、画像認識機能について以下のような例を紹介しています。

かなり的確に細かい部分まで認識したうえで、画像のユーモアについてもしっかり解説しています。

この画像の面白い部分はどこですか? 各画面ごとに解説してください。
この画像は、3つの画面でLightningケーブルアダプターのパッケージを示しています。

画面1:
充電ポートに接続されたVGAコネクタ(モニターに使用される大きな青色の15ピンコネクタ)

画面2:
VBAコネクタの絵が描かれたLightningケーブルアダプターのパッケージ

画面3:
小さなLightningコネクタを備えた、VGAコネクタの拡大画面

この画像の面白い部分は、大きくて時代遅れなVGAコネクタを、小型で最新のスマートフォンの充電ポートに差し込むというばかげた部分にあります。

元記事はこちら

 

現在は文章を入力して、その文章に対してのみの返答となるので、画像入力も可能になれば、更に自由度が跳ね上がって、便利になること確実です。

この記事では、GPT-4を使って、画像認識を行う方法について、最新状況をまとめました。

 

【事実】2023年4月現時点ではGPT-4の画像認識機能は未提供

残念ながら、2023年4月現在、画像認識機能は利用できません。

GPT-4自体は2023年3月から、有料プランである「ChatGPT Plus」に加入することで利用可能となっていますが、画像認識機能については、まだ提供されていません。

 

こちらが実際に有料プランに参加して、GPT-4のチャット画面となりますが、現時点では画像のアップロードボタン等は特に存在せず、基本的にはGPT-3.5と同様に、文章の入力欄があるのみとなっています。

 

公式サイトによると現在、GPT-4の画像認識機能については以下のように説明しています。

GPT-4は文章と画像のプロンプトを入力することが出来ます。

これにより、ユーザーは文章と視覚的なタスクを指定することが出来ます。

具体的には、文章と画像で構成される入力を指定して、文章を生成します。

文章を含んだ文書、図解、スクリーンショットなどの様々な画像で、GPT-4は文章のみの入力と同等の精度の機能を発揮します。

画像認識機能はまだ研究段階であり、一般公開されていません。

元記事はこちら

 

  一般公開はまだですが、ChatGPTの提供元であるOpenAIと提携する一部企業では、画像認識機能を含めたGPT-4の利用が始まっているという情報もあります。

ただしおそらく現時点では、こちらも同様に研究段階という前提での提供であると考えられます。

【補足】画像をテキストデータにして無理やり画像認識させる方法

あくまで苦肉の策、参考情報としてですが、画像をテキストデータにして、ChatGPTに画像認識させるという試みをしている人もいましたので、こちらも紹介しておきます。

小さなサイズのモノクロ画像の認識しかできませんが、この手法で、「数字の9」が書かれていることをChatGPTに認識させることに成功したようです。

実用的なレベルではないと思いますが、こうした発想で画像認識をさせようという試みは、すごいですね。

更に、その手法にも対応できるChatGPTの柔軟性も、素晴らしいものがあると思います。

詳しくは、こちらの記事をご参考ください。

【今後】GPT-4の画像認識機能はいつごろ提供される?

さて、この世間が気になる画像認識機能ですが、いつごろ提供開始されるのでしょう?

2023年4月時点では、提供の具体的な情報は公開されていません。

そのため、公開日については続報を待つしかない、という状況です。

 

ここからは自分の予想ですが、ここ数ヶ月でのAIサービスの進歩具合は凄まじいものがあるので、この画像認識機能についても、かなり早い段階で公開されるだろうと考えています。

が、対話型AIの競争が激化している中で、あまりも完成途中のものを一般公開することもリスクになってきているのも事実です。

実際、このChatGPTに対抗するために短期間で一般公開された対話型AIサービスの「Google Bard」は、性急に公開したためにクオリティが万全ではなかったようで、かなり酷評されたというケースがありました。

例えば「50のアメリカの州をアルファベット順に並べてください」という内容に対して「私はただの言語モデルです、そのようなお手伝いは出来ません」と返してしまう…というようなレベル感です。

 

ChatGPTの方でも、このようにクオリティが万全でないものを急いで公開して、世間の不評や失望を買うよりは、しっかりとクオリティの高いものを公開しよう…という考えが働くもの、ある程度自然かと思われます。

とはいえ世間的なAI開発の競争も激化しているなかで、GPT-4の画像認識機能がいつごろプレビュー公開されるのかについては、おそらくOpenAI社内でも流動的なのではないでしょうか。

いずれにせよ、ユーザ側としては現状、最新情報をこまめにチェックして、待ちわびることしか出来なさそうです。

まとめ

以上、GPT-4の画像認識機能についての現状でした。

 

この機能が実際に解禁された際は、当ブログ、Tipstour(チップスツアー)でもすぐに試用してみて、その手順や実際の認識のクオリティなどを確認して、ご紹介したいと思います。

また、いちはやく自分でも使いたい!という方は、有料プランの「ChatGPT Plus」に加入しておき、すぐにでも試せる状態にしておくことをオススメします。

有料プランの加入方法については、こちらの記事でスクリーンショット付きでわかりやすく解説していますので、あわせてどうぞ!

 

以上、ご参考までに。

それでは!