ChatGPTについて詳しく解説します
- ChatGPTの新機能で画像認識が可能になったと聞いたけど、本当?
- その新機能「コードインタプリタ」について教えてください
- 実際、どのような画像認識や処理ができるのか、実例を知りたい!
この記事では、以上の疑問にお答えします。
以前、ChatGPTの標準機能では画像認識はまだ実現できない、というお話をお伝えしました。
しかし2023年7月、新たに公開された「コードインタプリタ機能」によって、まだ限定的にですが、画像認識が可能になりました。
具体的には、Pythonで実行可能な処理がChatGPT上で実行可能になったという形です。
この記事では、ChatGPTの新機能で画像認識する方法について、スクリーンショット付きでわかりやすくまとめています。
ぜひ、ご参考ください。
あわせて読みたい
目次
この記事のポイント!
- アップロードした写真に処理が可能なコードインタプリタ機能が追加された
- コードインタプリタ機能は有料プランのユーザにのみ限定公開中
- 画像の文字認識や編集、顔認識、カラーパレットの作成など、幅広く操作可能!
著:I/O編集部
TipstourのChrome拡張記事を寄稿しました! 工学社さんより、ChatGPT×Chrome拡張機能を使ってより便利にChatGPTを活用する方法をまとめた書籍に、当ブログの記事が本書の1章に掲載されています。 |
【速報】新機能「コードインタプリタ機能」でアップロードした画像の認識が可能に
2023年7月に公開開始されたコードインタプリタ機能によって、ChatGPTで画像認識が可能になりました。
コードインタプリタとは、ChatGPTにファイルをアップロードして、そのファイルに対して特定の処理を依頼すると、ChatGPTがプログラミングしてその通りに処理してくれるというものです。
例えば、画像をアップロードして、「画像に書かれている文字をOCR機能で読み取って文章を抜き取って」という指示を出せば、ChatGPTが自分からそのようなOCR機能のプログラムを作成・実行して、文字を読み取ってくれます。
これはとても画期的なことです。
画像だけではなくCSVファイルやExcelファイル、Zipファイルなども読み込んで処理できるため、AIに自動的に処理をさせるということが今までよりも格段に簡単になります。
基本的には、プログラミング言語のPythonで一般的に出来る処理なら、ChatGPT上だけで完結して処理が可能となった、ということですね。
個人的にはこの新機能が登場して、すごくワクワクしています。
コードインタプリタ機能で可能な画像処理まとめ
このコードインタプリタ機能を使って、画像・写真に対してどんな処理が可能なのかをまとめてみました。
コードインタプリタの画像認識で可能なこと
- 画像を読み込んで認識させる
- 画像内の文章を読み取る (現在、英語のみ対応)
- 画像のEXIF情報を抜き出して表示
- 画像のリサイズ、回転、反転
- 画像の明るさやコントラストなどの画質調整
- 画像の切り取り
- 画像の合成
- 写真から顔認識する
- 画像からカラーパレットを作成する
- Zipファイル内の画像に対して一括処理
画像の編集から、画像自体を読み込んで認識させて、カラーパレットや顔認識、文章読み取りも可能、といったように、画像編集に対するかなり幅広い処理がChatGPTから可能になりました。
これにより、「画像をアップロード」→「ChatGPTに指示」→「ChatGPTがその通りに画像に処理をする」というような活用ができるようになります。
日本語の文字読み取り機能の現状
実際、ぼく自身もこのコードインタプリタ機能を早速使ってみたのですが、残念ながら現状、文字読み取り機能は英語にしか対応しておらず、日本語の読み取りはできませんでした。
この記事を執筆中の時点では英語のみ、文字読み取りに対応しているようです。
これは、英語以外の言語のライブラリを読み込む際にはインターネット接続が必要になるためです。
ChatGPTは現在、インターネット接続の機能を無効化していますので、その関係で、インターネット接続を伴う処理が出来なくなってしまっていると考えられます。
いずれブラウジング機能が再有効化されて、コードインタプリタとブラウジング機能の両方が同時に実行できるようになれば、日本語の文章読み取りも可能になりそうですね。
【利用条件】有料プランに加入しているユーザのみ利用可能
さて、このコードインタプリタ機能、有料プランの「ChatGPT Plus」に加入中のユーザのみ利用可能です。
コードインタプリタ機能はまだ開発中の機能で、そうした開発中の機能は有料プランのユーザにのみ限定公開されています。
これまでも、以下の機能が有料プランに限定公開されていますが、いずれも画期的な機能ですので、月額料金を支払っても、多くの人がこれらの機能を利用・活用しています。
ChatGPTの有料プランで利用可能な機能
- 言語モデル・GPT-4
- プラグイン機能
- ブラウジング機能 (現在、一時利用停止中)
- コードインタプリタ機能
- カスタムインストラクション機能
ChatGPTの有料プランの契約方法については、以下の記事に手順をまとめていますので、こちらの手順をご参考ください。
【準備】コードインタプリタ機能を有効化する方法
有料プラン登録済みの方は早速、コードインタプリタ機能を有効化していきましょう。
まずはChatGPT画面左側の自分のアカウント部分をクリックします。
メニューが開くので、「Settings」をクリック。
設定画面が開きます。
ここで左側メニューの「Beta features」をクリックすると、画面上に「Code interpreter」という項目が追加されているはずです。
ここをクリックして、緑色(オン)の状態にすればOKです。
通常のチャット画面に戻ってGPT-4を選択するとこのように「Code Interpreter (Beta)」という項目が追加されているはずです!
この項目をクリックしましょう。
これで自由に、コードインタプリタ機能が利用できるようになりました。
チャットの入力欄に「+ボタン」が追加されていれば、準備はOKです。
【方法①】アップロードした画像の文章を読み取らせる方法
それでは試しに、画像をアップロードして、その画像内の文章を読み取らせてみましょう。
この+ボタンをクリックするとファイルアップロードウィンドウが開くので、読み取らせたいファイル・画像を選んでアップロードしましょう。
ここでは試しに、アップルの英語の問い合わせページのスクショをアップロードして、文章を読み取らせてみたいと思います。
(前述の通り、現在は英語しか読み取りができないため、英語ページをテスト対象にしています。)
画像がアップロードできていると、チャット欄に画像の小さなサムネが表示されています。
この状態で、以下のように入力します。
コードインタプリタ自体はまだ開発中の機能だからかと思いますが、指示の書き方によっては処理自体を行ってくれない場合がたびたびあります。
なので、「Pythonを使って」と明確に指示してあげることで、コードインタプリタがそれを理解してPythonコードを作成、実行してくれます。
ということで、上記のチャットを入力してみるとこのようにPythonプラグラムを自動作成して、文章の読み取りを開始してくれます。
実際に読み取ってくれた内容がこちら!
今回はかなりシンプルなページのスクリーンショットだったので、かなり正確に文字を読み取ってますね。
Contacting Apple
Sales and Product Inquiries
Apple Online Store
Apple.com is a convenient place to purchase Apple
products and accessories from Apple and other
manufacturers. You can buy online or call(800) MY-APPLE (800-692-7753).
You can get information about an order you placed
on the Apple Online Store through the Order Status
page. If you prefer, you can also get order status or
make changes by phone at (800) 692-7753.Shop with SignTime ASL Support
American Sign Language (ASL) interpreters are
available for all your online shopping needs, right in
your web browser. Connect to an interpreter aApple Retail Stores
Experience the digital lifestyle at any of the Apple
How to Buy for Business
If you are a business or professional user, visit the
Apple Store for Business or call 1-800-854-3680.Corporate and Government Sales:
Apple Enterprise Sales (877) 412-7753
Apple Government Sales (877) 418-2573How to Buy for Education
If you are a student or teacher, visit the Apple Store
for Education or call 1-800-692-7753.If you are buying on behalf of an educational
institution, visit the Apple Store for Education
Institutions or call 1-800-800-2775, 7 days a week
from 9:00 a.m. to 6:00 p.m. Central time.Find Apple Authorized Resellers
Use our Reseller Locator to find an Apple Authorized
【方法②】アップロードした画像からカラーパレットを作る方法
他の活用方法も見てみましょう。
以下のようなニュージーランドの大自然の写真のカラーパレットを作って貰おうと思います。
カラーパレットとは
あらかじめカラーパレットを作って配色を決めておくことで、統一感のあるページやイラストなどが出来上がります。
また、既存の写真や画像から配色を抜き出してカラーパレットを作成することもあります。
とういことで、先程と同じように+ボタンから画像をアップロードして、以下のように入力します。
カラーパレットの色の数は、もちろん自由に変更してもらってOKです。
これを入力すると、このように自動的に処理が開始されます。
画像のメインカラーを分析して、カラーコードを10色分取得して、実際にそのカラーパレットを表示してくれています。
先程の画像から、このようなカラーパレットが作成されました!
このカラーパレットは画像で出力してくれているので、ブラウザで保存すればこのように画像として保存も可能です。
まとめ
以上、ChatGPTのコードインタプリタ機能で画像認識をする方法でした。
この記事のポイント!
- アップロードした写真に処理が可能なコードインタプリタ機能が追加された
- コードインタプリタ機能は有料プランのユーザにのみ限定公開中
- 画像の文字認識や編集、顔認識、カラーパレットの作成など、幅広く操作可能!
今回は画像での操作方法をご紹介しましたが、その他のファイルの操作も可能です。
このコードインタプリタ機能、活用次第では革命的なレベルで仕事や業務に活用できそうです。
当ブログTipstour(チップスツアー)では、このコードインタプリタの機能の活用方法を今後もアップしていく予定ですので、ぜひチェックください。
以上、参考までに。
それでは!