GoogleのGemini(ジェミニ) / 機能や料金の一覧表

Chat GPTをはじめとした“生成AI”を使ってみたいけど、、、

こんにちはフォーティーディーの林です。

SNSのリール動画などで「使いこなせないと仕事がなくなる!」、「使わなければ勿体ない!」と煽られて、不安を感じながらも実際に試したことはない、という方は多いと思います。

特に「プロンプト」という言葉を聞くと、途端に「特殊能力が必要なのでは?」と感じてしまい、余計に最初の一歩を踏み出せなくなってしまうのではないでしょうか?確かに生成AIを使いこなす(求める結果をアウトプットする)ためには「適切なプロンプト=質問の仕方」が必要なのですが、どんな言葉で質問しても、一定の回答は出してれます。だからあまり心配する必要もなく、とりあえず使ってみることをお勧めします。

では、どの生成AIを使えばいいの?

スクロールできます
順位生成AI知名度利用者数関連サイト数キーワードボリューム総合評価
1ChatGPT (OpenAI)非常に多い多い非常に多い非常に高い
2Google AI (Bard, Gemini)多い多い多い非常に高い
3Midjourney多い多い多い高い
4Stable Diffusion多い多い多い高い
5DALL-E 2 (OpenAI)多い多い多い高い

どれがいいの?について、実際に生成AI(ここではGemini Advanced 2.0 Flash)に聞いてみました。

やはり知名度、利用者数、情報量においてChatGPTが圧倒的ですが、とりあえず使ってみたいだけなので課金はしたくないと思う方も多いはず。そこでいつも使っている(Androidユーザーは特に)GoogleさんのGemini(ジェミニ)から始めてみることをおすすめします。

使用したバージョン:Gemini Advanced 1.5 Pro with Deep Research

GoogleのGeminiはChat GPTと同じく、複数のバージョンがありますが、Workspaceユーザーは「 1.5 Pro with Deep Research」を使うことができます。まずはGeminiにGeminiのことを聞いてみました。
以下がGeminiからの回答です。



Google DeepMind によって開発された、Google の最も汎用性の高い大規模言語モデル (LLM) である Gemini について、現在提供されている種類、機能、料金をまとめました。Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類のデータを同時に処理できるマルチモーダルなモデルであり 1、AIとの相互作用に革命を起こす可能性を秘めています。

他のサイトでも調べたところ「マルチモーダル」というのが、Geminiのすごいところのようです。

Gemini の機能

Gemini は、以下の機能を備えています。

  • マルチモーダル入力: テキスト、画像、音声、動画、PDF など、さまざまな形式の入力を処理できます。 例えば、画像に何が描かれているかを質問したり、動画の内容を要約したり、PDF 文書から情報を抽出したりすることが可能です。
  • テキスト出力: テキスト形式での応答を生成できます。これは、質問への回答、文章の生成、翻訳など、さまざまなタスクに利用できます。
  • コード生成と理解: コードの生成、補完、変換、コードベースの理解などが可能です。 開発者は、Gemini を使用してコードをより効率的に記述し、理解することができます。
  • 推論とプランニング: 高度な推論とプランニング能力を備えています。 2 これにより、複雑な問題を解決したり、計画を立てたり、意思決定を支援したりすることが可能です。
  • 長文理解: 最大 32,768 トークンのコンテキスト長をサポートし、長文の理解が可能です。 長い文章や文書を要約したり、質問に答えたり、分析したりするのに役立ちます。
  • マルチモーダル出力 (プライベートプレビュー): テキストに加えて、画像や音声などの出力も生成可能です。 例えば、テキストの説明に基づいて画像を生成したり、音声で応答を返したりすることが可能です。
  • プロンプトオプティマイザー: プロンプトの最適化により、より適切な応答を生成できます。 ユーザーが求める情報をより正確に理解し、それに応じた回答を生成するのに役立ちます。
  • 制御された生成: 制御パラメータを使用して、出力の形式やスタイルを制御できます。 例えば、出力の長さ、形式、スタイルなどを指定することができます。
  • 関数呼び出し: 外部システムや情報に接続するための関数呼び出し機能を備えています。 これにより、他のアプリケーションやサービスと連携して、より複雑なタスクを実行することが可能です。
  • Google 検索との連携: Google 検索を使用して、最新の情報に基づいた応答を生成できます。 これにより、常に最新の情報に基づいた回答を提供することが可能です。
  • コード実行: コードの実行が可能です。 プログラミングの学習や、コードのテストなどに役立ちます。
  • トークンカウント: プロンプトのトークン数をカウントできます。 料金の計算や、モデルの入力制限の確認などに役立ちます。
  • 埋め込み: テキストをベクトル化して表現する埋め込み機能を備えています。 これにより、テキストの意味をより深く理解し、類似したテキストを検索したり、分類したりすることが可能です。

Gemini の種類

Gemini は、さまざまなタスクやデバイスに対応するために、異なるサイズで最適化されています。

Gemini Ultra / 生成AIのプロが使うすごいやつ、ですが簡単に使えます
  • 最も大規模で高性能なモデルです。
  • 複雑なタスクに最適化されています。
  • 2024 年初頭に一部の顧客、開発者、パートナーに早期実験とフィードバックのために提供され、その後、より広範囲に展開される予定です。
  • 多くの業界標準ベンチマークで GPT-4 を凌駕する性能を示し、Massive Multitask Language Understanding (MMLU) テストでは、初めて人間の専門家を上回るスコアを達成しました
  • Deep Research 機能により、複雑なトピックを調査し、ユーザーに代わってレポートを作成することができます。7
Gemini Pro /
  • 幅広いタスクに対応できるモデルです。
  • スケーラビリティに優れており、大規模なアプリケーションにも対応できます。
  • Google 検索との連携機能を備えています。
  • Google AI Studio または Google Cloud Vertex AI 経由で Gemini API を使用してアクセス可能です。
  • Bard と Pixel 8 Pro スマートフォンに統合されています。
Gemini Nano / 要するにAndroidスマホ用のジェミニです
  • オンデバイス タスクに最適化された、最も効率的なモデルです。
  • スマートフォンなどのエッジデバイスでの使用を想定しており、プライバシー保護と効率性の向上に貢献します。
  • Pixel 8 Pro に搭載され、レコーダーアプリの要約機能や Gboard のスマートリプライ機能などに活用されています。
  • Android デベロッパーは、Android 14 の新機能である AICore を介して Gemini Nano を利用可能です。

Gemini 2.0 models / 2024年12月にリリースされた最新モデル

Gemini 2.0 は、エージェント時代に向けて構築された、より高性能なモデルファミリーです。主なモデルは以下の通りです。

Gemini 2.0 Flash
  • 汎用的なタスクに対応する、最新のモデルです。
  • 強化されたパフォーマンスと低レイテンシを特徴とし、エージェントエクスペリエンスを強化するために構築されています。
  • マルチモーダル Live API との統合により、低レイテンシの双方向音声およびビデオインタラクションを Gemini で実現します。
  • ネイティブな画像生成機能と制御可能なテキスト読み上げ機能を備えています。5
Gemini 2.0 Flash-Lite
  • 最も高速で費用対効果の高い Flash モデルです。
  • 100 万トークンの入力コンテキストウィンドウとマルチモーダル入力を備えています。
  • マルチモーダル出力生成と Multimodal Live API との統合は含まれていません。
Gemini 2.0 Pro
  • コーディングと世界知識に最も強力なモデルです。
  • 200 万トークンの長いコンテキストウィンドウを備えています。
Gemini 2.0 Flash Thinking
  • モデルが応答の一部として実行する「思考プロセス」を生成するようにトレーニングされた実験的なモデルです。
  • その結果、Flash Thinking モデルは、Gemini 2.0 Flash Experimental モデルよりも応答において強力な推論能力を発揮できます。

Image Generation with Imagen 3 / テキストから画像を生成する機能

Imagen 3 は、Gemini API を利用できる Google の最高品質のテキスト画像生成モデルです。Imagen 3 は、以下のような機能を備えています。

  • 高品質な画像生成: より詳細で、豊かな照明と、気が散るようなアーティファクトの少ない画像を生成できます。
  • 多様なスタイルとフォーマット: 写真のようにリアルな風景、質感のある油絵、風変わりなクレイアニメーションシーンなど、さまざまなスタイルで画像を作成できます。
  • プロンプトの理解: 自然言語で書かれたプロンプトを理解し、それに基づいて画像を生成できます。
  • テキストレンダリング: 以前のモデルよりも効果的にテキストをレンダリングできます。
  • 安全性: 誤情報や帰属の誤りを防ぐために、Imagen 3 によって生成されたすべての画像には、AI によって生成されたことを識別する、目に見えないデジタル Synth ID ウォーターマークが含まれています。

Imagen 3 は、広告やメディアコンテンツの作成など、さまざまな用途に利用できます。

Gemini の料金 / ここがポイントです!

Gemini の料金体系は、モデルの種類や使用方法によって異なります。
Gemini Ultra: Google One AI Premium プランに加入することで利用可能です。月額料金は 19.99 ドルで、学生は 50% 割引となります。 1 か月間の無料トライアルも利用できます。
Gemini Pro: Google AI Studio または Google Cloud Vertex AI を介して利用可能です。 Vertex AI での料金は、入力トークン数、出力トーク数、画像入力、動画入力などによって異なり 、従量課金制となっています。
Gemini Nano: Android 14 の AI Core を介して利用可能です。 料金は無料。

アレコレと課金されるようなことが書いてありますが、基本的に“無料”で使えます。より深く、多くの情報から答えを出してくれるバージョンが有料なだけ。またお仕事でGoogleを利用している方は「Google Workspace」ですでに課金されていると思いますが、その場合は2025年1月から「プロ用」のGeminiが追加課金なしで使えるようになりました。(正確には若干値上がりして、基本機能に組み込んだ、、、のですが)

既に課金しているGoogleのサービスで、一部では「ChatGPTを超えた!」とも言われているGeminiを使える。
正に使わなければもったいないです。

結論 / とにかく使ってみましょう!

Gemini は、Google の最新 AI 技術を結集した、強力なマルチモーダルです。さまざまなサイズと機能が用意されており、多様なタスクに適用できます。料金体系は複雑ですが、かなりの部分が無料で使えるので「まずは生成AIを使ってみたい!」という方におすすめします。

特にGoogle Workspaceを仕事で使っている方は「Gemini Advanced 1.5 Pro with Deep Research」をぜひ使ってみてください。2.0の方が“最新版”でがありますが、GoogleだからこそのDeep Research機能で、かなり多くのサイトや文献から情報と統合して答えを出してくれます。情報の出どころもキレイにまとめてくれるので、ブログ作成にも向いていますね。

こちらも参考になります!

Geminiからの回答よりも、違いや選び方がとても分かり易くまとまっています。

GoogleのAI「Gemini」に課金する意味は?何ができるようになるか、まとめました | ライフハッカー・ジャパン