Google AI Geminiの使い方

10 IT

一年ほどサボって英気を養っている間にAI業界もおそろしく様変わりしたので、また調査がてら記事を書いていこうかと思います。
Gemini(ジェミニ)はGoogleが開発したAIモデルで、2024年12月11日にGemini 2.0の実験版(Experimental)がリリースされました。また、高度なリサーチ機能を備えたGemini 1.5 Pro with Deep Research(有料版のみ)も大きな話題を呼んでいます。
要するにChatGPTのオトモダチです。
この記事では簡単な使い方を解説し、別にリンクを貼っていきます。
※記事の内容は一部AI生成を含みます。
※紹介した内容は2024年12月時点のものです。

スポンサーリンク

Geminiを使ってみる

こんな感じで見覚えのある雰囲気の画面になります。
このウィンドウでバージョンを切り替えることができます。Advancedは有料版です。
Gemini2.0について訊いてみます。質問したい内容を入力し、送信を押せば、
生成された回答が表示されます。
表示された内容から一部情報を抜粋します。

・マルチモーダル対応: テキストだけでなく、画像や音声なども同時に理解し、それらを組み合わせて応答することができます。例えば、「この画像に写っている猫について説明して」と聞くと、画像の内容を理解し、猫の種類や特徴などをテキストで説明してくれます。
・高速な処理速度: 従来のモデル(Gemini 1.5)と比べて、2倍の処理速度を実現しています。これにより、より迅速な応答が可能になりました。
・高精度な応答: より高度な情報処理能力により、より正確で自然な応答を生成することができます。
・多様な機能: リアルタイムでの会話支援、大量データの瞬時分析、複雑な数理計算の高速処理など、幅広い機能を備えています。

Geminiはネット検索機能を備えているので、最短経路を検索したり(質問内容によってはGoogle MapやGoogle Flightも解答に埋め込まれる)、
イベントを検索したりと、検索代わりに様々な質問をすることができます。

画像生成

他のAI同様、画像生成も可能です。
画像生成にはテキスト画像モデル、Imagen 3が使用されます。

画像読み取り

調べたい画像を用意します。
画像は直接ドラッグするか、画像をアップロードから会話欄にアップロードすることができます。
画像について質問すると、AIが画像から情報を読み取り説明してくれます。

具体的には、以下のような情報が読み取れます。

道標のデザイン: 木で作られた道標で、左向きと右向きの矢印が出ています。矢印の先にはどんぐりのマークが付いています。これはコッツウォルド・ウェイの公式なシンボルマークです。
文字情報:
COTSWOLD WAY: 大きく表示されており、この場所がコッツウォルド・ウェイの一部であることを示しています。
Public Footpath: 「公道」という意味で、誰でも自由に歩ける道であることを示しています。
Crickley Hill 1¼: 右方向の道はクリックリー・ヒルまで1.25マイル(約2キロ)であることを示しています。
The Peak: 左方向の道はザ・ピークという場所へ続いていることを示しています。
背景: 木々が生い茂っており、自然豊かな場所であることが分かります。

全体的に: この画像は、コッツウォルド・ウェイを歩いている人が道に迷わないように設置された道標を捉えた写真です。ハイキングコースの風景の一部と言えるでしょう。

さらに、検索結果から得られた情報も合わせて考えると、以下の点が分かります。

コッツウォルド・ウェイ: イギリスの南西部、コッツウォルズ地方を南北に走る全長約164kmの長距離自然歩道です。美しい丘陵地帯の風景や歴史的な村々を巡るコースとして知られています。
クリックリー・ヒル (Crickley Hill): コッツウォルズ地方にある丘で、考古学的にも重要な場所です。
ザ・ピーク (The Peak): イギリス中部のピーク・ディストリクト国立公園にある地域名で、この写真の場所とは別の場所である可能性が高いです。道標に書かれている「The Peak」が具体的にコッツウォルズのどの地点を指しているのかは、この画像だけでは判断できません。
これらの情報を総合的に見ると、画像はコッツウォルド・ウェイの中でも、クリックリー・ヒル方面への分岐点を示す道標を撮影したものだと考えられます。

Google AI studioでリアルタイム会話

Google AI studioは、開発中のGoogle AIがいち早く触れるページです。一定の制限(1分間に15回、1日に1500回まで)がありますが、無料で使えます。
こちらではリアルタイム会話を試してみます。
Stream Realtimeをクリックします。
マイクを接続し、Start Recordingを押せば、
いちいち送信ボタンを押さないでもリアルタイムで会話することができます。
最初に日本語で話しかければ日本語で会話できます。なお、しばらく会話すると会話は中断されます。
またネット検索はできないので、現在の天気などを訊くことはできません。
声の変更も可能(Charonのみ日本語不可?)。

試しに歌を歌って何か当ててもらいましたが、全問不正解でした。音声認識はまだまだ開発途中という印象です。

紹介したアプリ、Webサービス、AI一覧
紹介したサービス等のまとめです。有料のサービスでも無料で試せることがほとんどなので、気になったものがあったらどうぞ。

コメント

モバイルバージョンを終了