拡散モデルとは何か?

拡散モデルのデモ動画をご覧ください

今回は拡散モデルについて動画を作ったので、これをご覧頂きたいと思います。
最近、「拡散言語モデル」というAIがリリースされて使われています。

メリットは「生成スピードが早い」ということ。

いままでのモデルはトランスフォーマーと呼ばれる技術で、文章の次にくる文言を確率的に求めていくものでした。

この拡散言語モデルは、今まで画像生成で使われていた技術で、ノイズのある画面から目的のものを出力していくという形式になっています。

ちょっと意味がわかりづらいですよね。

そこでわかりやすいように、イメージの動画を作りましたので、まずは見てください。(画像をクリック)

このように画像を生成するにはノイズのある画面からノイズを徐々に取り除いて、目的の画像を表示していきます。

言語も同じで、ランダムの文字列(ノイズ)から徐々に目的の文字を表示していく方法を取ります。

この方法だと早く表示できるようなんですね。
(まだ開発段階で研究中のモデルのようです)

今後はトランスフォーマーから、この拡散モデルへと移行するのかどうかって感じになります。

本題が終わったので、細々とAIによる解説です。

 

拡散モデルとは? 画像モデルと言語モデルの違い

拡散モデル(Diffusion Model)は、最初にノイズ(ザラザラした画像や意味のない文字の並び)を作り、そこから少しずつ本物に近いデータを復元していくAIの仕組みです。
最近では、画像や文章を作るAIとして注目されています。ここでは、拡散モデルの 画像モデル と 言語モデル の違いを簡単に説明します。

1. 画像を作る拡散モデル

画像を作る拡散モデルは、ランダムなノイズ(砂嵐のような画像)から、少しずつ意味のある絵を描いていく仕組みです。たとえば、「猫の絵を描いて」と指示すると、最初はぐちゃぐちゃのノイズから始まり、徐々に猫の形が見えてきて、最後にはリアルな猫の画像が完成します。

代表的なモデル
Stable Diffusion(ステーブル・ディフュージョン)
DALL·E 3(ダリ・スリー)

ポイント
何もないところからリアルな画像を作れる
文字で指示を出すと、それに合った画像が作れる(例:「空を飛ぶドラゴンの絵」)

2. 文章を作る拡散モデル

言語の拡散モデルは、ノイズだらけの意味のない文章から、だんだん自然な文章を作る仕組みです。今のところ、AIが文章を作るときは GPT(ChatGPTのようなモデル)が主流ですが、拡散モデルを使うと、より流れのスムーズな文章が作れるかもしれません。

ポイント
ノイズの中から自然な言葉を見つけて、意味のある文章にする
まだ研究中の技術で、今後の進化が期待されている

 

まとめ

拡散モデルは、AIが画像や文章を作る新しい方法です。
画像の拡散モデルは、ノイズからきれいな絵を作る技術で、すでにたくさんのアートやデザインに使われています。
言語の拡散モデルは、まだ開発中ですが、より自然な文章を作るAIとして注目されています。

これからの未来で、AIがどのように活躍するか楽しみですね。

Claude Codeでいろいろ作ってみた レビュー

Claude Codeとは

Claude Codeとは、Anthropicが開発したAI「Claude」が提供するプログラミングのサポート機能のことです。

Claudeは、人が書いた言葉(自然言語)を理解し、それに合わせてコードを書いたり、修正したり、エラーを見つけたりできます。

たとえば、「Pythonで簡単な計算プログラムを作って」と頼むと、AIがコードを作ってくれます。

また、バグがあったときに「どこが間違っている?」と聞けば、エラーの原因を教えてくれることもあります。

ChatGPTやGoogleのGeminiと同じく、AIを使ってプログラミングを助けるツールとして注目されています。

Claude Codeでゲームを作ってみた

まずはこのClaude Codeでゲーム系をいろいろ作ってみました。

導入方法は他サイトを参考にしてください。
検索すると結構いろいろ出てきます。

コマンドラインでの操作なので、そこが苦手な人はGUIが出るまで
待たれた方がいいかと。

まずは簡易テニスとインベーダー系のアプリを作ってみました。

コードを一行も書いていません。

画像をクリックすると動画が出ます(音声付き)

 

すごいですよね。

日本語のプロンプト入れただけで、これらのアプリが完成するとは。

こりゃ、プログラマーは淘汰される時代が来そうですよね。

 

アート系のプログラミングを試してみた

せっかくなので、アート系のコードも出力してもらいました。

どんなアート系があるのかをChatGPTに聞いて、それからClaude Codeにて出力。

まずはこんな感じの画像になるようです。

それぞれの呼び名が上に書いてありますが、聞いたことないのばっかですよね。

結構デザインの世界では使われているようです。

3Dの動画も作ったので、ご覧ください。

下記の画像をクリックすると出ます。

ジュリア集合を3Dのワイヤーフレームで回してみました。

 

 

お次はローレンツアトラクターなるもの。

 

Claude Codeを使ってみての感想を少々

こういった3DもChatGPTだとうまく作れないので、このClaude Codeの実力はコーディングに関してはかなり優れているようです。

ちなみに使用料は、APIで料金を支払う形式です。

上記のゲームを制作した際は220円くらいかかりました。

これが高いのか安いのかは何とも言えませんが、まあ安いでしょうねえ。

また、使ってみた感想としては、一言で「楽」。

コードを書くでもなし、日本語でプロンプトで指示を入れれば勝手にコーディングしてくれます。

これからの時代はコードもこういったAIエージェント系が主流になってくるのでしょう。

プログラミングが身近になるのはいいことですね。

****************
X 旧ツイッターもやってます。
https://twitter.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

****************

 

PAGE TOP