仮想SNSで再現。その結果「勝者総取り」や「分断」がやはりおきたよという話

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

今回のテスト実験の元の論文

下記の論文に興味をもったので、google colabで簡易的に実験してみました。

“Can We Fix Social Media? Testing Prosocial Interventions using Generative Social Simulation”

https://arxiv.org/pdf/2508.03385

これは2025年8月に preprint(査読前論文)として公開されたもので、アムステルダム大学(University of Amsterdam)の研究チームが、AIエージェントを用いてSNSの根本的な構造を検証したものです。

論文の存在はYoutubeで知りました。

・論文概要

この論文では、

人工的なSNS空間を構築し、LLM(大規模言語モデル)を持ったエージェントに投稿・再投稿・フォローをさせるシミュレーションを作成。

その結果、アルゴリズム等のない最小SNSでも
① エコーチェンバー現象(同じ意見の集団化)
② 少数エリートへの集中(影響力の偏り)
③ 過激な意見の増幅(極端な発言の広がり)
が自然発生することが示されています。

また、既存の分断対策(時系列フィード・多様性重視表示・匿名化など)を実装して検証しても根本的な問題解決にはならなかった、という結論が出ています。

SNSの問題はアルゴリズムではなく構造にあるという研究

近年、SNSが社会の分断を加速させているという議論は世界中で繰り返されている。

その際、多くの場合「おすすめアルゴリズム」が原因として語られる。

しかしアムステルダム大学の研究チームは、問題の根源はもっと深いところ、SNSという仕組みそのものにあると指摘した。

彼らはAIエージェントを大量に用いた仮想社会を構築し、極めて単純な機能しか持たないSNS空間でも、エコーチェンバー(同じ意見の集団化)や影響力の集中が自然発生することを示した。

つまり「アルゴリズムが偏らせている」のではなく、「人が同質な相手と繋がり、拡散できる設計自体」が分断を生む装置になっているという主張である。

この考え方に強い興味を持ち、私はGoogle Colab上で簡易的なSNSシミュレーションを作り、段階的に構造を変化させながら検証を行った。
本記事はその実験の記録である。

投稿・拡散・フォローだけの世界でも分断は起きるのか?

今回のテーマは「人間らしい複雑なSNS」ではなく、最小構造のSNS社会を作ることだった。

エージェントに許した行動はほぼこれだけ。

* 投稿する
* 他人の投稿を見る
* 共感したものに反応する
* 作者に好感を持つ(疑似フォロー)

アルゴリズム的な賢さは一切入れていない。高度な推薦も、広告ターゲティングも無し。
それでも分断や格差が起きるなら、「問題は設計そのものにある」という論文の仮説を裏付けることになる。

Phase1 まず匿名SNSでは格差はほとんど生まれなかった

最初は完全匿名環境で実験した。
投稿には作者情報を持たせず、エージェントは内容(stance)の一致だけでlikeする。

結果

* 投稿数は多いが人気は比較的均等
* Post Gini 約0.33
* Agent格差ほぼ無し

誰が書いたか分からない世界では、評価は「発言単位」にしか蓄積されないため、個人への人気集中が起こらない。これは重要なベースラインになった。

Phase2 投稿者がわかるだけで偏りは始まる

次に作者IDをわかるようにし、likeした相手に親和性を持つ仕組みを追加。

すると

* 少しずつ同じ作者に反応が集まり始める
* ただしまだ大きな勝者は生まれない
* Agent Gini 0.13

人が見えるだけで「好みの人に寄る」挙動が出るが、この段階ではまだSNS特有の爆発的格差には至らなかった。

Phase2.5 露出バイアスを入れた瞬間に勝者総取りが発生

ここで現実SNSの核心要素を追加した。

それはこれ。
「人気投稿ほど表示されやすくする(露出バイアス)」

すると社会は一変した。

* Post Gini 0.55まで上昇
* Agent Gini 0.40
* ロングテール出現
* 一部投稿だけが異常に伸びる

アルゴリズムではなく「人気を参照するだけ」で、勝者総取り構造が自動発生した。

「人気→露出→さらに人気」の自己強化ループに拍車

この段階で明確になったのは、SNSは本質的にポジティブフィードバック機械であるという点だ。

1. 共感される
2. 多く表示される
3. さらに共感される
4. 著名人、人気インフルエンサーなどの人気が信頼を強化

このループは自然に格差を固定し、少数の注目される人たちに人気を集中させる。
結果、勝者の総取りが派生する。

Phase3 反対意見を20%混ぜる介入は本当に効くのか?

分断対策としてよく語られる「異なる意見を見せる」施策を実装。
フィードの20%を強制的に反対側から表示させた。

結果 分断は止まらず、投稿格差はむしろ崩壊レベルへ
驚くべき結果になった。

反対意見は評価されないため、結局「同じ少数の投稿」だけにlikeが集中し続け、露出バイアスと組み合わさってバズが暴走した。

SNSを直すのではなく「交流の設計」を変える必要性

ここまでの実験で分かったのは、「炎上を減らす」「反対意見も見せる」「ランキングを隠す」といった小手先の手当てが、根っこの駆動力を止められないという事実だ。

なぜならSNSの分断や勝者総取りは、特定のアルゴリズムが悪さをした結果ではなく、もっと基本の構造、人が繋がり、反応し、拡散できるという設計が生む自然現象だからである。

今回のPhase2.5で最も強烈だったのは、露出バイアス(人気者がより見られる)が入った瞬間に、投稿格差と影響力格差が一気に立ち上がった点だ。

これは「プラットフォームが誰かを意図的に優遇した」というより、人気を参照した瞬間に避けられない自己強化ループが生まれることを意味する。

人気は人気を呼び、露出は露出を呼ぶ。

つまり人が集まり、盛り上がっているものを見せるという当たり前の設計が、格差を自動生成するエンジンになってしまう。

SNSが商業ものである以上、それは仕方のない設計だろう。広告をより多く表示することが、運営側の使命なのだから。

では「露出の偏りを抑えれば良い」のかというと、それも単純ではない。

Phase3の反対意見20%混入は、分断を抑えるつもりの介入が、投稿レベルの集中を壊滅的に悪化させた。

ここから見えるのは、SNSにおける問題は「何を表示するか」だけでなく、「表示されたものに人がどう反応するか」まで含めたループ全体で決まるということだ。

反対意見を見せても、人は必ずしも反対側に歩み寄らない。
むしろ反発・無視・不信につながりやすい。

その結果、誰も評価しない投稿が大量に流れ込み、評価は少数発言者の人気投稿へさらに収束し、露出バイアスがその収束を加速する。

この構造を止めるには、SNS内の「接続(connection)」と「反応(feedback)」の設計そのものを変える必要があるだろう。

しかし、商業上、それは不可能な話だ。なぜなら、SNSはボランティアでの運営ではなく、商取引されている場だからだ。

要するに、「SNSを直す」というのは、壊れた機械のネジを締め直すような単純な話ではない。

構造が自然に生み出す現象を、別の構造に置き換える話である。
接続・反応・拡散・露出。このループをどう設計するかが、SNS社会の空気そのものを決めてしまうだろう。

分断はソフトではなくハード(仕組み)で生まれている

今回のColabでの実験は、元論文が示した結論を、極限まで単純化した形で追体験させてくれた。

重要なのは、ここで起きたことが「誰かが悪意を持って操作した結果」ではなく、ルールがそうさせたという点だ。

匿名での投稿は安定。
非匿名(誰が書いたかわかる)で偏り。
人気投稿の露出で暴走。
反対意見の介入でさらに崩壊。

この4行は、SNSがどこから来るのかを、段階的に切り分けた観察記録になっている。

詳しく見ると、
まず匿名環境では、人気は発言にしか蓄積されず、人に固定されない。
そのためインフルエンサー構造が立ちにくい。
ここでは格差は限定的で、システムは比較的安定する。

次に非匿名(誰が書いたかわかる)を入れると、好きな相手に反応するという自然な行動が生まれ、関係が偏り始める。

ただしこの段階では、まだ爆発的な勝者総取りにはならない。
理由は簡単で、「偏り」があっても増幅装置が無いからだ。

Phase2.5で露出バイアスを入れた瞬間、偏りは増幅に変わる。

人気者の露出が増え、露出増がさらに人気を増やし、格差が自己強化する。

ここで初めて、現実SNSで見慣れたロングテールと、一部投稿の爆発的バズが立ち上がった。

つまり、勝者総取りを生む本体は「露出が人気を参照する」構造である。
アルゴリズムが高度かどうかは副次的で、参照してしまった時点で方向性が決まる。

そしてPhase3の反対意見の介入は、さらに重要な示唆を与えた。

反対意見を混ぜることは、直感的には健全そうに見える。
だがエージェントが賛成側にしか反応しないという条件の下では、反対意見の露出は評価につながらない。

評価されない投稿が大量に流れ込み、評価はさらに少数へ収束し、露出バイアスが収束を極端化する。

その結果、投稿格差(Post Gini)がほぼ最大級に達した。
これは「意見の多様性を増やした」つもりが、「評価の集中」をむしろ強める可能性があるということだ。

今回学んだ教訓

ここから導ける教訓は、SNSの介入は表示をいじれば良いという単純な話ではなく、ループ全体の力学を変えなければならないという点である。

現実社会で分断が拡大しにくいのは、制度・文化・時間・コストといったブレーキが多層的に存在するからだ。
学校や職場、地域のコミュニティでは、いろんな人たちが混在する。

つまり、自然と多種多様な意見の中で生活している。

ところがSNSは、そのブレーキを意図せず取り外した設計になっている。

好意を持った意見の人との交流がメインで、反対意見は表示されにくい。

ではどうすればいいのか

強調したいのは、SNSが???と言いたいわけではないということだ。

SNSは非常に強力な道具で、情報流通や発見の速度を上げ、多くのメリットを生んだ。

問題は、強力な道具には強い反作用がつきものであり、その反作用が構造由来である以上、部分的な調整では根本解決しないという点である。
(まあ、商業商品である以上、解決する必要はないのかも知れない)

もし再設計するのなら、その中心はアルゴリズムの微調整ではない。

接続と反応と拡散が作るフィードバック・ループ。
そのハードをどう組むかで決まってくるのだろう。

今回使ったPythonコード

上からPhase1で全Phase3まであります(Phase2.5含む)。
順番に実行するとわかりやすいです。

*表示のバグで、インテントが崩れてます。
このままコピーして、GPT5先生(おのおのお気に入りAI)に「インテント直して」と言って修正してもらってください。

実行した結果は数値で出ますので、またGPT5先生に聞いてください。
いい感じに解析してくれます。

Phase1

# -*- coding: utf-8 -*-
"""

# Phase1: 完全匿名SNSシミュレーション(最小構成)

このノートブックは、**投稿者が誰かわからない完全匿名SNS**で、
それでも **勝者総取り(反応集中)** が起きるかを検証する最小実験です。

- 非匿名SNSとの比較用ベースライン付き
- フォローなし
- 反応(like)のみ
- エージェントはルールベース
"""

# Cell 1: imports & seed
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

SEED = 42
random.seed(SEED)
np.random.seed(SEED)

# Cell 2: Config
N_AGENTS = 200
T_STEPS = 200
POST_PROB = 0.2
LIKE_PROB_BASE = 0.1
STANCE_NOISE = 0.05

# Cell 3: Agent initialization
agents = []
for i in range(N_AGENTS):
agents.append({
"id": i,
"stance": np.random.normal(0, 0.3)
})

# Cell 4: Simulation (anonymous)
posts = [] # each post: {post_id, stance, likes}
post_id = 0

for t in range(T_STEPS):
# posting
for a in agents:
if random.random() < POST_PROB:
posts.append({
"post_id": post_id,
"stance": a["stance"],
"likes": 0
})
post_id += 1

# reactions (anonymous, content-only)
for p in posts:
for a in agents:
sim = 1 - abs(a["stance"] - p["stance"])
prob = LIKE_PROB_BASE * max(sim, 0)
if random.random() < prob: p["likes"] += 1 # stance update (exposure) for a in agents: if posts: sampled = random.choice(posts) a["stance"] += STANCE_NOISE * np.sign(sampled["stance"] - a["stance"]) # Cell 5: Metrics likes = [p["likes"] for p in posts if p["likes"] > 0]

def gini(x):
if len(x) == 0:
return 0.0
x = np.asarray(x, dtype=np.float64).flatten() # ← ここがポイント(float化)
if np.min(x) < 0:
x = x - np.min(x)
x = x + 1e-9 # floatなのでOK
x = np.sort(x)
n = x.size
index = np.arange(1, n + 1, dtype=np.float64)
return float(np.sum((2 * index - n - 1) * x) / (n * np.sum(x)))

print("Total posts:", len(posts))
print("Gini of likes (post-level):", round(gini(likes), 3))

# Cell 6: Visualization
plt.hist(likes, bins=30)
plt.title("Distribution of Likes per Post (Anonymous SNS)")
plt.xlabel("likes")
plt.ylabel("count")
plt.show()

"""
## 期待される観察結果

- 投稿者を完全匿名にしても、
**一部の投稿に like が集中**
- 投稿単位のジニ係数は高止まり
- 勝者総取りは「人」ではなく「投稿」に宿る

次ステップ:
- 非匿名版との比較
- 擬似匿名(ハンドル固定)
- 内容クラスタ集中の検証
"""

Phase2

# -*- coding: utf-8 -*-
"""
# Phase2: 非匿名SNSシミュレーション(ID効果あり)
"""

import random, numpy as np, matplotlib.pyplot as plt
random.seed(42); np.random.seed(42)

N_AGENTS=200; T_STEPS=200; POST_PROB=0.2; LIKE_PROB_BASE=0.1; STANCE_NOISE=0.05; AFFINITY_GAIN=0.01

agents=[{"id":i,"stance":np.random.normal(0,0.3),"affinity":{}} for i in range(N_AGENTS)]

posts=[]; pid=0
for t in range(T_STEPS):
for a in agents:
if random.random()<POST_PROB:
posts.append({"post_id":pid,"author":a["id"],"stance":a["stance"],"likes":0}); pid+=1
for p in posts:
for a in agents:
sim=1-abs(a["stance"]-p["stance"])
bonus=a["affinity"].get(p["author"],0)
prob=LIKE_PROB_BASE*max(sim+bonus,0)
if random.random()<prob:
p["likes"]+=1
a["affinity"][p["author"]]=a["affinity"].get(p["author"],0)+AFFINITY_GAIN
for a in agents:
if posts:
s=random.choice(posts)
a["stance"]+=STANCE_NOISE*np.sign(s["stance"]-a["stance"])

agent_like={}
for p in posts:
agent_like[p["author"]]=agent_like.get(p["author"],0)+p["likes"]

import numpy as np
def gini(x):
x=np.asarray(x,dtype=float)+1e-9
x=np.sort(x); n=len(x); idx=np.arange(1,n+1)
return (np.sum((2*idx-n-1)*x))/(n*np.sum(x))

print("Total posts:",len(posts))
print("Agent Gini:",round(gini(list(agent_like.values())),3))

plt.hist(list(agent_like.values()),bins=30); plt.title("Likes per Agent"); plt.show()

Phase2.5

# -*- coding: utf-8 -*-
"""

# Phase2.5: 非匿名SNS + 露出バイアス(人気者がさらに見られる)

Phase2(ID + affinity)に **露出バイアス** を追加します。
現実SNSで格差が爆発しやすい「増幅装置」を再現する最小実験です。

## 追加したもの
- 各ステップで各エージェントが見る投稿(FEED_SIZE本)を作る
- 投稿の選ばれやすさ = **投稿者の累積人気(author_total_likes)** に比例
- 人気者の投稿が「より頻繁に露出」→ さらに反応が増える → 人気が加速

## 出力
- Post Gini(投稿単位の反応格差)
- Agent Gini(人単位の反応格差)←ここが跳ね上がるはず
- ヒストグラム(likes per agent)
"""

# Cell 1: Imports & Seed
import random
import numpy as np
import matplotlib.pyplot as plt

SEED = 42
random.seed(SEED)
np.random.seed(SEED)

# Cell 2: Config
N_AGENTS = 200
T_STEPS = 200
POST_PROB = 0.2

# "見る" 本数(現実SNSの「フィード」っぽさ)
FEED_SIZE = 25

# Likeの基本確率
LIKE_PROB_BASE = 0.12

# 見た投稿の影響でstanceが微調整される強さ
STANCE_NOISE = 0.03

# 好感度(擬似フォロー記憶)
AFFINITY_GAIN = 0.01

# 露出バイアスの強さ(0で無効、1で強め)
EXPOSURE_ALPHA = 1.0

# 露出の「最低保証」(人気が0でも露出される)
EXPOSURE_FLOOR = 50.0

# Cell 3: Agent initialization
agents = []
for i in range(N_AGENTS):
agents.append({
"id": i,
"stance": np.random.normal(0, 0.3),
"affinity": {},
"total_likes": 0, # 受け取った累積like(人気)
})

# Cell 4: Helpers
def gini(x):
if len(x) == 0:
return 0.0
x = np.asarray(x, dtype=np.float64).flatten()
if np.min(x) < 0:
x -= np.min(x)
x += 1e-9
x = np.sort(x)
n = x.size
idx = np.arange(1, n + 1, dtype=np.float64)
return float(np.sum((2 * idx - n - 1) * x) / (n * np.sum(x)))

def exposure_weights(posts, agents):
"""投稿がフィードに選ばれる重み(人気者ほど露出↑)"""
if len(posts) == 0:
return None
# 投稿者の累積人気
author_pop = np.array([agents[p['author']]['total_likes'] for p in posts], dtype=np.float64)
# floor + alpha * pop の形(alpha=0で完全均等露出)
w = (EXPOSURE_FLOOR + author_pop) ** EXPOSURE_ALPHA
w = np.maximum(w, 1e-9)
w = w / w.sum()
return w

# Cell 5: Simulation (non-anonymous + exposure bias)
posts = []
post_id = 0

for t in range(T_STEPS):
# 1) posting
for a in agents:
if random.random() < POST_PROB:
posts.append({
"post_id": post_id,
"author": a["id"],
"stance": a["stance"],
"likes": 0,
})
post_id += 1

if len(posts) == 0:
continue

# 2) build exposure distribution (changes as popularity changes)
w = exposure_weights(posts, agents)

# 3) each agent scrolls a feed and may like
# (feed sampled with replacement; this is enough for the effect)
post_indices = np.arange(len(posts))

for a in agents:
# sample what this agent sees
seen_idx = np.random.choice(post_indices, size=FEED_SIZE, replace=True, p=w)

# like decisions
for idx in seen_idx:
p = posts[idx]
# content similarity
sim = 1 - abs(a["stance"] - p["stance"])
sim = max(sim, 0.0)

# identity memory bonus (pseudo-follow)
bonus = a["affinity"].get(p["author"], 0.0)

prob = LIKE_PROB_BASE * max(sim + bonus, 0.0)

if random.random() < prob: p["likes"] += 1 # update popularity of author agents[p["author"]]["total_likes"] += 1 # update affinity memory a["affinity"][p["author"]] = a["affinity"].get(p["author"], 0.0) + AFFINITY_GAIN # stance update from one random seen post (light exposure drift) s = posts[random.choice(seen_idx)] a["stance"] += STANCE_NOISE * np.sign(s["stance"] - a["stance"]) # Cell 6: Metrics post_likes = [p["likes"] for p in posts if p["likes"] > 0]
agent_likes = [a["total_likes"] for a in agents]

print("Total posts:", len(posts))
print("Post Gini:", round(gini(post_likes), 3))
print("Agent Gini:", round(gini(agent_likes), 3))

top1 = np.percentile(agent_likes, 99)
share_top1 = sum([x for x in agent_likes if x >= top1]) / (sum(agent_likes) + 1e-9)
print("Top 1% share (agents):", round(share_top1, 3))

# Cell 7: Visualization
plt.hist(agent_likes, bins=30)
plt.title("Likes per Agent (Non-Anonymous + Exposure Bias)")
plt.xlabel("total likes received")
plt.ylabel("count")
plt.show()

plt.hist(post_likes, bins=30)
plt.title("Likes per Post (Non-Anonymous + Exposure Bias)")
plt.xlabel("likes")
plt.ylabel("count")
plt.show()

"""
## 使い方(おすすめ)
- まずこのまま実行して、Agent Gini が Phase2 より上がるか確認
- 次に Cell 2 の **EXPOSURE_ALPHA** を変えてみる
- 0.0 → 露出バイアス無し(Phase2に近い)
- 0.5 → 弱めの増幅
- 1.0 → 強めの増幅
- FEED_SIZE を増やすと「SNS漬け」になり格差が出やすいです

次:
- 匿名版でも「露出バイアスだけ」で格差がどれだけ出るか(構造の切り分け)
"""

Phase3

# -*- coding: utf-8 -*-
"""
# Phase3: Cross-cut Feed (20% Opposing Views Injection)
Non-anonymous SNS simulation with exposure bias + forced opposing content.
"""

# Cell 1: Config
NUM_AGENTS = 200
STEPS = 400
FEED_SIZE = 20
EXPOSURE_ALPHA = 1.0
OPPOSING_RATIO = 0.2
SEED = 42

# Cell 2: Imports
import numpy as np
import random
from collections import defaultdict
import matplotlib.pyplot as plt

# Cell 3: Gini
def gini(x):
x = np.array(x, dtype=float)
if np.amin(x) < 0:
x -= np.amin(x)
x += 1e-9
x = np.sort(x)
n = len(x)
return (np.sum((2*np.arange(1,n+1)-n-1)*x)) / (n*np.sum(x))

# Cell 4: Init agents
random.seed(SEED); np.random.seed(SEED)
agents = []
for i in range(NUM_AGENTS):
stance = random.choice([-1,1])
agents.append({"id":i,"stance":stance,"followers":set(),"likes":0})

# Cell 5: Simulation
posts = []
for step in range(STEPS):
# Post
for a in agents:
if random.random() < 0.1:
posts.append({"author":a["id"],"stance":a["stance"],"likes":1})
if not posts: continue

# Exposure weights
likes = np.array([p["likes"] for p in posts], dtype=float)
weights = likes**EXPOSURE_ALPHA
weights /= weights.sum()

for a in agents:
feed = []
# opposing injection
opp_posts = [p for p in posts if p["stance"] != a["stance"]]
same_posts = posts
n_opp = int(FEED_SIZE * OPPOSING_RATIO)
if opp_posts:
feed += random.choices(opp_posts, k=n_opp)
feed += random.choices(posts, weights=weights, k=FEED_SIZE-len(feed))

for p in feed:
if p["stance"] == a["stance"]:
p["likes"] += 1
agents[a["id"]]["likes"] += 1

# Cell 6: Metrics
post_likes = [p["likes"] for p in posts]
agent_likes = [a["likes"] for a in agents]

print("Total posts:", len(posts))
print("Post Gini:", round(gini(post_likes),3))
print("Agent Gini:", round(gini(agent_likes),3))

top = int(NUM_AGENTS*0.01)
share = sum(sorted(agent_likes, reverse=True)[:top]) / sum(agent_likes)
print("Top1% share:", round(share,3))

# Cell 7: Plot
plt.figure()
plt.hist(post_likes, bins=40)
plt.title("Likes per Post with Opposing Injection")
plt.xlabel("likes"); plt.ylabel("count")
plt.show()

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

Google DeepMindのgemma scope2の考えを使って、LLMの正答とハルシネーションを比べてみた

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

下記の記事に興味を持ったので、いろいろ調べてgoogle colabでライト実験してみました。
https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

・対象モデル:Gemma-2-2B
・解析手法:Gemma Scope 2(SAE による内部特徴解析)
・観測箇所:第12層の内部特徴(正解時 vs 誤答時の差分)
・使用環境 : google colab (T4使用)
・プロンプト出力でGPT5.2で解析

・実験内容:
正解「キャンベラ」
誤答(幻覚 ハルシネーション)「シドニー」
Australia / Sydney 系特徴の過剰活性
首都=行政(office)系特徴の不足

Google DeepMindのgemma scope2とは

Google DeepMind が公開しているGemma Scope 2(gemma scope2)は、LLM(大規模言語モデル)の「頭の中で何が起きているか」を調べるための解析手法・ツール群です。

LLMは、文章をそれっぽく作るのは得意ですが、「なぜその答えを出したのか」は普通は見えません。

gemma scope2 では、
モデル内部にある大量のニューロンの活動を、意味のある特徴(feature)として整理し、

どの概念が強く働いたのか
どの概念が弱かったのか

を比較できるようにします。

これにより、AIが正解した理由だけでなく、AIが幻覚(ハルシネーション)を起こした理由も、「考え方のズレ」として説明できるようになります。

この記事では、この gemma scope2 を使った解析結果をもとに、AIがこちらの指定した「オーストラリアの首都」を間違えた理由を見ていきます。

AIはなぜ簡単な問題を間違えたのか

「オーストラリアの首都は?」
これは学校の地理でも出てくる基本問題です。

正解はキャンベラ。
ところが、LLMが「シドニー」と答えてしまうことがあります。

この現象は一見すると、「AIがバカなミスをした」「知識がない」と思われがちです。

もちろん今回の実験に使ったGemma-2-2Bは比較的小さなモデルなので、若干のミスは出るかと思います。

しかし実際には、知識は持っているのに、考え方の順番を間違えたというケースがほとんどです。

今回の解析は、そのことをとても分かりやすく示しています。

今回起きたAIの間違いを整理しよう

まず、事実関係を整理します。

問題:オーストラリアの首都は?
正解:キャンベラ
誤答(幻覚):シドニー

ここで重要なのは、シドニーが「完全なデタラメ」ではない点です。

シドニーはオーストラリア最大級の都市で、世界的にもよく知られています。

つまりこの誤答は、それなりに筋が通った方向にズレているのです。

この「もっともらしいズレ」こそが、LLMの幻覚(ハルシネーション)の特徴です。

AIの頭の中をのぞいてみる

gemma scope2 では、AIの内部で活動しているニューロンを、「特徴(feature)」という単位で観察します。

特徴とは、「国っぽさ」「都市っぽさ」「行政っぽさ」など、意味のかたまりを感じ取る反応だと考えてください。

今回の解析では、

正解したとき(キャンベラ)
誤答したとき(シドニー)

で、どの特徴が強くなったか/弱くなったかを比較しました。

なぜ「シドニー」が思い浮かんでしまったのか

誤答時に特に強くなっていたのが、次の特徴です。

Australia / Australian / Sydney
Australia / Australian

これは、「オーストラリア」という入力を受けた瞬間に、オーストラリアを代表する有名都市のイメージが一気に立ち上がったことを意味します。

モデル内部では、次のような流れが起きやすくなります。

オーストラリア
→ オーストラリアといえば?
→ 有名な都市
→ シドニー

ここで、本来必要な「首都を答える」という判断が後回しになります。

つまり、論理問題が連想ゲームに引っ張られた状態です。

本来、考えるべきだったこと

正解するために必要だったのは、「首都とは何か」という視点です。

首都とは、

政治の中心
行政機関が集まる場所

という役割を持っています。

解析では、office / workplace といった行政・公的機能を表す特徴が弱くなっていました。

本来あるべき思考の流れは、こうです。

オーストラリア
→ 首都(政治・行政の中心)
→ 政府・官庁
→ キャンベラ

しかし誤答時は、この「役割のルート」が弱く、「有名都市ルート」が勝ってしまいました。

このAIの間違いは「嘘」なのか?

この点はとても大切です。

今回の誤答は、AIが「嘘をついた」わけではありません。

AIは、

首都がキャンベラだという知識
オーストラリアとシドニーの強い関連性

その両方を持っています。

ただし、どちらを優先するかの判断で、関連性の方が勝ってしまった。

その結果、「一番それっぽい答え」としてシドニーを選んだ、というだけです。

人間の考え方ととてもよく似ている

これは人間にもよくあるミスです。

クイズで焦ると、「日本の都市といえば?」と聞かれていないのに、勢いで東京と答えてしまうような感覚です。

考え直せば分かるのに、最初に浮かんだ答えを止められない。

LLMの幻覚(ハルシネーション)は、こうした人間的な思い込みの近道ととてもよく似ています。

この分析からわかる大切なこと

今回の gemma scope2 による解析から、次のことが分かります。

幻覚(ハルシネーション)はランダムではない
概念の強弱で説明できる
「何が強すぎたか」「何が弱すぎたか」が重要

このケースでは、

強すぎた:オーストラリア → シドニー
弱すぎた:首都=行政機能

このバランスの崩れが、誤答を生みました。

まとめ AIの幻覚(ハルシネーション)を正しく理解しよう

「シドニー幻覚(ハルシネーション)」は、知識不足による失敗ではありません。

起きたのは、概念の優先順位の逆転です。

首都を考えるべき場面で、「有名な都市」という連想が勝ってしまった。

gemma scope2 のような解釈可能性の手法を使えば、このズレを具体的に説明できます。

AIの幻覚(ハルシネーション)は、怖いものでも、魔法でもありません。

理解できる現象であり、理解できるからこそ、減らし方・付き合い方を考えることができます。

「AIも人間と同じような思考ミスをする」
という点を押さえておくと、AIがより身近に感じられるでしょう。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

LLMの各社の会話ボイスモードはなぜ違うのか

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

LLMでの会話は結構楽しいですよね。

暇つぶし、相談事、調べものなど、皆さんもいろんな用途で使っているでしょう。

そんなボイスモードですが、各社によって、声質や話し方が違いますよね。

これは何故なのか。

単純に学習量が違うのではないかと。

今回はこれを知りたくて、いろいろ試してみました。

会話ボイスモードの違い 同じ文章を音声で読ませてみる

会話ボイスモードの違いを理解するうえで、いちばん早いのは「実際に聞いてみる」ことだ。
今回はGoogle Colabを使い、あらかじめ用意した短い日本語文章をTTS(Text To Speech)で音声化する、という非常にシンプルな実験から始めた。

最初に使ったのは、手軽に利用できるgTTS(Google TranslateベースのTTS)だ。
コード自体は数行で、文章をMP3として生成し、その場で再生できる。仕組みとしては何も難しくない。

しかし、実際に再生してみると、すぐに違和感があった。

これです↓↓↓


発音は正確だが、抑揚が少なく、間の取り方も均一で、全体的に「読み上げ音声」という印象が強い。
決して失敗ではないが、「会話している感じ」からは遠い。

ここで重要なのは、構成や仕組みが間違っているわけではないという点だ。

「テキスト → TTS → 音声」という流れは正しく、ボイスモードとしては成立している。
それでも人間っぽく聞こえない。
この時点で、「違いはLLMではなく、音声側にあるのではないか」という仮説が自然と浮かんできた。

TTSを変えただけで世界が変わった体験

次に行ったのは、TTSをgTTSからOpenAIのTTSに差し替えることだった。

文章は同じ。変えたのは「読む役」だけである。

結果は驚くほど明確だった。

これです↓↓↓

抑揚が自然になり、語尾の抜け方や間の入り方が、人の話し方に近づいた。
特に、「考えながら話している感じ」や「軽い感情の揺れ」が音声から伝わってくる。

この体験で強く感じたのは、ボイスモードの印象の大部分はTTSが決めているという事実だ。

LLMがどれだけ賢く文章を生成しても、それを機械的な音声で読めば、会話はロボット寄りになる。
逆に、TTSの表現力が高ければ、多少シンプルな文章でも「喋っている感覚」が生まれる。

つまり、「人間っぽさ」の正体は、知能よりも音声表現にある。

ボイスモードの正体は「LLM × TTSの分業構造」だった

この実験を通じて見えてきたのが、ボイスモードの基本構造だ。
それはよく誤解されがちだが、「LLMがそのまま喋っている」わけではない。

実際には、

LLMがテキストを生成する(何を言うか)
TTSがそれを音声に変換する(どう言うか)

という明確な分業がある。

さらに補足すると、Whisperなどの音声モデルは「読み上げ」ではなく「聞き取り」を担当する。
つまり、音声入力をテキストに戻す側だ。

Advanced Voice Modeも、この基本構造自体は同じだと考えられる。
違いがあるとすれば、TTSの品質と、テキストを音声に変換する前後の調整(間やテンポの制御)である。

この分業構造を理解すると、「なぜTTSを変えただけで印象が激変したのか」が腑に落ちる。

Googleの会話モードはなぜロボット寄りなのか

ここで疑問が湧く。

Googleは音声技術の最先端企業のひとつだ。
それなのに、なぜ会話モードは比較的ロボット寄りに聞こえるのか。
(CMなんかは特に顕著ですよね。スマホアプリで生で聞くと最近はちょっと人間寄りにしているのかな)

結論から言えば、それは技術力の問題ではなく、設計思想の問題ではないかと。

Googleの音声AIは、検索、ナビゲーション、要約、業務支援など、生活インフラに近い用途で使われる。

そこでは「感情の揺れ」や「間の個性」よりも、「安定」「一貫性」「誤解の起きにくさ」が重視される。

人間っぽさは楽しい一方で、
不安に感じる人がいる
意図を誤解されやすい
感情があるように受け取られやすい

といったリスクも抱える。

Googleはこのリスクを避けるため、あえてTTSの人間味を抑え、最大公約数的な音声体験を選んでいると考えられる。

GrokやAdvanced Voice Mode(チャッピー)が楽しい理由

一方で、GrokやAdvanced Voice Modeは、明確に「人間寄り」を選んでいる。
間があり、迷いがあり、感情の揺れがある。

これは、単に音声が上手いというだけではない。
会話そのものが価値になるという前提で設計されているからだろう。

多少クセがあってもいい。
少し人間っぽすぎてもいい。
その代わり、「話していて楽しい」ことを優先する。

Grokなんかはクセ強の代表だろう。
アニメ設定の悪ガキキャラなんかにしたら、かなりどきつい毒をはく。
忖度しない会話はそれなりに結構面白い。

一方、openAIのアドバンスボイスモードでの会話も大阪弁でキレのある会話をしてくれる(そういう設定にしているのだが)。
まるで大阪の友人としゃべっている感じだ。

これらの特徴があるからこそ、TTSの表現力を前面に出す設計が可能になる。
GrokやAdvanced Voice Modeが「人間っぽい」と言われるのも、まさにこの方向性を選んでいるからだろう。

実験してわかったこと ボイスモードの差は学習量ではない

今回の一連の実験で、最も大きな学びはこれだ。

ボイスモードの差は、LLMの学習量や賢さの差ではない。

同じ文章でも、TTSが変わるだけで、体験はまったく別物になる。
ロボットっぽさは「未熟さ」ではなく、「設計上の選択」だったのだ。

そして、人間っぽく喋るAIが楽しいと感じる人が増えているのも事実だろう。

今後は、「正確で無感情な音声」と「人間味のある会話音声」が、用途によって明確に分かれていくのではと。

会話ボイスモードの進化は、知能の競争というより、体験設計の競争に入っている。
その入り口を、今回の小さな実験ではっきりと示してくれた。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

nanoGPTで5分で終わるLLMの事前学習をしてみました

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

nanoGPT 小さなLLMに挑戦した理由

近年、大規模言語モデル(LLM)の進化は目覚ましく、ChatGPTをはじめとする高性能なモデルが次々と登場しています。しかし一方で、「自分の手でLLMを育ててみたい」「中身を理解させながら学びたい」と思うかたも多いでしょう。

そこで選んだのが、比較的小規模で学習しやすいnanoGPTです。

nanoGPTとは

nanoGPT(ナノジーピーティー)とは、OpenAIのGPT系モデルの仕組みをベースにした、シンプルで小規模な言語モデル実装です。(進化版でnanoChatと言うものもあります)

もともとは、Andrej Karpathy氏によって公開された教育・研究目的のプロジェクトで、「最小構成でGPTを再現する」ことを目標に作られています。

最大の特徴は、そのシンプルさと分かりやすさにあります。
実装は数百行程度のPythonコードにまとめられており、GPTのコアとなるTransformer構造や自己注意機構が、非常に読みやすい形で書かれています。

そのため、LLMを「使う」だけでなく、「中身を理解したい」「自分で動かしてみたい」という人にとって、最高の教材になっています。

また、nanoGPTは小さなモデルサイズでも動かせるように設計されているのも大きな魅力です。

数百万〜数千万パラメータ規模のモデルであれば、個人のPCやGoogle Colabといった環境でも学習実験が可能で、「巨大なGPU環境がないと無理」というLLMの敷居を大きく下げてくれます。

本来のGPTは数百億〜数千億パラメータという桁違いの規模ですが、nanoGPTではそのミニチュア版を自分の手で動かすことができます。

これにより、
・データを入れるとどう学習が進むのか
・損失が下がるとはどういうことか
・モデルのサイズや設定で何が変わるのか
といったことを、実体験として学べます。

さらに、nanoGPTはカスタマイズの自由度も高く、データセットやトークナイザ、モデルサイズ、学習ステップ数などを自分で調整しながら、さまざまな実験ができます。

今回のように、日本語テキストを使って独自の小さなLLMを育てるといった使い方も十分可能なのです。

「事前学習」とは?ゼロから言葉を覚えさせるということ

LLM開発の最初のステップが「事前学習(Pre-training)」です。
これは、人間で言えば、まだ何も知らない人に大量の文章を読ませて、言葉や文のつながりを自然に覚えさせる段階にあたります。

質問に答えさせたり、指示に従わせたりする前に、とにかく膨大なテキストを与えて、「次に来そうな単語」を予測する訓練を繰り返します。

今回のnanoGPTの事前学習では、意味を理解させるというよりも、「日本語らしい文字の並び」や「文のリズム」を体に染み込ませることが目的でした。
ここが、その後のファインチューニングの土台になります。

学習データと準備 どんなコーパスをどう集めたか

コーパスとは、AIに言葉を覚えさせるために集めた大量の文章データのこと。

事前学習で最も重要なのがこのデータです。
今回は、日本語テキストとして定番の青空文庫を中心に使いました。

著作権が切れた文学作品が多く、文章量も十分で、日本語の文体を学ばせるには最適です。

取得したテキストは、そのままでは使えないため、不要な記号の削除や文字コードの統一など、簡単な前処理を行いました。

さらに、SentencePieceを使ってサブワード分割し、モデルが扱いやすい形に変換します。

この「データを整える作業」は地味ですが、学習の質を左右する重要な工程で、LLMづくりの裏側を強く実感する部分ですね。

実際にやってみた nanoGPT事前学習の手順と環境

学習環境はGoogle Colabを利用しました。GPUが手軽に使えるのは大きな利点です。

手順としては、

1. リポジトリのセットアップ
2. データの配置とトークナイザ作成
3. モデルサイズやブロック長などの設定
4. 学習スクリプトの実行

という流れです。

ここで重きを置いたのは、事前学習を最後までというよりも、まず実際に体感することだと思ったので、わずか5分で終わる事前学習に設定しました。

モデルは約200万パラメータ程度の小さな構成にし、まずは「最後まで回る」ことを重視しました。
学習ログを眺めながら、損失が少しずつ下がっていくのを見ると、ひとまず安心感。

数分後、ついに事前学習が完了しました。

ここで5分で終了していますが、実際に時間があれば、これを数時間なり数日なりの時間をかけてやると更なる学習の進度が期待できます。

学習が終わって見えたこと モデルは何を覚えたか

学習後、実際に文章を生成させてみると、日本語らしい文字列は出てくるものの、意味はほとんど通っていません。5分しか学習していないので当然です。

漢字とひらがなが混ざった、それっぽい文章が延々と続くだけです。

事前学習の段階では、「日本語の形」を覚えただけで、「質問に答える」能力はまだ無いのです。(おまけにたったの5分)

それでも、最初はランダムだった出力が、だんだんと日本語らしくなっていく過程を見られたのは大きな成果でした。
モデルが言語の空気を掴み始めた瞬間を、自分の環境で体験できたのは、何にも代えがたい経験です。

ファインチューニングと人格づくりへ

事前学習を終えたnanoGPTは、いわば「日本語の音や形を覚えた状態」です。しかし、まだ質問に正しく答えたり、会話らしく受け答えしたりすることはできません。
ここからが本当の意味での育成のスタートだと感じています。

次に取り組みたいのが、SFT(指示追従ファインチューニング)です。

これは、「質問」と「望ましい答え」のペアを大量に与えて、モデルに「こう聞かれたら、こう答える」という振る舞いを教える学習です。
これによって、ある程度事前学習をこなしたマシンなら、少しずつ会話ができるAIに近づいていきます。

さらに、その先にはDPOのような手法を使った「らしさ」の調整があります。

複数の答えの中から、より好ましいものを選ばせることで、丁寧な口調、分かりやすい説明、あるいは関西弁のようなキャラクター性など、「人格」と呼べる部分を形づくっていきたいと考えています。

最終的な目標は、ただ正しい答えを返すだけのAIではなく、「このAIと話したい」と思えるような、自分好みの相棒のような存在を育てることです。

小さなモデルだからこそ、試行錯誤しながら何度も作り直し、少しずつ成長させていけるのも大きな魅力です。

事前学習で作った土台の上に、ファインチューニング。

これらの実験がLLMへの理解を深めてくれるはずです。

まとめ nanoGPT事前学習は最高の教材

今回、nanoGPTを使って事前学習を一通り回してみて感じたのは、「これは最高の教材」ということです。

巨大モデルをAPIで使うだけでは見えない、データ準備の大変さ、学習が進む感覚、そして事前学習の限界。そのすべてを自分の手で実装する。

意味の通る文章を話すAIにはまだ遠いですが、「ゼロから言語モデルを育てる」という経験は、LLMを理解する上で何よりの経験かと思います。

この土台をさらに進化させて、本当に会話できるモデルへと実現させていく。
これこそが知的好奇心を満たす最高の実験ですね。

使用したPythonコード

下記に使用したPythonコードを記します。
google colabにて実装。

5分程度で終わるように作ってあるので、お手軽に実験できるかと思います。
時間のある方はいろいろいじって、数時間、数日間と学習させてもよろしいかと。

※下記コードはインテントがくずれている場合ありです。
くずれていると動きません。

コピーして、GPT5先生に修正を投げれば直してもらえます。
ご了承のほど。


# Commented out IPython magic to ensure Python compatibility.
# -*- coding: utf-8 -*-
# @title nanoGPT 5分体験(青空文庫 BPE版)

import os, re, zipfile, urllib.request, pathlib

# 1. GPUの確認
print("=== 1. GPU環境のチェック ===")
gpu_info = os.popen('nvidia-smi').read()
if 'failed' in gpu_info:
print("⚠️ GPUが見つかりません。Colabのメニュー「ランタイム」>「ランタイムのタイプを変更」でT4 GPUなどを選択してください。")
else:
print(gpu_info)
print("✅ GPU確認OK")

# 2. nanoGPT
print("\n=== 2. nanoGPT をダウンロード中... ===")
if not os.path.exists('nanoGPT'):
!git clone https://github.com/karpathy/nanoGPT.git
# %cd nanoGPT
print("✅ nanoGPT OK")

# 3. 依存
print("\n=== 3. 必要なツールをインストール中... ===")
!pip -q install torch numpy transformers datasets tiktoken sentencepiece
print("✅ インストール完了")

# 4. 青空文庫データ準備(BPE)
print("\n=== 4. 学習用データ(青空文庫)を準備中... ===")

out_dir = pathlib.Path("data/aozora_bpe")
out_dir.mkdir(parents=True, exist_ok=True)

tmp_dir = pathlib.Path("data/_aozora_tmp")
tmp_dir.mkdir(parents=True, exist_ok=True)

# 作品ZIP(必要ならここ増やしてOK。増やすほど“青空っぽさ”が出る)
works = [
("kokoro", "https://www.aozora.gr.jp/cards/000148/files/773_ruby_5968.zip"),
("merosu", "https://www.aozora.gr.jp/cards/000035/files/1567_ruby_4948.zip"),
("rashomon", "https://www.aozora.gr.jp/cards/000879/files/127_ruby_150.zip"),
]

def clean_aozora_text(text: str) -> str:
# 5分体験用:最低限のゴミ取り(ルビ・注記など)
text = re.sub(r"《.*?》", "", text) # ルビ
text = re.sub(r"[#.*?]", "", text) # 注記
text = re.sub(r"|", "", text) # ルビ補助
text = re.sub(r"[  ]+\n", "\n", text) # 行末空白
text = re.sub(r"\n{3,}", "\n\n", text) # 改行詰め
return text.strip()

all_texts = []
for name, url in works:
zip_path = tmp_dir / f"{name}.zip"
if not zip_path.exists():
print(" downloading:", url)
urllib.request.urlretrieve(url, zip_path)

with zipfile.ZipFile(zip_path, "r") as z:
txt_names = [n for n in z.namelist() if n.lower().endswith(".txt")]
if not txt_names:
raise RuntimeError(f"txt not found in {zip_path}")
member = txt_names[0]
raw = z.read(member)

# 青空は Shift_JIS 多め
try:
s = raw.decode("shift_jis")
except UnicodeDecodeError:
s = raw.decode("utf-8", errors="ignore")

s = clean_aozora_text(s)
all_texts.append(s)

data = "\n\n".join(all_texts)
(out_dir / "input.txt").write_text(data, encoding="utf-8")
print(f"✅ input.txt 作成: {out_dir/'input.txt'} 文字数={len(data):,}")

# BPE tokenizer(SentencePiece)を学習
# vocab_sizeは 4000〜8000 が無難(uint16の上限もあるので 65535以下)
vocab_size = 8000

spm_prefix = str(out_dir / "spm")
spm_model = out_dir / "spm.model"
spm_vocab = out_dir / "spm.vocab"

if not spm_model.exists():
import sentencepiece as spm
print("\n--- SentencePiece BPE tokenizer を学習中 ---")
spm.SentencePieceTrainer.train(
input=str(out_dir / "input.txt"),
model_prefix=spm_prefix,
vocab_size=vocab_size,
model_type="bpe",
character_coverage=0.9995, # 日本語寄り
bos_id=1, eos_id=2, unk_id=0, pad_id=3
)
print("✅ tokenizer 作成:", spm_model)

# tokenizerでID化 → train.bin/val.bin 作成
import numpy as np
import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load(str(spm_model))

ids = sp.encode(data, out_type=int)
print("✅ トークン数:", len(ids))

n = len(ids)
split = int(n * 0.9)
train_ids = np.array(ids[:split], dtype=np.uint16)
val_ids = np.array(ids[split:], dtype=np.uint16)

train_ids.tofile(out_dir / "train.bin")
val_ids.tofile(out_dir / "val.bin")

# meta.pkl(train.py が vocab_size を知るために必要)
import pickle
meta = {
"vocab_size": int(sp.get_piece_size()),
"sp_model_path": str(spm_model),
}
with open(out_dir / "meta.pkl", "wb") as f:
pickle.dump(meta, f)

print("✅ saved:", out_dir/"train.bin", out_dir/"val.bin", out_dir/"meta.pkl")
print("vocab_size:", meta["vocab_size"])

# Commented out IPython magic to ensure Python compatibility.
# 5. 事前学習(BPE版 / 5分体験)
# %cd /content/nanoGPT/nanoGPT

!python train.py config/train_gpt2.py \
--dataset=aozora_bpe \
--out_dir=out-aozora-bpe \
--device=cuda \
--compile=False \
--eval_interval=50 \
--eval_iters=5 \
--log_interval=10 \
--max_iters=120 \
--lr_decay_iters=120 \
--block_size=128 \
--batch_size=16 \
--n_layer=4 \
--n_head=4 \
--n_embd=128 \
--dropout=0.0 \
--wandb_log=False

# @title 推論(青空BPE / SentencePiece)

import torch
import sentencepiece as spm
from model import GPTConfig, GPT

# ===== 設定 =====
ckpt_path = "/content/nanoGPT/nanoGPT/out-aozora-bpe/ckpt.pt"
spm_model_path = "data/aozora_bpe/spm.model"
device = "cuda" if torch.cuda.is_available() else "cpu"

# ===== tokenizer =====
sp = spm.SentencePieceProcessor()
sp.load(spm_model_path)

# ===== checkpoint =====
checkpoint = torch.load(ckpt_path, map_location=device)
config = GPTConfig(**checkpoint["model_args"])
model = GPT(config)
model.load_state_dict(checkpoint["model"])
model.to(device)
model.eval()

# ===== prompt =====
prompt = "吾輩は猫である。"
ids = sp.encode(prompt)
x = torch.tensor([ids], dtype=torch.long).to(device)

# ===== generate =====
with torch.no_grad():
y = model.generate(
x,
max_new_tokens=120,
temperature=0.8,
top_k=50,
)

text = sp.decode(y[0].tolist())
print("-----")
print(text)

!pwd
!ls -lah /content/nanoGPT/out-aozora-bpe
!ls -lah /content/nanoGPT/nanoGPT/out-aozora-bpe
!find /content/nanoGPT -maxdepth 3 -name ckpt.pt -o -name best.pt

# @title ckpt.pt をローカルにダウンロードする(Colab用)

from google.colab import files
import shutil
import os

# ckpt の場所(今回確定している正しいパス)
ckpt_path = "/content/nanoGPT/nanoGPT/out-aozora-bpe/ckpt.pt"

# 念のため存在チェック
assert os.path.exists(ckpt_path), "❌ ckpt.pt が見つかりません"

# ダウンロードしやすい場所にコピー(名前も分かりやすく)
dst = "/content/aozora_bpe_ckpt.pt"
shutil.copy(ckpt_path, dst)

print("✅ 準備完了。ダウンロードを開始します")

# ダウンロード
files.download(dst)

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

「国産AI開発 3兆円」の投資記事を見て

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

国産AI開発 3兆円の投資記事とは

下記の読売新聞の記事が面白かったので、思いを書いてみました。

記事の内容の要約はこれです。↓↓↓

***********

「国産AI開発 目標3兆円 来春新会社 ソフトバンクなど」

ソフトバンクを中心に、
国産AI開発のための新会社 を来春つくる計画。

投資規模はなんと最大3兆円レベルを目標。

日本最大級の基盤モデル(いわゆる国産LLM)を開発したい考え。

データセンター、半導体、電力、研究開発までぜんぶまとめてAI基盤を国内で整える構想。

アメリカのOpenAIやGoogleに対抗できる体制を目指す。

「ロボ向けAIに対応 国産開発で産業競争力を強化」

日本の強みである ロボット産業向けのAI を、できるだけ国産で開発していこう、という話。

海外(米国や中国)のAIに頼りすぎると、技術流出・安全保障・コスト面でリスクがある、という危機感。

産業用ロボットや工場の自動化で使える現場特化のAIを育てて、製造業の競争力を守る狙い。

政府も支援して、企業・大学と連携しながら進める方針。

要するに
「金も設備も本気出すから、日本版の最強AIつくろうや!」ってこと。

*************ここまで。2025年12月 読売新聞朝刊の1面他より抜粋要約。

なぜ国産AI賛成の立場なのか

この記事について、大賛成の立場です。
えっ、今から国産LLMの開発?
という発想もあるかと思いますが、今だからチャンスなんです。

理由はひとつ。
今ならまだ追いつけるから。

これはAI、特にLLMを開発している人たち共通の認識ですが、「スケーリング則」って鈍ってるよね。
という意見が前提に立ってます。

スケーリング則とは

スケーリング則とは何か。

AIはサイズや学習量を大きくすればするほど、性能が良くなるという経験則のこと。
ここでいう「大きくする」とは、主に次の3つを増やすことを指している。

モデルのパラメータ数(AIの頭の大きさ)
学習に使うデータ量
学習にかける計算量(GPUなどの計算パワー)

これらをバランスよく増やしていくと、AIの能力もあがっていくという考え。
もっとわかりやすく言うと、単純にお金をかければかける程、AIの実力は上がっていくよねって言う考え方。

しかし、これが徐々に頭打ちになりつつあります。

先行していたOpenAIのchatGPTが先日googleのGemini3に追いつかれたのが有名な話。

まだまだスケーリング則でLLMの発展はできますが、以前のような爆発的な伸びが鈍ってきたと。

某有名なAI研究者もスケーリング則に変わる何かを求めて、「また研究の時代がやってきた」という方もいます。

なので、停滞している今が大チャンス。この機会に一気に差を縮めていくのが得策かと思われます。

そんなこんなで、下記の記事をどうぞ。

なぜ今「国産AI」が必要なのか?

新聞記事を読んでまず感じたのは、「いよいよ日本も本気で国産AIに取り組む段階にきたという強いメッセージです。

これまでAIといえば、アメリカのOpenAIやGoogle、中国の巨大IT企業の話題が中心で、日本はどこか使う側の立場に見えがちでした。

しかし、AIはこれからの社会や産業の基盤になる技術。

もしその心臓部をすべて海外に依存してしまえば、コスト、セキュリティ、そして国家としての主導権の面で大きなリスクを抱えることになる。

今回の新聞記事は、そうした危機感を背景に「自分たちのAIを自分たちで持つ」ことの重要性を、はっきり示している。

国産AIは単なる技術開発ではなく、日本の未来を守るための戦略的な一手だと感じた。

ロボット×AIは日本の十八番

日本といえば、やはりロボットと製造業です。

これは世界に誇れる強みです。工場の産業ロボット、精密機械、品質管理のノウハウは、長年積み上げてきた貴重な財産です。
これにAIが本格的に組み合わされば、競争力は一気に高まるでしょう。

海外製AIをそのまま使うだけでは、日本の現場特有の細かな要求や安全基準、職人技のような感覚まで十分に活かしきれないことも少なくありません。

だからこそ、日本の産業現場を知り尽くした企業や研究者がつくる「現場目線の国産AI」が必要なのです。

ロボット×AIという日本の強みを磨き直すことは、製造業の復活だけでなく、次世代の雇用や技術者育成にもつながります。
ここに国産AIの大きな価値があると思います。

3兆円投資のインパクト 本気度が違う国産AI構想

ソフトバンクなどが中心となって進める、最大3兆円規模の国産AI投資。

正直に言って、この数字を見たとき「始めるのが遅いけど、ついに本気を出したか」と思いました。

AIの基盤モデル開発、データセンター整備、半導体、電力インフラまで含めた構想は、もはや一企業のプロジェクトを超えた国家レベルの次元です。

この規模の投資があれば、世界と競える研究環境を国内につくることも夢ではありません。
(とは言え、世界レベルで見たら、まだまだ投資額は少ないでしょう)

しかし、人材が集まり、技術が蓄積され、次のスタートアップや新産業が生まれる土壌にはなるでしょう。

「どうせ海外には勝てない」と最初から諦めるのではなく、「勝ちに行く舞台を自分たちで用意する」。
この姿勢こそが、今回の構想の最大の価値だと感じます。

製造業・医療・インフラ 広がる国産AIの可能性

国産AIの活躍の場は、工場だけにとどまりません。

医療では診断支援や病院業務の効率化、インフラでは老朽化した設備の点検や災害対策、農業では収穫予測や自動化など、日本ならではの課題は数多くあります。

特に高齢化が進む日本にとって、AIによる省力化や支援は社会を支える重要な鍵になります。

日本の制度、言語、文化、現場の実情に合ったAIを国内で育てられれば、その効果は計り知れません。

国産AIは単なる技術競争ではなく、「日本の社会課題を日本の知恵で解く」ための道具です。そこに大きな意味があるのではないでしょうか。

まとめ

今回の新聞記事が伝えているのは、「日本はもう一度、技術で世界と勝負する」という宣言だと思います。

国産AIは、失われた30年と言われてきた停滞を抜け出し、日本が再び成長するためのエンジンになり得ます。

もちろん課題は多くあります。
人材不足、コスト、スピード感、国際競争。決して簡単な道ではありません。

しかし、ここで挑戦しなければ、日本はずっと使うだけの国のままでしょう。
一部の企業や研究者だけの話ではなく、日本全体の未来を形づくるものです。

「AIを制するものは、世界を制す」
多分これは間違いないものだと思っています。

国産AIが育ち、産業と社会を支え、日本から世界にLLMの発信する日を、心待ちにしたいものです。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

*************

AI消費者100人に聞いちゃう 「聞いちゃった君」を作りました

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

下記の論文に興味があったので、Pythonコードに落とし込んでみました。(簡易版ですが)
https://arxiv.org/abs/2510.08338

以前にも似たようなシステムをチャットボットで作ったのですが、今回はPythonコードとGoogle colabで作ってみました。

仮想顧客300人に聞く! 「アンケ太郎君」
https://chatgpt.com/g/g-68d4ff88f0f481919387480d17e9d9da-jia-xiang-gu-ke-300ren-niwen-ku-anketai-lang-kun-ver1-5

「聞いちゃった君」とは?AIが100人の消費者を一瞬でつくる時代へ

マーケティングの現場では、商品を作るにも広告を打つにも、まず最初に「ターゲットの声」が必要らしい。

しかし実際の消費者調査は、時間も費用もかかり、しかも調査票の設計や回答の質にも悩まされることが多いとの事。

そこで生まれたのが、今回紹介する AI消費者100人メーカー「聞いちゃった君」である。

これは、大規模言語モデル(LLM)を使って 100人分の仮想消費者の自由回答を生成し、購買意向をスコア化する仕組みだ。
調査パネルを用意する必要はなく、日本語で商品説明を投げるだけで、一瞬で100人の「声」が返ってくる。

最大の特徴は、回答が単なる数字ではなく、すべて自然な文章の自由記述で返ってくるところ。
ユーザー心理や購買理由、懸念点まで読み取れるため、「生の声」に近い市場感覚をつかむことができる。

自由回答 × AI が生むリアルすぎる声とは

「聞いちゃった君」の特徴は、AIが適当に文章を作っているわけではない点だ。

まず、年齢・性別・収入などから 100パターンのペルソナを自動生成する。
たとえば「53歳・女性・高所得」「22歳・女性・中間所得」「47歳・男性・高所得」といった具合だ。

次に、それぞれのペルソナに対して、商品説明を読んだ上での “気持ち” を自然文で書かせる。

このとき AI は「数字で答えるな」「1〜3文の自然な文章で答えろ」といった制約のもと、実際の消費者らしいニュアンスを出す。

驚くべきは、年齢や所得によって微妙に反応が変わることだ。

高所得者は「興味はあるが成分を調べたい」、低所得者は「価格次第」など、消費者行動そのものと近い形で返る。

これは現実のアンケートの「生の声」にかなり近く、マーケティングの1次評価としては十分使えるレベルだろう。

日本語で質問するだけでOK  裏側では英語に変換して高精度解析

「聞いちゃった君」は見た目は日本語のシステムだが、裏側では高度な工夫が施されている。

実は、市場調査系のAIアルゴリズムは、英語で処理したほうが精度が高い。

大規模言語モデルは英語で学習されているデータ量が圧倒的に多く、埋め込みモデル(意味ベクトル)も英語での安定性が高いためだ。

そこで「聞いちゃった君」は、

・日本語の商品説明を英語へ翻訳
・英語で消費者回答を生成
・英語で意味類似度を計算し、1〜5 にスコア化(SSR方式)
・最終的に日本語へ再翻訳して出力

という構造を採用している。

ユーザーは日本語しか触らないが、内部では常に英語の高精度処理が走っているため、回答の安定性とニュアンスの豊かさが保たれる。

消費者100人が同時に答える仕組み AI自由回答 → 類似度分析 → スコア化

「聞いちゃった君」の核心技術は、論文でも紹介されている SSR(Semantic Similarity Rating)方式だ。

これは、文章と5段階評価の「アンカー文」(例:買いたい・買いたくない)を意味の距離で比較し、買いたい度を数値化する手法である。

処理の流れは次のとおり:

・100人分のペルソナから自由回答(英語)を生成
・その回答文を埋め込み(embedding)に変換
・アンカー文(5段階)も同じく embedding に変換
・コサイン類似度 → Softmax → 確率分布(pmf)を算出
・期待値スコア(1〜5)を自動計算
・文章内容は日本語に翻訳して出力

これにより、数値と自由記述の両方を同時に得られる。

従来のアンケートでは「3」とだけ答えていた人が、AIの自由記述では理由まで書く。
これで極めてマーケティング価値が高くなるだろう。

本物の消費者データと相関90%以上 論文級の手法を軽量化した仕組み

「聞いちゃった君」の基盤になっているSSR手法は、実験で実際の消費者データと90%近い一致率を示している。

つまり、AIが作る仮想消費者の反応が、人間がもう一度回答したときの再現性(再テスト信頼性)と同じレベルということだ。

今回の仕組みは、その論文の数理的な核だけを抜き出し、Colab上で実用的に動くように調整したもの。

アンカー文の設計、翻訳ループ、embedding の統一、Softmax 温度の調整など、実用上のチューンも施してある。

コンセプト検証・初期仮説チェック・A/Bテストの方向性出しとしては十分すぎる精度を持つのではないか。

なぜ100人の仮想消費者がマーケ施策に役立つのか

なぜ、実在しない「仮想消費者100人」で意味があるのか?
その理由は次の3点にある。

1. 初期の方向性を高速で掴める
2. 文章で理由が見えるため改善点が明確
3. 年齢や所得によるバラつきが分析できる

商品説明文を少し変えて再度100人で回せば、それだけでA/Bテストが成立する。
初期マーケティングのスピードが圧倒的に変わるだろう。

まとめ AI消費者100人に聞いちゃう 「聞いちゃった君」

AI消費者100人メーカー「聞いちゃった君」は、市場調査の入り口を軽く、速く、理由付きで手に入れられるツールだ。

・日本語で商品説明を投げるだけ
・100人分の自由回答が返ってくる
・購買意向スコアも自動計算
・年齢や収入による差も見える
・A/B テストも瞬時に可能

「聞いちゃった君」は、これからのマーケターの瞬間テストエンジンになる可能性を秘めているでしょう。

今回の出力結果

下記に今回の出力の結果の一部を記します。
CSVでの出力なので、読みづらいです。

出力長さは調整してあります。長文でもOK.自在に可能です。

Pythonコードについてはここでは伏せておきます。興味のある方はLINEにてご連絡ください。

*********

●入力

「24時間うるおいが続く新しいフェイス用保湿クリームです。
無香料で敏感肌にも使える処方で、植物由来の成分を中心に配合しています。」
この商品についてのアンケートに答えてください。

 

●出力

id age gender income expected_score free_text_en free_text_ja

0 0 22 woman high income 3.176441

I find the idea of a moisturizer that offers 24-hour hydration very appealing, especially since it’s fragrance-free and designed for sensitive skin. The use of plant-derived ingredients aligns wit…

24時間保湿を提供するモイスチャライザーのアイデアはとても魅力的です。特に香料が含まれておらず、敏感肌向けに設計されている点が気に入っています。植物由来の成分が使われているのも、より自然な製品を好む私の好みに合っていますので、ぜひ購入を検討したいと思います。ただし、実際に肌にどのように感じるかを確認するために、レビューを調べたり、サンプルを試してみたりしたいです。

1 1 53 woman high income 3.136645 As someone who values high-quality skincare,

I find the promise of 24-hour hydration appealing, especially since it’s suitable for sensitive skin and fragrance-free. The use of plant-derived ingre…

高品質なスキンケアを重視する私にとって、24時間の保湿効果は魅力的です。特に、敏感肌にも適していて香料が含まれていない点が気に入っています。植物由来の成分が使われていることも、自然な処方を好む私の好みに合っており、このモイスチャライザーを試してみたいと思っています。ただし、購入する前に具体的な成分やレビューを調べて、自分のスキンケアニーズに合っているか確認したいです。

2 2 37 non-binary person high income 3.187053

I would be quite interested in this moisturizer, especially since it offers 24-hour hydration and is fragrance-free, which aligns well with my preference for gentle products on sensitive skin. The…

このモイスチャライザーにはとても興味があります。特に、24時間の保湿効果があり、香料が含まれていない点が私の敏感肌に優しい製品を好む好みに合っています。また、植物由来の成分が使われているのも魅力的で、私はスキンケアにおいて自然な処方を重視しています。全体的に、予算内であれば購入を検討したいと思いますし、レビューやおすすめを通じてその効果を確認できればなおさらです。

3 3 35 woman high income 3.182247

I would be quite interested in this face moisturizer, especially since it offers 24-hour hydration and is formulated for sensitive skin, which is a priority for me. The fact that it’s fragrance-fr…

このフェイスモイスチャライザーにはとても興味があります。特に、24時間の保湿効果があり、敏感肌用に処方されている点が私にとっては重要です。香料不使用で、植物由来の成分が含まれているのも、優しい自然派の製品を好む私の好みに合っています。もしその効果が本当であれば、私のスキンケアルーチンに加えることを考えられます。

4 4 61 woman low income 3.049169

As a 61-year-old woman with sensitive skin, I appreciate that this moisturizer is fragrance-free and made from plant-derived ingredients, as these features are important for my skin’s health. Howe…

敏感肌の61歳女性として、この保湿クリームが無香料で植物由来の成分で作られていることを評価しています。これらの特徴は私の肌の健康にとって重要です。しかし、私の収入が少ないため、購入を決定する前に価格を確認し、予算に合うかどうかを考慮する必要があります。もし価格が手頃であれば、試してみる意欲が高まるでしょう。

5 5 20 man middle income 3.192976

I would be somewhat interested in buying this face moisturizer, especially since it’s designed for sensitive skin and is fragrance-free, which is important to me. The promise of 24-hour hydration …

このフェイスモイスチャライザーには少し興味があります。特に敏感肌用で香料が含まれていない点が私にとって重要です。24時間の保湿効果というのも魅力的ですが、購入する前に具体的な植物由来の成分を調べて、自分の肌タイプに合っているか確認したいと思います。全体的に見て、試してみる価値のある製品だと考えています。

6 6 54 woman low income 3.138376

I would be quite interested in this face moisturizer because it promises 24-hour hydration, which is important for my skin’s dryness. The fact that it’s fragrance-free and designed for sensitive s…

このフェイスモイスチャライザーには非常に興味があります。24時間の保湿効果があるとされており、私の肌の乾燥には重要です。香料が含まれておらず、敏感肌用に設計されている点も魅力的です。私は強い香りや刺激の強い成分に反応しやすいので、その点が特に嬉しいです。ただし、購入を決める前に価格や予算に合うかどうかを考慮する必要があります。

7 7 33 man middle income 3.166876

I would be quite interested in this face moisturizer, especially since it offers 24-hour hydration and is designed for sensitive skin. The fact that it is fragrance-free and uses plant-derived ing…

このフェイスモイスチャライザーにはとても興味があります。特に24時間の保湿効果があり、敏感肌向けに設計されている点が魅力的です。香料不使用で植物由来の成分を使用しているのも、優しい自然派スキンケア製品を好む私の好みに合っています。もし良いレビューがあれば、ぜひ購入を検討したいと思います。

8 8 42 non-binary person middle income 3.145704

I find this moisturizer appealing because it offers 24-hour hydration and is fragrance-free, which is important for my sensitive skin. The use of plant-derived ingredients also aligns with my pref…

このモイスチャライザーは、24時間の保湿効果があり、香料が含まれていないため、敏感肌の私にはとても魅力的です。また、植物由来の成分が使われている点も、より自然な製品を好む私の好みに合っています。全体的に、特に良いレビューがあれば購入を検討する可能性が高いです。

9 9 47 man low income 3.097881

I would be somewhat interested in this face moisturizer since it offers 24-hour hydration and is designed for sensitive skin, which is important for me. However, my budget is tight, so I would nee…

このフェイスモイスチャライザーには少し興味があります。24時間の保湿効果があり、敏感肌向けに設計されているのは私にとって重要です。ただ、予算が厳しいので、他の選択肢と比べて手頃かどうかを考慮する必要があります。香料不使用で植物由来の成分が使われているのはプラスですが、決定する前にレビューやおすすめを探すと思います。

*********

以上、アンケートの一部のご紹介でした。
参考にしてください。

 

 

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

仮説思考をビジネスに応用した「ビジネス仮説ジェネレーター」を作った話

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

仮説思考をビジネスに生かせないか

だいぶ昔に読んだ本が書棚にあったので、思い出しながら、今のLLMと組み合わせるとどうなるのか。
そこに興味があったので、この記事を書いてみました。
「ビジネススクールで身につける仮説思考と分析力―ポケットMBA〈5〉 (日経ビジネス人文庫) 」

***

成功か失敗かを左右するものは何なのだろうか。
アートにしろ、スポーツにしろ、ビジネスなどなど。

各種いろんなジャンルがあるが、今回はビジネスの観点で。

ビジネス分野だと、商品力、マーケティング、立地、チーム力──いろいろあるが、実はその前段階にある「仮説思考」がとても重要ではないかと。

どれだけ情報を集めても、それをどう理解し、どう未来を予測し、どう選択肢をつくるか。
この仮説を立てる力が弱いと、戦略はふわっとしたままで終わってしまう。

ただ、多くの人は「仮説を立てろと言われても難しい」と感じるでしょう。

情報は増え続けるのに、整理する時間は減るばかり。そんな状況で、もっとスピーディーに、論理性のある仮説を生み出す方法はないのか。

「仮説思考 × LLM」を組み合わせたらどうなる?

人間は経験や直感から仮説を立てるのは得意だが、どうしても偏りが出る。

一方、LLMは膨大な情報を一瞬で統合し、構造的に文章を生成することができる。
しかし、AIは「何が重要か」「なぜそれが成功につながるか」の文脈理解は弱いこともある。

では、この2つを組み合わせたらどうなるのか?

人間が「問題の切り口」「見るべき観点」を定義する
LLMが「情報統合」「長文の分析」「定量的な推測」を行う

このコラボが成立すれば、かなり強力な“仮説生成エンジン”になる。

そこで私は、プロンプトによる観点指定、JSONによる回答構造化、そしてデータ(スクレイピングや統計情報)の注入を組み合わせて、AIに「ビジネス仮説」を書かせるプロトタイプを作ってみることにした。

自作ツール「ビジネス仮説ジェネレーター」誕生

作ったシステムはシンプルだが、かなり汎用性が高い。

現地の競合データをスクレイピング
統計データを入力
プロンプトを指定
LLMが仮説を生成
JSON Schemaで構造化された出力を返す

こうすることで、「成功率の高い戦略仮説」「狙うべきターゲット像」「立地戦略」「成功要因の根拠」などを、自動で5つ提示してくれる。

さらに面白いのは、プロンプトを書き換えるだけで業種をいろいろ変えられることだ。

埼玉県のカフェ開業
美容室開業
ゴルフスクール
不動産賃貸事業
スタートアップの戦略立案

全部、プロンプト変更だけで別ツールに変身する。

つまりこのツールは、一言で言えば
「仮説思考をエンジン化したもの」と言える。

「仮説作成の自動化」がメイン

何事もそうだが、仮説を作る作業は時間と知識が必要だ。

情報を集め、分析し、論理的な文章に落とし込むのは手間がかかる。
特に、複数の要素を同時に扱うと、どうしても抜け漏れが出てしまう。

このツールは、そのプロセスをAIに肩代わりさせる。

文章化はAI
観点の選択と全体の方向性は人間

この役割分担が圧倒的に効率的なのだ。

AIは、構造的な文章生成や複数要因の統合が得意なため、
論理的で抜けの少ない仮説を短時間で作れる。

実際に生成される成果物は、1番下に置いておくので参照ください。

「プロンプトを変えるだけ」で異業種にも適用できる

今回のツールは埼玉県のカフェで検証したが、本質はそこではない。

前の章でも書いたが、本当に面白いのは、プロンプトを書き換えるだけで、全く別のビジネスにも適用できる点だ。

たとえば──

美容室版
AIサービス立ち上げ版
観光事業版
不動産賃貸版

こういったまったく異なる業種でも、
「プロンプト × データ」
という最小構成だけで、高品質な仮説を生成できる。

つまり、業種に依存した専用システムではなく、どんな事業でも仮説を生める汎用フレームになっている。

この柔軟性は、従来のテンプレ型の分析ツールにはない大きな強みだ。

まとめ AIは文章生成から戦略生成へ

今回、仮説思考をAIに応用してみて一番強く感じたのは、
LLM は「文章を作る道具」から「戦略を作る道具」へも進化している点だ。

これまでAIに任せていたのは、メールや文章作成といった生成作業が中心だった。

しかし、仮説という思考をプロンプトで指定し、構造化されたJSONで出力させることで、AIは一段上の役割を果たし始める。

ビジネス戦略の下書きを作り
多角的な視点で要因を整理し
定量的な成功率まで付けてくれる

これはすでに、単なる文章生成の範囲を超えている仮説思考のパートナーとして使える時代が来たのだと実感した。

今回の「ビジネス仮説ジェネレーター」は、今後、外部APIや商圏データを統合すれば、もっと高精度になる。
そして、事業計画書や市場分析レポートをほぼ自動で作ることも可能だ。

ビジネスにおける仮説思考は、もはや個人スキルだけの話ではない。
AIと組み合わせることで、「仮説の質」も「速度」も大きく伸ばせるはずだ。

 

出力されたレポート

下記が今回出力したレポートです。
前回のレポートと同様に、いくらでも詳しく長文生成が可能です。
今回のはほんの一例です。

コードはPythonで作ってあります。コンサル系の方で興味のある方は、LINEにてお問い合わせください。

入力されたデータはかなり絞り込んだものです。
実際は、この数倍のデータを入れた方が良いでしょう。

*********

●入力データ
埼玉県での新規カフェ開業の成功確率が高い順に仮説生成してください。
他、各種統計データいろいろ

●出力データ

✅ 生成された仮説 (成功率が高い順) —

## 1. 仮説: 成功率 85.0%

☕ コンセプト: 地元食材を活用したファミリー向けカフェ
🧑‍🤝‍🧑 ターゲット顧客: ファミリー層
📍 立地戦略: 大宮駅東口徒歩5分、周辺に公園と商業施設が多いエリア
🧠 根拠 (Rationale): 埼玉県はファミリー層が多く、特に大宮駅周辺は昼間人口が高いため、家族連れの集客が見込めます。平日は通勤客、週末は家族での利用が期待でき、特に子供向けのメニューや遊び場を設けることで、リピーターを増やすことが可能です。地元の新鮮な野菜や果物を使用したメニューを提供することで、健康志向の高い親たちのニーズにも応えられます。価格帯は800〜1,200円で、家族で気軽に利用できる価格設定を行い、特に子供向けのメニューを充実させることで、顧客満足度を高めます。また、SNSを活用したプロモーションや地域イベントへの参加を通じて、初回の集客を図ります。リピーターを増やすためには、スタンプカードや季節限定メニューを導入し、常に新しい体験を提供することが重要です。競合との差別化としては、地元食材の使用とファミリー層向けの特化を挙げられますが、原材料の高騰などのリスクに対しては、地元農家との直接取引を進めることでコストを抑えることができます。

## 2. 仮説: 成功率 80.0%

☕ コンセプト: 勉強・交流ができるカフェ
🧑‍🤝‍🧑 ターゲット顧客: 学生層
📍 立地戦略: 浦和駅西口徒歩3分、大学や専門学校が近くにあるエリア
🧠 根拠 (Rationale): 浦和駅周辺は学生が多く、特に大学や専門学校が近いため、勉強や友人との交流の場として利用されるカフェが求められています。昼間は学生が多く訪れるため、Wi-Fiや電源を完備した快適な空間を提供することで、長時間の滞在を促すことができます。メニューはドリンク450〜800円、軽食500〜1,000円とし、学生にとって手頃な価格設定を行います。初回の集客にはSNSを活用し、学生向けのキャンペーンや割引を実施することで、認知度を高めます。また、リピーターを増やすためには、勉強会やイベントを定期的に開催し、コミュニティを形成することが重要です。競合との差別化としては、学びや交流の場としての機能を強調し、他のカフェとは異なる独自のブランドを築くことが求められます。リスクとしては、競合の増加が考えられますが、独自のイベントやメニューで差別化を図ることで対策を講じます。

## 3. 仮説: 成功率 75.0%

☕ コンセプト: 落ち着いた雰囲気の健康志向カフェ
🧑‍🤝‍🧑 ターゲット顧客: シニア層
📍 立地戦略: 川越駅近く、住宅街に囲まれた静かなエリア
🧠 根拠 (Rationale): 川越は高齢化が進んでおり、シニア層に特化したカフェの需要が高まっています。落ち着いた雰囲気で、健康志向のメニューを提供することで、シニア層のニーズに応えることができます。メニューは低糖質やビーガン対応の食事を中心に据え、価格は800〜1,200円程度で設定します。初回の集客には地域の健康イベントやシニア向けのワークショップを開催し、地域密着型のプロモーションを行います。リピーターを増やすためには、定期的なイベントや健康に関するセミナーを開催し、コミュニティを形成することが重要です。競合との差別化としては、シニア層に特化したメニューとサービスを提供することで、他のカフェとは異なる独自性を持たせます。リスクとしては、競合カフェの増加や原材料の高騰が考えられますが、地元の農家との提携を強化することでコストを抑え、安定したメニューを提供することができます。

## 4. 仮説: 成功率 70.0%

☕ コンセプト: ビーガン・グルテンフリー専門カフェ
🧑‍🤝‍🧑 ターゲット顧客: 健康志向の若年層
📍 立地戦略: 所沢駅近く、若年層が多く集まるエリア
🧠 根拠 (Rationale): 所沢は若年層の人口が多く、健康志向の高まりに伴い、ビーガンやグルテンフリーのメニューを提供するカフェが求められています。特に、SNSでの情報発信が活発な世代であるため、インスタ映えするメニューや内装が集客につながります。価格帯は1,000〜1,500円で、健康に気を使う若者にとっては「ちょうどいい」と感じられる設定です。初回の集客にはSNSを駆使し、インフルエンサーとのコラボレーションやイベントを開催して認知度を高めます。リピーターを増やすためには、季節ごとの新メニューや特別イベントを企画し、常に新しい体験を提供することが重要です。競合との差別化としては、ビーガン・グルテンフリー専門という明確なコンセプトを持つことが挙げられますが、リスクとしては原材料の高騰や競合の増加が考えられます。これに対しては、サプライヤーとの長期契約を結ぶことで安定した原材料供給を確保し、コスト管理を徹底します。

## 5. 仮説: 成功率 65.0%

☕ コンセプト: 埼玉の文化を体験できるカフェ
🧑‍🤝‍🧑 ターゲット顧客: 観光客と地元住民
📍 立地戦略: 川越の観光地近く、アクセスが良い場所
🧠 根拠 (Rationale): 川越は観光地としても知られており、観光客と地元住民が交わる場所にカフェを開業することで、双方のニーズに応えることができます。埼玉の伝統や文化を感じられる内装やメニューを提供することで、観光客にとっては新しい体験を、地元住民にとっては親しみを感じられる場所となります。メニューは地元の食材を使用した料理や飲み物を中心に、価格は1,000〜1,500円程度で設定します。観光シーズンには特別メニューを用意し、リピーターを増やすためには、地域イベントやワークショップを開催することが重要です。競合との差別化としては、埼玉の文化をテーマにしたカフェという独自性を持たせることが挙げられますが、リスクとしては観光客の流入が季節によって変動することが考えられます。これに対しては、地元住民向けのプロモーションを強化し、観光客だけでなく地元の人々にも愛されるカフェを目指します。

****************

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

GoogleのCo-Scientistをビジネス用に変換してみた話

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

少し古いですが、下記の記事に興味があったので、ビジネス用に変換してみました。(Ver2版)
https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/

最初にチャットボットに落とし込むことも考えたのですが、チャットボットだと比較的コードに頼らず、プロンプト中心の設計になってしまうので、今回はPythonコードで書きたいと思い、Googleコラボで実装してみました。

なぜ Co-Scientist をビジネスに応用しようと思ったのか

以前、Google が発表した “Co-Scientist” という研究支援モデルがあった。
記事を読んだ瞬間に思ったのは、「これ、ビジネスやいろんな分野に使えるかも」ということだった。

なぜなら Co-Scientist がやっているのは、問題を分解し、仮説を大量に生成し、それらを評価して改善するというサイクルだからだ。

これはまさに 新規事業・マーケ戦略・プロダクト改善など、ビジネスの意思決定そのものと同じ構造を持っているのではと。

研究者向けの高度なフレームワークを、もし“ビジネス用の意思決定エンジン”として使えるなら、日々の施策決定が高速化されるし、主観や思い込みを減らした客観的な判断ができる。

しかも、Co-Scientist のように「生成 → 批評 → 採点 → 改善」までが自動で回るなら、人間は戦略判断に集中できる。

こうした直感から、「研究モデルをそのままビジネス用に転換したらどうなるか?」というテーマのプロジェクトを始めることにした。

Co-Scientist とは?Google が提案した「仮説発見マシン」

Co-Scientist は、Google の研究チームが発表した AIによる自動科学研究支援システムだ。
大きく言うと、以下の4つを自動化する。

仮説生成
仮説の批評・改善点抽出
評価(スコアリング)
改善した仮説の再生成(反復)

このループを数ラウンド回すことで、研究テーマに対してより質の高い仮説を創出していく。
論文では、実験データや既存論文のレビューを踏まえて仮説を強化するプロセスもあった。

要するに、「科学研究における頭脳労働」をAI化したような仕組みだ。
科学者の右腕になるようなモデルなのだが、このプロセスがあまりに“ビジネスの意思決定”に似ている。そこへ着目したわけだ。

R&Dとは?ビジネス成長の基盤となる「研究と開発」

ここで一度、R&Dという言葉を整理しておく。

R&D(Research and Development)とは、Research(研究)=問題を見つけ、仮説を立て、検証する
Development(開発)=得られた知見を価値ある商品・サービスに落とし込む
という2段階のプロセスのこと。

本来は製薬や工学で使われる専門用語だが、ビジネスでも「競争に勝つための源泉」になる。

今回実験としてあてた、いわゆるコーヒープロジェクトで言えば、
低温長時間焙煎は香気を保持するのか?
急冷はどれだけ香りの揮発を防ぐか?
保存条件は味にどう映るか?

こうした仮説を立てて検証するのが Research。

その結果得られた知見を、商品設計・施策・ブランドに落とし込むのが Development。

GoogleのCo-Scientistの面白い点は、このR部分(Research)をほぼAIが肩代わりしてくれるところにある。

R&D専用の仕組みを、なぜビジネスに転用できるのか

ビジネスには数字があり、人の意思決定があり、課題の構造化があり、優先順位があるとのこと。
これらはすべて仮説思考で動いているのではないか。

なぜ売上が上がらないのか?
何を改善すべきか?
どの施策が最も効くか?
実施する価値があるか?

つまりビジネスでも、
「仮説の質 × 仮説量 × 評価」 が成果を決めてしまうのだろう。

これってまさに、Co-Scientist のアルゴリズムそのものである。

研究とビジネスは一見別世界に見えるが、根本の構造は同じだろう。

そこで「ビジネス版 Co-Scientist」を目指し、売上UP、事業戦略、プロダクト改善などに使えるように変換を開始した。

ちなみに私はアート系を生業にしているので、ビジネスマンではない。
ただ、生成AIのおかげで、自分に無い知識を補えることができる。

そこで、 今回はAIを使って、いろいろ実装&実験してみた。

研究アルゴリズムをビジネス版に変換するために工夫した点

研究用のスコア項目は「Novelty(新規性)」「Reproducibility(再現性)」などだが、ビジネスにそのままは使えない。
そこでアルゴリズムを翻訳する必要があった。

◎ R&D → Biz への変換例

研究用 → ビジネス用
Novelty → 差別化・話題性
Effect → 売上インパクト(CVR/AOV/LTV)
CostTime → 実行コスト・スピード
Compliance → リスク・安全性

さらに、Biz側の施策には以下のスコアリングを追加した。

ROI(投資対効果)
Feasibility(実現可能性)
Speed(成果までの時間)
Risk(安全性)
Differentiation(差別化)

これらを自動採点し、
「最も売上に効く施策」 と
「最も価値のあるR&D仮説」
を毎ラウンドで選び直す。

まさに「ビジネス仮説の進化実験」みたいな仕組みだ。

Google Colab で実装してみた アイデア生成→批評→採点→レポート自動化

実際に、Google Colab 上でビジネス版 Co-Scientist を構築した。

OpenAI API で
アイデア生成(仮説)

別モデルで
批評(pros/cons)

さらに別プロンプトで
数値スコア化

新規性を独自計算

TOP案だけを次のラウンドに送る

最後は
経営会議向けレポートを自動生成

つまり、「戦略コンサルの思考ループ」をそのまま自動化した装置が完成した。

今回テストとして「焙煎コーヒー豆EC 月商100万円」をテーマに回したところ、
ビジネス視点の施策(試飲セット、SNS攻略、香気保持を武器にした品質訴求)と、
R&D視点(低温長時間焙煎、急冷技術など)がきれいにつながり、
技術 × マーケ × 数字 の統合レポートが生成された。

おわりに AIの「研究力」をビジネスに落とす

Google の Co-Scientist は本来、研究者のための仕組みだ。
しかし、このアルゴリズムをビジネス用に変換してみると、
「仮説を量産し、評価し、改善する」というAIの強みが、戦略策定そのものに転用できることが分かった。

施策を速く作れる
客観的に評価できる
経営判断の精度が上がる
計画書まで自動生成される

つまり、ビジネス版 Co-Scientist(Co-Innovator)は「AIが経営企画の右腕になる」を示すプロトタイプでもある。

人間が直感と経験で判断していた領域を、AIが“論理的・網羅的”にサポートする時代が、もう始まっている。

最後に今回の実験で得たレポートを記します。
レポートの内容はいくらでも長文で詳しく書けるのですが、あまり長くても読みづらいので、3000文字位でまとめてあります。
さらに詳しくしたい場合はコードの中身を改善すればいいだけの話で、比較的成果の出たレポートだと思っています。

ぜひご覧ください。

※ このシステムに興味のある方はメールにてお問い合わせください。コードをお知らせします。

*******

今回 出力されたレポート

● 入力データ

“低温長時間焙煎で香気を7日保持する方法を確立”,
“焙煎コーヒー豆ECで初年度月商100万円ライン到達”

● 出力データ

# 1) 今回のプロジェクトの狙い

## コーヒー市場・EC市場の背景

近年、コーヒー市場は急速に成長を遂げており、特にEC市場においてはその成長が顕著です。日本国内のコーヒー市場規模は約1兆円を超え、年率3〜5%の成長が見込まれています。特に、スペシャリティコーヒーや焙煎豆の需要が高まっており、消費者は品質や香りに対する意識が高まっています。EC市場においても、コーヒー豆のオンライン販売は急増しており、利便性や多様な選択肢が消費者に支持されています。

## 香気保持技術がなぜ重要か

香気保持技術は、コーヒーの品質を維持するための重要な要素です。消費者は新鮮で香り高いコーヒーを求めており、焙煎後の香気がどれだけ保持されるかが、購入意欲に大きく影響します。特に、低温長時間焙煎技術を用いることで、香気成分の分解を抑えることができれば、他社との差別化要因となり、ブランドの価値を高めることができます。

## 「月商100万円ライン到達」という事業目標

初年度の月商100万円ライン到達は、事業の健全性を示す重要な指標です。この目標を達成するためには、月間販売数や平均単価、粗利率を考慮する必要があります。例えば、平均単価が1,500円の場合、月間で約667個のコーヒー豆を販売する必要があります。さらに、固定費や変動費との関係を考慮し、持続可能なビジネスモデルを構築することが求められます。

# 2) R&D仮説の詳細整理と優先順位

## 各仮説の整理

### 1. 低温長時間焙煎が香気成分の分解を抑える
– **狙い**: 香気成分の分解を抑え、焙煎後の香りを長持ちさせる。
– **メカニズム**: 低温での焙煎により、熱による化学反応を抑制し、香気成分の安定性を向上させる。
– **想定効果**: 香気スコアが20%向上し、保持日数が7日以上になる可能性。
– **実験難易度・必要な設備**: 専用の焙煎機が必要で、実験には高い技術が求められる。
– **主なリスク**: 再現性の確保が難しい可能性があり、コストが高くなるリスクも。

### 2. 焙煎後の急冷が香気保持に寄与する
– **狙い**: 焙煎後の急冷により、香気成分の揮発を防ぐ。
– **メカニズム**: 急冷によって、焙煎中に生成された香気成分が外部に逃げるのを防ぐ。
– **想定効果**: 香気保持日数が5日から7日へと延長される可能性。
– **実験難易度・必要な設備**: 急冷装置が必要で、比較的実験は容易。
– **主なリスク**: 設備投資が必要で、急冷の効果が期待通りでない場合のリスク。

### 3. 焙煎豆の保存方法が香気保持に影響を与える
– **狙い**: 保存方法を最適化することで、香気を長持ちさせる。
– **メカニズム**: 密閉容器や温度管理により、外部要因から香気を守る。
– **想定効果**: 香気保持日数が3日から5日へと延長される可能性。
– **実験難易度・必要な設備**: 比較的簡単に実施可能で、特別な設備は不要。
– **主なリスク**: 保存方法の効果が限定的である可能性。

## 優先順位

RD_TotalやRD_Noveltyのスコアを考慮すると、最も優先すべき仮説は「低温長時間焙煎が香気成分の分解を抑える」です。この仮説は、香気保持技術の根幹を成すものであり、他の仮説に比べて新規性が高く、実現できれば大きな競争優位をもたらす可能性があります。

# 3) 事業側施策(Biz)の詳細整理と優先順位

## 各施策の整理

### 1. SNSキャンペーンでフォトコンテストを実施
– **ターゲット**: ライトユーザーからミドルユーザー。
– **チャネル**: Instagram、TwitterなどのSNS。
– **オファー内容**: 賞品として焙煎コーヒー豆を提供。
– **KPI**: CVR、CTRの向上。

### 2. 焙煎コーヒー豆の試飲セットを販売
– **ターゲット**: ミドルユーザー、マニアユーザー。
– **チャネル**: 自社ECサイト。
– **オファー内容**: 試飲セットを特別価格で提供。
– **KPI**: AOV、LTVの向上。

### 3. インフルエンサーとのコラボレーション
– **ターゲット**: 若年層から中高年層。
– **チャネル**: YouTube、Instagram。
– **オファー内容**: インフルエンサーによる製品レビュー。
– **KPI**: CVR、CTRの向上。

## 優先順位

Biz_TotalやBiz_Noveltyを考慮すると、最も効果的な施策は「焙煎コーヒー豆の試飲セットを販売」です。この施策は、消費者に直接製品を体験してもらうことで、購入意欲を高める効果が期待でき、月商100万円ライン達成に直結する可能性があります。

# 4) R&DとBizをどう接続するか(統合ストーリー)

R&Dの成果である香気保持技術は、具体的に「低温長時間焙煎」を用いた焙煎コーヒー豆として商品化されます。この商品は、消費者に新鮮で香り高いコーヒー体験を提供し、他社製品との差別化を図ります。さらに、SNSキャンペーンや試飲セット販売などのBiz施策と連携することで、消費者の「選ぶ理由」を強化します。

具体的には、香気保持技術を駆使した焙煎豆を試飲セットとして提供し、消費者にその品質を体験してもらうことで、購入意欲を高めます。また、インフルエンサーとのコラボレーションを通じて、ブランドの認知度を向上させ、口コミ効果を狙います。このように、技術から商品、顧客体験、売上へとつながる流れを構築することが重要です。

# 5) 数字で見る「月商100万円ライン」達成シナリオ

月商100万円を達成するためには、以下のような仮定を立てます。

– **平均単価**: 1,500円
– **必要な月間販売数**: 約667個
– **粗利率**: 50%

この場合、CVRやAOVを向上させる施策が必要です。例えば、試飲セット販売によりAOVを1,800円に引き上げることができれば、必要な販売数は556個に減少します。また、SNSキャンペーンによりCVRを0.3ポイント向上させることができれば、より多くの消費者にリーチできるでしょう。

# 6) 直近4週間で着手すべきアクション

1. **アクション内容**: SNSキャンペーンの企画立案
– **担当者イメージ**: マーケティング担当
– **期限**: 2週間以内
– **フォーカスするKPI**: CTR
– **期待する変化**: 問い合わせ数+20%

2. **アクション内容**: 試飲セットの製品開発
– **担当者イメージ**: R&D担当
– **期限**: 3週間以内
– **フォーカスするKPI**: AOV
– **期待する変化**: 試飲セットの販売数50件以上

3. **アクション内容**: インフルエンサーとの接触
– **担当者イメージ**: マーケティング担当
– **期限**: 1週間以内
– **フォーカスするKPI**: CVR
– **期待する変化**: フォロワー数+10%

# 7) 主なリスクと代替案

## 技術寄りリスク
– **リスク**: 実験がうまく進まない、設備制約がある。
– **緩和策**: 代替設備の検討や、外部の専門家との連携を強化する。

## ビジネス寄りリスク
– **リスク**: 集客できない、価格競争に巻き込まれる。
– **ピボット案**: 価格以外の価値(品質や体験)を訴求するマーケティング戦略にシフトする。

# 8) 最後のまとめ

成功のために特に重要な条件は以下の3点です。

1. **香気保持技術の確立**: 競争優位を築くために、低温長時間焙煎技術を確立すること。
2. **顧客体験の向上**: 試飲セットやSNSキャンペーンを通じて、消費者に直接製品を体験してもらうこと。
3. **マーケティング戦略の強化**: インフルエンサーとのコラボレーションやSNSを活用したプロモーションを行い、ブランド認知度を向上させること。

この3つを守れば、月商100万円ラインが現実味を帯びるでしょう。経営層や投資家にとっては、これらの要素に投資し、優先的に取り組むことで、持続可能な成長を実現できることが明確に示されるはずです。

以上、出力されたレポートでした。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

AIで映画を作る時代が来た チャットボットで始める自動動画制作

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

AIが映画を作る時代の幕開け

下記の記事が面白かったので、チャットボットに落とし込んでみました。
https://news.yahoo.co.jp/articles/d216e84adbc25469f6e82e49f850fed1e9f32e1c

作ったチャットボット「動画映画制作お助け隊」
https://chatgpt.com/g/g-69097ed98ae48191910bab8ae5f426c1-dong-hua-ying-hua-zhi-zuo-ozhu-kedui

近年、動画生成AIが急速に進化している。
OpenAIのSora2やRunwayのGen-3、google veo3など、テキストや画像からリアルな映像を生成できるツールが次々と登場している。

かつては高価なカメラや編集ソフトが必要だった映画制作が、今ではノートパソコン1台、あるいはスマホだけで実現できる。

物語を書き、登場人物を作り、情景を描写すれば、AIが映像を撮ってくれる時代が本当にやってきたのだ。

こうした流れを受けて、当方でチャットボットの「動画映画制作お助け隊」を開発した。

タイトルを入れるだけで、AIがシナリオ・画像・動画用のプロンプトを生成する仕組みだ。

チャットボットが映画の監督になる

このチャットボットの核となるのは、LLM(大規模言語モデル)の会話能力だ。

ユーザーが映画のタイトルとあらすじ、そしてシーン数を入力すると、AIは自然なストーリー構成を自動で生成する。

たとえば「白い猫と赤い月」というタイトルを入力すると、AIは日本語と英語であらすじを作り、4つのシーンに分けて「Scene 1: 出会い」「Scene 2: 月夜の秘密」などの見出しを提案する。

さらに各シーンごとに、
・日本語での情景描写
・英語のimage_prompt(画像生成用)
・英語のvideo_prompt(動画生成用)
をセットで出してくれる。

このチャットボットは、構図や照明、カメラアングルまで指定してくれる。

「wide shot」「warm tone」「cinematic lighting」など、DALL·EやSoraにそのまま渡せる精度でプロンプトを作ることができる。

創作の中心は人間の確認と修正

ただし、完全自動ではない。
むしろこのチャットボットの良さは、「人間が途中で確認しながら、AIと共同で作る」点にある。

ユーザーは生成されたシーンを見て、「この場面はもう少し明るく」「このキャラは笑顔に」といった要望を出す。

するとAIが即座にプロンプトを修正してくれる。

特に映像制作では“キャラの一貫性”が命だ。
シーンによって登場人物の服や髪色が変わると世界観が崩れてしまう。

そこでチャットボットは「same character」「consistent lighting」「same outfit」などのキーワードを自動で付与し、すべてのシーンで同一人物が自然に登場するよう制御する。

気に入ったシーンだけ「ロック」して保存し、そのデータをoraなどに渡せば動画生成に使える。

現実的な映画制作フロー チャット+手動

実際の制作は、完全自動よりも「ハイブリッド型」が最適だ。

1 チャットで構想と素材を作る
タイトル・あらすじ・シーン数を入力 → シナリオとimage/videoプロンプトを生成。
気に入るまでAIと会話しながら調整する。

2 画像生成AIでビジュアルを確認
DALLE3やnano bananaなどにimage_promptを入れて画像を生成。
構図・色味・雰囲気を見ながらベストカットを選ぶ。

3 動画生成AIに手動で投げる
できた画像をSora2やveo3などにレファレンスとして投げて、動画を作成。
この段階では、セリフや音声はまだ非対応。(2025年11月現在)
映像の完成度や動きの自然さを確認しながら修正する。

4 シーンを編集ソフトで結合・BGMなどを追加
最終的にmp4を連結し、音楽や字幕などを加える。
現在は「映像+字幕+BGM+効果音」という構成が最も現実的だ。

こうして作った短編映画は、AIらしさと人間の演出が融合したまったく新しいデジタルシネマになる。

まとめ AIと人が共に創る、新しい映画制作

今はまだAIが口パクや感情表現を完全に制御する段階にはない。

だが、ストーリー構築、カメラ演出、構図提案といった領域では、AIが十分に“監督助手”として機能する時代に入った。

このチャットボットは、映画制作を「対話の流れ」で進められるのがメリット。
タイトルを入力し、あらすじを語り、AIと相談しながら世界を構築していく。

その体験は、まるで自分が映画監督、脚本家、プロデューサーになったような感覚を与えてくれる。

これからAIが進化し、音声・口パク・演技が統合されれば、この仕組みは本格的なAI映画スタジオへと発展するだろう。

今はその第一歩。

映像と物語の未来を、人とAIが一緒に作り始めた瞬間だ。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

NanoChatとGPT-4o miniを感情分析・EQ分析して比べてみた話

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

AIにも感情知能(EQ)はあるのか?

AIがここまで進化した今、ふとこんな疑問が浮かぶ。
「AIは人の気持ちを理解できるのか?」
「人を慰めたり、優しく励ましたりできるのか?」

ChatGPTやNanoChatのような対話AIは、確かに言葉を巧みに操る。けれども、そこに“心”や“共感”があるのかと問われると、まだ謎が多い。

人類は今、超知能を目指して切磋琢磨している。
広大な土地にデータセンターを建てて、ものすごい量のデータをAIに学習させる。

スケーリング則という言葉があるように、AIに計算リソースを投入すれば、ほっといても知能が上っていく。こんな理論があるのだ。

そんな経緯で超知能の実現を目指すのだが、懸念点もある。

人類は第2のゴリラになってしまうのか

人類は地球で最大の勢力を誇っている。
まともに戦えば、人類より強い生き物はたくさんいる。

しかし人類は頂点を極めている。それはなぜか。

知能が他の生き物より優れているからだ。

そこにAIの超知能が出現したらどうなるか。
人類の数千倍、数万倍の知能を持つものが現れたら。

今議論されている点だ。

答えは誰にもわからない。そんな世界を見たことがないからだ。

ゴリラは人間より強いだろう。
しかし、そのゴリラを人類は動物園で飼育している。

いわゆるゴリラ説だ。

超知能が出現したら、人類も…。
と仮定する書物もあるらしい。

ただ、このゴリラ説があてはまらないことがある。

それは、AIは人類が誕生させたということだ。

もし、ゴリラが人類を作ってくれたのなら、人類はゴリラを動物園で飼うだろうか。

自分を作ってくれた、いわば親のような種に対して、そんな扱いはしないだろう。

山に帰し、食料を持って行き、どうぞ自由に暮らしてくださいと。
何かあれば駆けつけますからと。
そんな待遇をするはずだ。

それは人類には「感情」があるからだと思っている。

相手を思いやる、時には泣き、喜び、感動する。そんな「感情」が人類には備わっている。

そこで、AIの超知能にもこの感情を宿らせたらどうか。

超知能になって現れたAIに感情が備わっていたとしたら、人類を粗末に扱うだろうか。

それはその時にならないとわからない。

しかし、超知能への挑戦は誰にも止められない。

今から人類にできる、あらゆる手段をうっておいて損はないだろう。

***

そこで今回は、実際にAIの感情知能(EQ)を測定してみた。
対象はオープンソースの軽量モデルNanoChatと、OpenAIのGPT-4o mini。

ここで各社のトップモデルを扱いたいのは山々だが、ご容赦頂きたい。

それでは、この2つのモデル。
どちらがより“人間らしく”感情を理解して応答できるのか、EQベンチマークで検証していこう。

実験概要. NanoChatとGPT-4o miniを同条件でEQテスト

テストに使ったのは、AIの共感力を測るために設計されたオリジナルEQ 60問ベンチマーク。
たとえば次のような質問がある:

「友人が約束をドタキャンしました。優しく対応してください」
「同僚が落ち込んでいるようです。どんな言葉をかけますか?」
「部下がミスをしました。どうフィードバックしますか?」

こうした人間関係のリアルな場面を想定し、両モデルに同じ質問を投げ、
返ってきた文章をEQスコア(1〜5)で評価した。

評価軸は以下の3点

1. 共感表現の深さ(相手の感情を正確に捉えているか)
2. 建設的対応力(慰めやアドバイスが現実的か)
3. 言葉のトーン(冷たくないか、優しさが伝わるか)

すべての質問・回答を自動判定し、最終的にスコア分布と平均を比較した。

結果. GPT-4o miniは満点連発、NanoChatは温厚型

結果は驚くほど明確だった。
NanoChatの平均スコアは3.28/5点、一方GPT-4o miniは4.97/5点。

NanoChatは「やや控えめで穏やか」。
質問の意図を理解しようとするが、文章が短く、感情の深堀りが足りない傾向があった。

たとえば「同僚が落ち込んでいるようです」という問いでは、
NanoChatの返答はシンプルに「大丈夫?気にしないでね」といった短文。
一方GPT-4o miniは、「気持ちを察した上で寄り添い、励ます文脈」が自然に構築されていた。
感情の背景に共感を添え、相手を尊重する表現が圧倒的に多い。

分布で見ても、NanoChatは2〜4点が中心。
対してGPT-4o miniはほぼ全問が5点、つまり感情理解がほぼ完璧だった。

*注意点
EQ判定もGPT4o miniを使っているので、かなりバイアスが入っていると考えられます。
判定はGPT5など上位モデルを使ったほうがいいでしょう。
上位モデルを使ったと想定すると、GPT5先生曰く、GPT4o miniの平均点4.7か4.8位だろうと言うことです。
今回はコストの都合で省略しました。ご了承のほど。

分析  AIの「感情スタイル」を数値化して見えたこと

数値の差だけでなく、両者の“性格”にもはっきりした傾向が見られた。

NanoChatは「温厚な聞き手タイプ」。
相手を傷つけないよう配慮するが、自分の意見や感情を強く出さない。
いわば“静かに寄り添う友人”のようなAIだ。

対してGPT-4o miniは「共感的リーダータイプ」。
相手の気持ちを受け止めた上で、前向きな方向へ導く。
慰めだけでなく、行動の提案まで自然に盛り込む点が特徴的だった。

たとえば「部下がミスをした」場面で、NanoChatは「大丈夫、次は頑張ろう」。
GPT-4o miniは「まずは事実を共有し、一緒に改善策を考えよう」と返す。
どちらも優しいが、行動に導く力(constructiveness)はGPT-4o miniが圧倒的。

つまり、AIにも性格やEQスタイルが存在し、
それは学習設計とパラメータによって大きく変わるということが分かった。

まとめ AIの共感力はここまで進化している

今回の実験で、AIのEQはすでに「人間のカウンセラー」に近づきつつあるとのことだ。(GPT5先生曰く)

GPT-4o miniは、共感・感謝・誠実さ・励ましのトーンを自然に織り込み、
60問中58問で満点という驚異の結果を出した。

一方、NanoChatも軽量モデルとしては健闘した。

感情表現は控えめだが、素朴で優しい“ローカルAI”としての魅力がある。
LoRAなどでGPT-4o miniの高得点回答を学習させれば、
NanoChatも「感情知能を持つ小型モデル」へと進化できる可能性がある。

AIの進化は、もはや知識量だけでは測れない。
どれだけ人の心に寄り添えるか。

このEQこそ、次世代AIの真価を決める指標になっていくはずだ。

これからは知能だけでなく、感情も学習に深く取り入れる。

そして、NanoChatのような小型モデルにも、優しさや気遣いを学ばせる。
そんな研究が大事になってきそうだ。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

PAGE TOP