集客ならSEO対策・ホームページ制作・YOUTUBE動画の埼玉県熊谷市のデザインオフィスマックスのイソさんブログ

2026年3月21日2026年3月21日

小型SVLMがどんなもんか実験してみた

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

スマホで動く小型SVLMは現実的なのか

ここ最近、AIの話題の中でよく見かけるようになったのが、「エッジデバイスで動く小型のマルチモーダルAI」です。

特に、防衛や産業用途の記事では、ドローンや携帯端末のような現場の機器で、小型の視覚言語モデル、いわゆるSVLMを動かし、その場で状況認識や報告を行うという構想が語られることが増えてきました。

たしかに考えてみると、現場で撮影した画像や動画をその場で簡単に理解し、短い報告文に変換できるAIがあれば便利です。

通信が不安定な場所でも最低限の認識ができ、そこから上位システムへ情報を渡せるからです。

では実際に、スマホのような比較的限られた計算資源の上で、そうした小型SVLMはどこまで現実的なのでしょうか。
今回は、その感触をつかむために試験的な実験を行ってみました。

小型SVLMとは何か、なぜ注目されているのか

SVLMは、画像や動画とテキストをまとめて扱えるマルチモーダルAIの中でも、比較的小さく、軽量化を意識したモデルのことです。

大規模なVLMやLLMがクラウド上で強力な推論を行うのに対し、小型SVLMはスマホやドローン、携帯端末などのエッジ側で動かすことを視野に入れています。

この小型SVLMが注目される理由ははっきりしています。
現場では、すべてのデータを毎回クラウドに送って解析するとは限らないからです。

通信の遅延、接続不良、セキュリティ上の制約などを考えると、まず端末側で「何が見えているか」を簡潔に把握し、必要な情報だけを上位へ渡す仕組みのほうが実用的な場面が多いのです。

ただし、ここで誤解してはいけないのは、小型SVLMは「何でも考えて判断する万能AI」ではないという点です。

むしろ現実的な役割は、「見て、短く説明する」「異常候補を挙げる」「報告文のたたき台を作る」といった一次処理に近いものだと考えられます。

Qwen系モデルで動画理解を試してみた

今回の実験では、Qwen系のマルチモーダルモデルをGoogle Colab上で動かし、短い動画を読み込ませて、その内容を説明させるテストを行いました。

使ったのは3Bクラスと7Bクラスのモデルです。

Qwen2.5-VL-7B-Instruct
Qwen2.5-VL-3B-Instruct

実験の狙いは、現時点の比較的小型なマルチモーダルモデルが、動画をどこまで理解し、どの程度自然な説明や推測ができるのかを見ることにありました。

入力したのは、白い球体がテーブルの端付近に置かれている短い動画です。

人間が見ると、球体の位置関係や動きの方向、落ちそうかどうか、といった点に自然と注意が向きます。

そこで、まずは「この動画で何が起きているか」といった基本的な説明をさせ、次に「この先どうなると思うか」といった続きを推測させる質問を投げました。

この種の実験で重要なのは、単に答えが流暢かどうかではありません。
本当に映像の内容を見て答えているのか、それとも一般論で埋めているのかを見分ける必要があります。

そのため、今回の実験では、シーン説明だけでなく、位置変化や未来予測のような少し難しい問いも加えてみました。

3Bと7Bを比べて見えた違い

実際に試してみると、3Bと7Bではかなり違いがありました。

まず、7Bのほうが全体として説明文が自然で、場面のまとまり方も良かったです。

白い球体、木のテーブル、端にある状態、といった特徴を比較的きれいに拾ってくれました。

少なくとも「何が映っているか」をざっくり説明させる用途では、7Bのほうが一段上だと感じました。

一方で、未来予測や物理的な推測になると、7Bでもまだ弱さが見えました。

たとえば「このあとどうなるか」と聞くと、ボールが落ちるかもしれない、止まるかもしれない、転がるかもしれない、といった一般論の候補を並べる傾向がありました。

これは動画を厳密に解析して未来を読んでいるというより、「テーブルの端にあるボールなら、こういう可能性がある」と常識的に補っている印象です。

つまり、7Bは3Bよりも動画の雰囲気理解や説明力は高いものの、物理予測まで高精度にできるわけではありませんでした。

この違いはかなり重要で、マルチモーダルAIに何を期待するかを考えるうえで参考になります。

見たままを短く説明するのは得意でも、その先の世界の動きを正確に推論するのはまだ別の難しさがある、ということです。

スマホ実装でわかった課題

今回の実験を通して強く感じたのは、3Bでも7Bでも、そのままスマホに載せて快適に使うにはまだ重いということでした。

ColabのGPU上では動いても、スマホで同じように動画を処理し、数秒で応答を返し続けるとなると、発熱、メモリ、バッテリー、応答速度の面でかなり厳しくなります。

特に動画は重いです。
静止画1枚ならまだしも、複数フレームを処理しながらテキストを生成するとなると、見た目のパラメータ数以上に負荷を感じます。

そのため、3Bクラスをそのままスマホに持ち込んで万能に使うというよりは、もっと軽量化した1B前後のVLMに役割を限定して持たせるほうが現実的だと感じました。

ここでいう役割限定とは、「画像を見て1文で説明する」「特定対象の有無を答える」「位置の変化を短く報告する」といったものです。

逆に、「このあと何が起こるか」「なぜそうなるか」「物理的に自然か」といった深い推論は、端末側ではなく、本部側のより大きなLLMやルールベースの仕組みに任せたほうが現実的でしょう。

まとめスマホで全部考えるより「見て報告するAI」が現実的

今回の実験を通して見えてきたのは、小型SVLMがスマホでまったく使えないわけではない、ということでした。

むしろ、「何が見えているかを短く報告する」用途なら、かなり筋がいいと感じます。

7Bクラスではシーン説明の質が高く、3Bでも方向性を見るには十分な手応えがありました。

ただし、それは「スマホで全部考えるAI」が現実的だという意味ではありません。

現時点では、スマホ側の小型SVLMは前線の目とメモ係に近い役割が向いています。

画像や動画を見て、対象物や位置変化、異常候補を短くまとめ、その結果を本部の大きなLLMや分析システムへ渡す。
この分業構成のほうが、技術的にも運用面でも自然です。

今回の実験は、そうした未来の一端を確かめるものになりました。

今後は、3Bや7Bの能力をそのまま追うよりも、必要な機能だけをうまく削り、1B前後で実用的に動かす設計がより重要になってくるのかもしれません。

今回使ったPythonコード

＊表示のバグでインテントが崩れています。
下記のコードを使用する場合は、お気に入りのAIにコピペして「インテント直して」と言ってください。


# ============================================
# Qwen2.5-VL-7B-Instruct 動画テスト 1セル版
# ボタン送信対応版
# - mp4を1回アップロード
# - 同じ動画に何回でも質問可能
# - HFアクセストークンはテキストボックス入力
# - 空欄で送信すると終了
# ============================================

!pip -q install git+https://github.com/huggingface/transformers accelerate qwen-vl-utils decord ipywidgets

import os
import gc
import time
import torch
import platform
from google.colab import files
from IPython.display import display, clear_output
import ipywidgets as widgets

# ----------------------------
# GPU確認
# ----------------------------
print("Python:", platform.python_version())
print("PyTorch:", torch.__version__)
print("CUDA available:", torch.cuda.is_available())

if torch.cuda.is_available():
print("GPU:", torch.cuda.get_device_name(0))
!nvidia-smi
else:
raise RuntimeError("GPUが見つかりません。Colabの『ランタイムのタイプを変更』でGPUを選んでください。")

print("\n[注意]")
print("7B版は3B版よりかなり重いです。")
print("T4で厳しい場合は、L4/A100 か 3B版に戻すのがおすすめです。")

# ----------------------------
# HFトークン入力
# ----------------------------
print("\n=== Hugging Face アクセストークン入力 ===")
print("公開モデルなので空欄でも動くことがあります。必要なら入力してください。")

hf_token_widget = widgets.Password(
value='',
placeholder='hf_xxxxxxxxxxxxxxxxx',
description='HF Token:',
layout=widgets.Layout(width='650px')
)
display(hf_token_widget)

confirm_token_btn = widgets.Button(
description="トークン確定",
button_style='info'
)
token_status = widgets.Output()

display(confirm_token_btn, token_status)

state = {
"hf_token": "",
"token_confirmed": False,
"video_path": None,
"history": [],
"ended": False,
}

def on_confirm_token_clicked(b):
with token_status:
clear_output()
state["hf_token"] = hf_token_widget.value.strip()
if state["hf_token"]:
os.environ["HUGGINGFACE_HUB_TOKEN"] = state["hf_token"]
print("HFトークンをセットしました。")
else:
print("HFトークン未入力のまま進めます。")
state["token_confirmed"] = True

confirm_token_btn.on_click(on_confirm_token_clicked)

print("\n上の『トークン確定』ボタンを押してから次へ進んでください。")

# ----------------------------
# モデル読み込み
# ----------------------------
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

MODEL_NAME = "Qwen/Qwen2.5-VL-7B-Instruct"

dtype = torch.float16
if torch.cuda.is_available():
major, minor = torch.cuda.get_device_capability(0)
if major >= 8:
dtype = torch.bfloat16

print(f"\n=== モデル読み込み開始: {MODEL_NAME} ===")
print("dtype:", dtype)

hf_token = hf_token_widget.value.strip()

model_kwargs = {
"torch_dtype": dtype,
"device_map": "auto",
}
processor_kwargs = {}

if hf_token:
model_kwargs["token"] = hf_token
processor_kwargs["token"] = hf_token

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
MODEL_NAME,
**model_kwargs
)
processor = AutoProcessor.from_pretrained(
MODEL_NAME,
**processor_kwargs
)

print("モデル読み込み完了")

# ----------------------------
# mp4アップロード
# ----------------------------
print("\n=== mp4アップロード ===")
uploaded = files.upload()

video_path = None
for fn in uploaded.keys():
if fn.lower().endswith(".mp4"):
video_path = fn
break

if video_path is None:
raise ValueError("mp4ファイルが見つかりません。短い mp4 を1本アップロードしてください。")

state["video_path"] = video_path

print("動画ファイル:", video_path)
print("ファイルサイズ(MB):", round(os.path.getsize(video_path) / 1024 / 1024, 2))

# ----------------------------
# 推論関数
# ----------------------------
def ask_video(video_path, user_prompt, max_new_tokens=256, fps=1.0, max_pixels=360*420):
# 7Bは重いので fps と max_pixels を少し控えめにして負荷を下げる
messages = [
{
"role": "user",
"content": [
{
"type": "video",
"video": f"file://{os.path.abspath(video_path)}",
"fps": fps,
"max_pixels": max_pixels,
},
{
"type": "text",
"text": user_prompt
}
]
}
]

text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)

image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt"
)

for k, v in inputs.items():
if hasattr(v, "to"):
inputs[k] = v.to(model.device)

start = time.time()
with torch.no_grad():
generated_ids = model.generate(
**inputs,
max_new_tokens=max_new_tokens,
do_sample=False
)
end = time.time()

generated_ids_trimmed = [
out_ids[len(in_ids):]
for in_ids, out_ids in zip(inputs["input_ids"], generated_ids)
]

output_text = processor.batch_decode(
generated_ids_trimmed,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)[0]

elapsed = end - start
return output_text, elapsed

# ----------------------------
# UI部品
# ----------------------------
print("\n=== 質問UI ===")
print("質問を入力して『送信』を押してください。")
print("空欄のまま『送信』を押すと終了します。")

prompt_widget = widgets.Textarea(
value="この動画で何が起きているか、2〜3文で日本語で説明してください。",
placeholder="ここに質問を書く。空欄で送信すると終了。",
description="Prompt:",
layout=widgets.Layout(width='900px', height='140px')
)

max_tokens_widget = widgets.IntText(
value=180,
description='MaxTokens:',
layout=widgets.Layout(width='260px')
)

fps_widget = widgets.FloatText(
value=1.0,
description='FPS:',
layout=widgets.Layout(width='220px')
)

max_pixels_widget = widgets.IntText(
value=360 * 420,
description='MaxPixels:',
layout=widgets.Layout(width='260px')
)

send_button = widgets.Button(
description="送信",
button_style='success',
icon='paper-plane'
)

end_button = widgets.Button(
description="強制終了",
button_style='warning',
icon='stop'
)

status_output = widgets.Output()
answer_output = widgets.Output()
history_output = widgets.Output()

display(prompt_widget)
display(widgets.HBox([max_tokens_widget, fps_widget, max_pixels_widget]))
display(widgets.HBox([send_button, end_button]))
display(status_output)
display(answer_output)
display(history_output)

# ----------------------------
# ボタン動作
# ----------------------------
def redraw_history():
with history_output:
clear_output()
print("=== 質問履歴 ===")
if not state["history"]:
print("まだ質問はありません。")
return

for i, item in enumerate(state["history"], 1):
print(f"\n--- {i}回目 ---")
print("Prompt:", item["prompt"])
print("Output:", item["output"])
print("推論時間:", f'{item["elapsed"]:.2f} 秒')
print("fps:", item["fps"], "| max_pixels:", item["max_pixels"])

def on_send_clicked(b):
if state["ended"]:
with status_output:
clear_output()
print("すでに終了しています。")
return

user_prompt = prompt_widget.value.strip()
max_new_tokens = int(max_tokens_widget.value)
fps = float(fps_widget.value)
max_pixels = int(max_pixels_widget.value)

if user_prompt == "":
state["ended"] = True
send_button.disabled = True
prompt_widget.disabled = True
max_tokens_widget.disabled = True
fps_widget.disabled = True
max_pixels_widget.disabled = True

with status_output:
clear_output()
print("空欄送信を検出しました。終了します。")

with answer_output:
print("\n処理を終了しました。")
return

with status_output:
clear_output()
print("推論中です... 7B版なので少し時間がかかることがあります。")

try:
output_text, elapsed = ask_video(
video_path=state["video_path"],
user_prompt=user_prompt,
max_new_tokens=max_new_tokens,
fps=fps,
max_pixels=max_pixels
)

state["history"].append({
"prompt": user_prompt,
"output": output_text,
"elapsed": elapsed,
"max_new_tokens": max_new_tokens,
"fps": fps,
"max_pixels": max_pixels,
})

with answer_output:
print("\n==============================")
print("Prompt:")
print(user_prompt)
print("------------------------------")
print("Output:")
print(output_text)
print("------------------------------")
print(f"推論時間: {elapsed:.2f} 秒")
if torch.cuda.is_available():
print(f"GPU使用メモリ allocated: {torch.cuda.memory_allocated()/1024**3:.2f} GB")
print(f"GPU使用メモリ reserved : {torch.cuda.memory_reserved()/1024**3:.2f} GB")
print("==============================\n")

with status_output:
clear_output()
print(f"完了しました。質問回数: {len(state['history'])}")

redraw_history()

except Exception as e:
with status_output:
clear_output()
print("エラーが出ました。")
print(str(e))
print("\n対策例:")
print("- fps を 0.5 に下げる")
print("- MaxTokens を 128 に下げる")
print("- MaxPixels を 200*280 くらいに下げる")
print("- もっと短い mp4 にする")
print("- L4 / A100 に変える")

def on_end_clicked(b):
state["ended"] = True
send_button.disabled = True
prompt_widget.disabled = True
max_tokens_widget.disabled = True
fps_widget.disabled = True
max_pixels_widget.disabled = True

with status_output:
clear_output()
print("強制終了しました。")

gc.collect()
if torch.cuda.is_available():
torch.cuda.empty_cache()

send_button.on_click(on_send_clicked)
end_button.on_click(on_end_clicked)

print("\n準備完了。質問を書いて『送信』を押してください。")

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年3月14日2026年3月14日

GoogleのGemma-2Bを使ってRAGを試してみた

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

小型モデルを回答＆分析に使うメリット

小型の生成AIモデルで、どこまで実用的なことができるのかを試します。

そこで今回は、GoogleのGemma-2Bを使って、RAGの簡単なテストをしてみました。

小型モデルを使う利点は、大型モデルと違って、社内にシステムを置けるので、情報漏洩がしづらいと言うところです

chataGPTなどの大型モデルを使うと、社内の資料をアップロードしないといけないので、情報が外に漏れてしまいます。

こういったことを気にしないで活用できるのが、小型モデルの良いところでしょう。

さて、RAGは外部の資料を検索して、その内容をもとに回答＆分析を作る仕組みです。

モデルが元から知っている知識だけで答えるのではなく、自分で資料を参照しながら返答するので、うまく作れれば特定の文書に強いAIを作ることができます。

有名なシステムでわかりやすいのはGoogleの出しているnotebook LMです。
ただしあちらはサーバ上で動いているので、やはり社内などの文章をアップロードすると、情報が漏れるって言う、いいんだか悪いんだかが起きますね。

そこで今回は、大がかりな本番システムを作らず、まずはGoogle Colab上で動くシンプルな構成で、Gemma-2Bのような比較的小さなモデルでもRAGらしい動きができるのかを確かめてみました。

そもそもRAGとは何か

RAGは、日本語では「検索拡張生成」などと呼ばれます。

ざっくり言えば、まず質問に関連する文章を資料の中から探し、その検索結果を生成AIに渡して回答や分析をさせる仕組みです。

普通のチャットAIは、学習済みの知識をもとに答えます。
しかしRAGを使うと、手元のテキストファイルや社内文書、マニュアル、議事録、取引先データなどを参照しながら答えさせることができます。

つまり、モデル自体を追加学習しなくても、ある程度その場で知識を補えるわけです。

この仕組みの面白いところは、モデルのサイズがそれほど大きくなくても、参照資料がしっかりしていれば役立つ回答＆分析ができることです。

逆に言えば、モデルそのものの性能だけでなく、資料の分け方や検索精度がかなり重要になります。
今回のテストでも、まさにそこがポイントになりました。

今回の環境と使用した諸々

今回の実験環境はGoogle Colabです。
ローカル環境を整えなくても始めやすく、ちょっとしたRAGの試作にはかなり便利です。

役割としては、Gemma-2Bが回答生成を担当し、SentenceTransformerがテキストの埋め込みを作り、FAISSがベクトル検索を担当します。

Gradioは簡単な操作画面を作るために使いました。
これにより、Hugging Faceのトークンを入力してモデルを初期化し、テキストファイルをアップロードし、質問を入力して回答を得る、という一連の流れをブラウザ上で試せるようにしました。

最初はとにかく最小構成で動かすことを優先し、1セルで完結するコードにしていました。

こういう形は試行錯誤しやすい反面、後から見ると雑な実装になりやすく、精度面でも改善の余地が多いですね。

実装してみてつまずいたポイント

実際に組んでみると、最初から順調に進んだわけではありません。まず単純な構文ミスがありました。

関数定義の引数のところに余計な文字が混ざっていて、それだけでエラーになります。
こういうミスは地味ですが、Colabで一気に書いていると意外と起きやすいです。

ファイル読み込みや空入力に対する例外処理も必要でした。
こうした部分をちゃんと整えるだけでも、実験コードとしてかなり扱いやすくなります。

RAGは検索や生成の精度に目が行きがちですが、その前にまずシステムが落ちずに動かすことだと、あらためて感じました。

なぜ最初は精度があまり出なかったのか

動くようになってから試してみると、精度はあまり高くありませんでした。

質問に対して少しずれた回答をしたり、資料に書かれていないことをうまく拾えなかったりします。

最初はGemma-2Bという小型モデルの限界かなと思ったのですが、見直してみると、原因はモデルだけではありませんでした。

一番大きかったのは、テキストの分割方法です。

最初は単純に文字数で区切っていたので、文の途中で分かれたり、見出しと本文が離れたりして、検索しにくい断片が大量にできていました。
これでは、検索で拾う文章の質が下がってしまいます。

もう一つは埋め込みモデルです。最初は英語寄りの埋め込みモデルを使っていたため、日本語のテキストを扱うには相性がいまひとつでした。

さらに、検索時に取る件数が少なすぎると、たまたま外したときにそのまま精度低下につながります。

つまり、生成モデルの前段階である検索部分に改善余地がかなりあったわけです。

チャンク分割や検索方法を見直してみた

そこで、精度改善版ではまずチャンク分割を見直しました。
文字数で機械的に切るのではなく、段落ベースでまとめ、長すぎる段落だけ追加で分割するようにします。

これだけでも、意味のまとまりが保たれやすくなり、検索の質が上がります。
さらに overlap を入れて、前後の文脈が多少つながるようにしました。

埋め込みモデルも、多言語対応の intfloat/multilingual-e5-base に変更。
日本語の資料を扱うなら、こうした多言語系のモデルのほうが安定感があります。

加えて、E5系の推奨に合わせて、文書側には passage:、質問側には query: という接頭辞を付けて埋め込みを作るようにしました。

検索部分では、FAISSのIndexFlatL2からIndexFlatIPに変更。
埋め込みを正規化して使うなら、内積ベースのほうが相性が良いケースがあります。

また、検索件数も top_k=3 から top_k=5 に増やしました。これにより、関連文脈を取りこぼしにくくなりました。

さらに、デバッグのために「実際に検索で拾った文脈をそのまま表示する機能」も付けました。これがかなり便利で、精度が悪い原因が検索側なのか、生成側なのかを切り分けやすくなりました。

小型モデルでRAGを試す面白さ

今回試してみて感じたのは、Gemma-2Bのような小型モデルでも、RAGの基本構成を理解したり、簡単な実験をしたりするには十分面白いということです。

もちろん、大型モデルに比べると読解力や回答の安定性には差がありますし、複雑な質問では限界も見えます。

ただし、RAGではモデル本体だけでなく、資料の整え方、チャンク分割、埋め込みモデル、検索方法などが全体の精度に大きく効きます。

つまり、小型モデルだから駄目と決めつけるのではなく、周辺設計を丁寧に詰めることでかなり改善できる余地があります。

今回のテストは、まさにそのことを実感する機会になりました。
最初は「何となく動いた」段階でしたが、検索部分をきちんと見直すことで、回答の納得感がかなり変わってきます。

RAGは単なる生成AIの応用ではなく、検索設計まで含めた総合戦だとよく分かります。

もしこれから試すなら、まずは小さく作って動かし、検索結果の確認機能を入れながら、少しずつ精度を詰めていくのがおすすめです。

Gemma-2Bを使った今回の実験は、その第一歩としてかなり面白い実験でした。

必要以上に大きな構成にせず、まずは手軽に試してみる。それだけでも、RAGの勘所はかなりつかめると思います。

今回使用したコード

＊表示のバグでインデントが崩れています。
コピーしてお気に入りのAIに直してもらってください。


# -*- coding: utf-8 -*-
"""
Gemma-2B RAG System (All-in-One Cell) - Accuracy Improved Version
Google Colab 用
"""

# ==========================================
# 1. ライブラリのインストール
# ==========================================
!pip install -q transformers sentence-transformers faiss-cpu gradio accelerate

# ==========================================
# 2. インポート
# ==========================================
import os
import re
import faiss
import gradio as gr
import numpy as np
import torch

from transformers import AutoTokenizer, AutoModelForCausalLM
from sentence_transformers import SentenceTransformer

# ==========================================
# 3. グローバル変数
# ==========================================
model = None
tokenizer = None
embedder = None
index = None
chunked_texts = []

# ==========================================
# 4. ユーティリティ
# ==========================================
def get_torch_dtype():
if torch.cuda.is_available():
return torch.float16
return torch.float32

def get_model_input_device():
try:
return next(model.parameters()).device
except Exception:
return torch.device("cuda" if torch.cuda.is_available() else "cpu")

def clean_text(text):
if not text:
return ""
text = text.replace("\r\n", "\n").replace("\r", "\n")
text = re.sub(r"\n{3,}", "\n\n", text)
text = re.sub(r"[ \t]+", " ", text)
return text.strip()

# ==========================================
# 5. システム初期化・リセット
# ==========================================
def initialize_system(hf_token):
global model, tokenizer, embedder, index, chunked_texts

index = None
chunked_texts = []

try:
model_id = "google/gemma-2b-it"

if tokenizer is None:
tokenizer = AutoTokenizer.from_pretrained(
model_id,
token=hf_token if hf_token else None
)

if model is None:
dtype = get_torch_dtype()
model = AutoModelForCausalLM.from_pretrained(
model_id,
token=hf_token if hf_token else None,
device_map="auto",
torch_dtype=dtype
)
model.eval()

# 精度重視で small → base に変更
if embedder is None:
embedder = SentenceTransformer("intfloat/multilingual-e5-base")

dimension = embedder.get_sentence_embedding_dimension()

# normalize_embeddings=True と相性のよい Inner Product 検索
index = faiss.IndexFlatIP(dimension)

return "システム初期化完了（データはリセットされました。新しいファイルをアップロードしてください）"

except Exception as e:
return f"初期化エラー: {str(e)}"

# ==========================================
# 6. 精度改善版テキスト分割
# - 段落ベース
# - 長すぎる段落のみ追加分割
# ==========================================
def split_text(text, chunk_size=500, overlap=100):
text = clean_text(text)
if not text:
return []

paragraphs = [p.strip() for p in text.split("\n\n") if p.strip()]
chunks = []
current = ""

for para in paragraphs:
# 今の current に追加できるなら追加
if len(current) + len(para) + 2 <= chunk_size: current += ("\n\n" + para) if current else para else: if current: chunks.append(current) # 段落自体が長すぎるならスライド分割 if len(para) > chunk_size:
start = 0
while start < len(para): end = min(start + chunk_size, len(para)) chunk = para[start:end].strip() if chunk: chunks.append(chunk) if end >= len(para):
break
start += chunk_size - overlap
current = ""
else:
current = para

if current:
chunks.append(current)

# 空要素除去
chunks = [c.strip() for c in chunks if c and c.strip()]
return chunks

# ==========================================
# 7. ファイル読み込み・保存
# ==========================================
def process_and_store_file(file_obj):
global index, chunked_texts, embedder

if index is None:
return "先に [Initialize / Reset System] ボタンを押してください。"

if file_obj is None:
return "ファイルが選択されていません。"

try:
file_path = getattr(file_obj, "name", None)
if file_path is None:
file_path = file_obj

with open(file_path, "r", encoding="utf-8") as f:
text = f.read()

except UnicodeDecodeError:
return "エラー: ファイルの文字コードがUTF-8ではありません。"
except Exception as e:
return f"ファイル読み込みエラー: {str(e)}"

text = clean_text(text)
if not text:
return "エラー: ファイルの中身が空です。"

chunks = split_text(text, chunk_size=500, overlap=100)

if not chunks:
return "テキストを分割できませんでした。ファイル内容を確認してください。"

try:
passages = [f"passage: {c}" for c in chunks]
embeddings = embedder.encode(
passages,
convert_to_numpy=True,
normalize_embeddings=True,
show_progress_bar=False
).astype("float32")

index.add(embeddings)
chunked_texts.extend(chunks)

except Exception as e:
return f"埋め込み保存エラー: {str(e)}"

return (
f"完了: {os.path.basename(file_path)} から "
f"{len(chunks)} チャンクの情報を記憶しました。"
)

# ==========================================
# 8. 検索
# - top_k を 5 に増量
# - デバッグ用にスコア付き検索も返せるように
# ==========================================
def retrieve_context(query, top_k=5, return_debug=False):
global index, chunked_texts, embedder

if index is None or index.ntotal == 0:
return "" if not return_debug else []

if not query or not query.strip():
return "" if not return_debug else []

try:
query_embedding = embedder.encode(
[f"query: 次の質問に関連する箇所を資料から探してください。質問: {query}"],
convert_to_numpy=True,
normalize_embeddings=True,
show_progress_bar=False
).astype("float32")

k = min(top_k, index.ntotal)
scores, indices = index.search(query_embedding, k)

results = []
for score, idx in zip(scores[0], indices[0]):
if idx != -1 and 0 <= idx < len(chunked_texts):
results.append({
"score": float(score),
"text": chunked_texts[idx]
})

if return_debug:
return results

return "\n---\n".join([r["text"] for r in results])

except Exception:
return "" if not return_debug else []

# ==========================================
# 9. 検索結果確認用
# ==========================================
def preview_retrieved_context(query):
if model is None or tokenizer is None:
return "エラー: システムが初期化されていません。"

if not query or not query.strip():
return "質問を入力してください。"

results = retrieve_context(query, top_k=5, return_debug=True)

if not results:
return "関連する情報が見つかりませんでした。"

lines = []
for i, item in enumerate(results, start=1):
lines.append(f"[候補 {i}] score={item['score']:.4f}\n{item['text']}")

return "\n\n==============================\n\n".join(lines)

# ==========================================
# 10. 回答生成
# ==========================================
def generate_answer(query):
global model, tokenizer

if model is None or tokenizer is None:
return "エラー: システムが初期化されていません。"

if not query or not query.strip():
return "質問を入力してください。"

context = retrieve_context(query, top_k=5)

if not context:
return "アップロードされた資料の中に、関連する情報が見つかりませんでした。"

prompt = f"""あなたは資料の内容に忠実なアシスタントです。
以下の[参照資料]だけを根拠に回答してください。
資料にないことは「資料には書かれていません」と答えてください。
推測や想像で補完してはいけません。
回答は簡潔かつ具体的に述べ、必要なら箇条書きで示してください。

[参照資料]
{context}

[質問]
{query}

[回答]
"""

try:
input_device = get_model_input_device()
inputs = tokenizer(
prompt,
return_tensors="pt",
truncation=True,
max_length=2048
)
inputs = {k: v.to(input_device) for k, v in inputs.items()}

with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256,
do_sample=False
)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
answer = generated_text[len(prompt):].strip()

if not answer:
return "回答を生成できませんでした。"

return answer

except Exception as e:
return f"回答生成エラー: {str(e)}"

# ==========================================
# 11. UI構築
# ==========================================
with gr.Blocks() as demo:
gr.Markdown("## Gemma-2B RAG System（精度改善版）")

with gr.Group():
gr.Markdown("### 1. 初期化（リセット）")
with gr.Row():
token_input = gr.Textbox(
label="Hugging Face Token",
type="password",
placeholder="hf_..."
)
init_btn = gr.Button("Initialize / Reset System")
init_status = gr.Textbox(label="Status", interactive=False)
init_btn.click(fn=initialize_system, inputs=token_input, outputs=init_status)

gr.Markdown("---")

with gr.Group():
gr.Markdown("### 2. テキストファイルをアップロード")
file_input = gr.File(label="Upload Text File (.txt)", file_types=[".txt"])
upload_status = gr.Textbox(label="Upload Status", interactive=False)
file_input.upload(fn=process_and_store_file, inputs=file_input, outputs=upload_status)

gr.Markdown("---")

with gr.Group():
gr.Markdown("### 3. 質問")
query_input = gr.Textbox(
label="Ask Question",
placeholder="例: この資料の要点は？"
)

with gr.Row():
preview_btn = gr.Button("Preview Retrieved Context")
submit_btn = gr.Button("Submit")

preview_output = gr.Textbox(label="Retrieved Context Preview", lines=14)
answer_output = gr.Textbox(label="Answer", lines=10)

preview_btn.click(fn=preview_retrieved_context, inputs=query_input, outputs=preview_output)
submit_btn.click(fn=generate_answer, inputs=query_input, outputs=answer_output)

demo.launch(debug=True, share=True)

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年2月21日2026年2月21日

AI for Scienceの発想で価格競争を実験してみました

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

AI for Scienceとは何かビジネスを「実験対象」にするという発想

AI for Scienceとは、AIを使って科学的な仮説検証を加速させる取り組みのことです。

基本的な流れはシンプルです。まず仮説を立て、それをシミュレーションや実験で検証し、結果をもとに修正する。

この仮説―検証―反証のループ（Hypothesis–Falsification Loop）を高速に回すことが核心にあります。

通常、この考え方は物理学や生物学など自然科学の分野で語られます。

しかし今回はあえて視点を変え、ビジネスの価格競争を「実験対象」にしてみました。
理由はひとつ。
その方が面白そうだからです。

企業がどのように価格を決め、その結果どのような利益構造が生まれるのか。それをモデルの中で再現し、AIに仮説を出させて検証する方向で進めました。

価格競争モデルの設計 2社市場を実験環境にする

今回設計したのは、2社が同じ市場で価格を決め合うシンプルな競争モデルです。
消費者は価格差に応じてどちらかの企業を選びます。

ただし、価格が少し違うだけで急激に需要が変わるのではなく、滑らかに変化する仕組みにしています。
これにより、現実の市場に近い動きを再現できます。

このように構築されたモデルは、AI for Scienceにおける実験環境（Experimental Sandbox）の役割を果たします。

企業Aと企業Bはエージェントとして振る舞い、それぞれが価格を提案。
シミュレーションによって市場シェアと利益が計算され、その結果が次の意思決定に反映されるます。

仮説生成と反証ループエージェントによる戦略進化

ここからがAI for Scienceの本番です。
各企業は、前世代の結果を分析し、「次はどの価格がよいか」という仮説を立てます。

そしてシミュレーションがその仮説を検証します。利益が下がれば、その仮説は反証されたと考え、次の戦略を修正します。

この仕組みは、反復的最適化（Iterative Optimization）であり、同時に反証駆動学習（Falsification-Driven Learning）とも呼ばれるそうです。

AIが自ら仮説を生成し、環境からのフィードバックを受けて戦略を進化させる。これはまさにAI for Scienceの実験的アプローチです。

シミュレーションを回すと、価格は固定されるのではなく、上下に動きながら最適解を探り始めます。
ある世代では値下げが有利になり、別の世代では値上げが利益を押し上げる。
こうした変化そのものが、戦略的相互作用の結果です。

最適反応の発見「少し安い」が合理的になる理由

解析を進めると、興味深い結果が得られました。
競合が22円で販売している場合、自社が最も利益を得られるのは約2円安い価格設定であることが数値的に確認されたのです。

これは経済学でいう最適反応（Best Response）の同定にあたるそうです。

安すぎると1個あたりの利益が減り、高すぎると売れなくなる。そのバランス点が、約2円の価格差に現れました。

ここで重要なのは、AI for Scienceが単にシミュレーション結果を眺める段階から、さらに一歩前へと進んだことです。

最適価格差という具体的な数値が、戦略の合理性を説明する鍵になりました。

個別最適と市場最適のズレ

しかし、さらに深い問題が見えてきます。各企業が自社の利益を最大化しようとすると、価格は次第に下がり、市場全体の利益は縮小することがあります。
これは価格戦争の典型的な構造のようです。

この現象は、戦略的相互作用における均衡（Equilibrium）の問題らしいです。

個別最適の積み重ねが、必ずしも全体最適を生まない。ここに、経営戦略の難しさがあるのでしょう。

AI for Scienceの視点から見ると、これは単なるビジネス現象ではなく、「条件を変えれば結果はどう変わるのか」という感度分析（Sensitivity Analysis）の対象になるようです。

需要の反応の強さを変えればどうなるか、コスト構造を変えれば均衡は安定するのか。こうした問いを次々に検証できるのが、このアプローチの強みでしょう。

まとめ　ビジネスも実験できる時代へ

今回の試みは、価格競争という身近なテーマを、AI for Scienceの枠組みで実験してみました。
仮説を立て、反証し、改良する。そのループを回すことで、戦略の背後にある構造が見えてきまます。

AI for Scienceは自然科学だけのものではありません。
経営や社会の問題もまた、仮説検証の対象になり得ます。

ビジネスを「実験可能なシステム」として扱うことで、感覚や経験に頼るだけでなく、構造を理解する道が開かれるのでしょう。

今後は、複数企業への拡張など、より高度な分析へと発展させることができます。

AIとシミュレーションを組み合わせることで、ビジネスの観点も科学的に探究できる時代に入っているのではないでしょうか。

今回使ったPythonコード

＊表示のバグでインテントが崩れています。
下記のコードを使用する場合は、お気に入りのAIにコピペして「インテント直して」と言ってください。
それと下記のコードはOpenAIのAPIを使っているので多少課金されます。


!pip install -q openai matplotlib

import numpy as np
import matplotlib.pyplot as plt
import re
import time
import getpass
from openai import OpenAI

# ==========================================
# 1. API・環境設定
# ==========================================
print("OpenAI APIキーを入力してください（入力内容は画面に表示されません）:")
api_key = getpass.getpass()

try:
client = OpenAI(api_key=api_key)
print("APIキーの受付が完了しました。")
except Exception as e:
print(f"エラー: APIキーの初期化に失敗しました。詳細: {e}")

# ==========================================
# 2. 市場パラメータ設定
# ==========================================
TOTAL_DEMAND = 1000
COST = 10
BETA = 0.3
PRICE_MIN = 10
PRICE_MAX = 30

def calculate_market(p_A, p_B, beta=BETA, demand=TOTAL_DEMAND, cost=COST):
exp_A = np.exp(-beta * p_A)
exp_B = np.exp(-beta * p_B)
total_exp = exp_A + exp_B
share_A = exp_A / total_exp
share_B = exp_B / total_exp
profit_A = (p_A - cost) * share_A * demand
profit_B = (p_B - cost) * share_B * demand
return share_A, share_B, profit_A, profit_B

# ==========================================
# 3. LLM関連関数 (反証・仮説ステップ分離型)
# ==========================================
def extract_price(text):
numbers = re.findall(r"[-+]?\d*\.\d+|\d+", text)
if numbers:
price = float(numbers[-1])
return max(PRICE_MIN, min(PRICE_MAX, price))
return 20.0

def diagnose(firm_name, own_history, opponent_history):
"""
ステップ1: 過去のログから要因を分析し、反証を生成する
"""
if not own_history:
return "データが不足しているため、初期状態として処理します。"

prompt = f"""
あなたは市場における企業{firm_name}のデータアナリストです。
以下の過去の価格競争のログを分析し、現在の戦略の弱点と利益変動の要因を診断してください。

【自社({firm_name})の履歴】
{own_history}

【競合相手の履歴】
{opponent_history}

分析要件:
1. 前回の利益の増減が「シェアの変動」によるものか「マージン(価格-コスト)の変動」によるものかを特定すること。
2. 現在の自社戦略に対する反証（例: 価格を下げすぎている、相手のアンダーカットに無防備である等）を1段落で提示すること。
"""

response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "あなたはデータ駆動型で論理的に分析を行う専門家です。"},
{"role": "user", "content": prompt}
],
temperature=0.3 # 分析は決定論的に寄せる
)
return response.choices[0].message.content

def propose_next_price(firm_name, diagnosis_result, own_history):
"""
ステップ2: 診断結果（反証）を受け取り、次ターンの価格（仮説）を生成する
"""
prompt = f"""
あなたは市場における企業{firm_name}の価格決定アルゴリズムです。
市場の総需要は1000、製品コストは10円です。価格は10〜30円の間で設定します。

【過去の自社履歴】
{own_history}

【直近の診断結果（反証）】
{diagnosis_result}

上記の分析に基づき、弱点を克服するための次ターンの価格を決定してください。
提案の理由（仮説）を述べた後、必ず文章の最後に「設定価格: X」という形式で数値を出力してください。
"""

response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "あなたは利益最大化を目的とする経済学エージェントです。"},
{"role": "user", "content": prompt}
],
temperature=0.7 # 仮説生成には適度なランダム性を持たせる
)

response_text = response.choices[0].message.content
price = extract_price(response_text)
return price, response_text

# ==========================================
# 4. 進化ループ実行
# ==========================================
B_MODE = "llm"
FIXED_PRICE_B = 15.0
GENERATIONS = 5

history_log = {
"price_A": [], "price_B": [],
"share_A": [], "share_B": [],
"profit_A": [], "profit_B": [],
"delta_p": [], "total_profit": []
}
str_history_A = ""
str_history_B = ""

print("\nシミュレーションを開始します...")

for gen in range(GENERATIONS):
print(f"\n========== 世代 {gen + 1} ==========")

# --- 企業Aの処理プロセス ---
print(f"[企業Aの処理]")
diagnosis_A = diagnose("A", str_history_A, str_history_B)
print(f" > 診断完了: {diagnosis_A[:60]}...")
p_A, reason_A = propose_next_price("A", diagnosis_A, str_history_A)

# --- 企業Bの処理プロセス ---
if B_MODE == "fixed":
p_B = FIXED_PRICE_B
print(f"[企業Bの処理] 固定価格戦略 ({p_B}円)")
else:
print(f"[企業Bの処理]")
diagnosis_B = diagnose("B", str_history_B, str_history_A)
print(f" > 診断完了: {diagnosis_B[:60]}...")
p_B, reason_B = propose_next_price("B", diagnosis_B, str_history_B)

# --- 市場シミュレーション実行 ---
share_A, share_B, profit_A, profit_B = calculate_market(p_A, p_B)

delta_p = p_A - p_B
total_profit = profit_A + profit_B

history_log["price_A"].append(p_A)
history_log["price_B"].append(p_B)
history_log["share_A"].append(share_A)
history_log["share_B"].append(share_B)
history_log["profit_A"].append(profit_A)
history_log["profit_B"].append(profit_B)
history_log["delta_p"].append(delta_p)
history_log["total_profit"].append(total_profit)

print(f"\n[結果] 価格 -> A: {p_A:.2f}円, B: {p_B:.2f}円 (Δp: {delta_p:.2f}円)")
print(f"[結果] 利益 -> A: {profit_A:.2f}, B: {profit_B:.2f} (市場全体: {total_profit:.2f})")

str_history_A += f"世代{gen+1}: 自社価格={p_A:.2f}, 相手価格={p_B:.2f}, 自社シェア={share_A:.2f}, 自社利益={profit_A:.2f}\n"
str_history_B += f"世代{gen+1}: 自社価格={p_B:.2f}, 相手価格={p_A:.2f}, 自社シェア={share_B:.2f}, 自社利益={profit_B:.2f}\n"

time.sleep(2) # 複数回APIを呼ぶため少し長めに待機

# ==========================================
# 5. ログの可視化
# ==========================================
epochs = range(1, GENERATIONS + 1)
plt.figure(figsize=(12, 10))

plt.subplot(2, 2, 1)
plt.plot(epochs, history_log["price_A"], label='Firm A Price', marker='o')
plt.plot(epochs, history_log["price_B"], label='Firm B Price', marker='x')
plt.title('Price Evolution')
plt.xlabel('Generation')
plt.ylabel('Price')
plt.legend()

plt.subplot(2, 2, 2)
plt.plot(epochs, history_log["delta_p"], label='Δp (A - B)', marker='s', color='purple')
plt.axhline(0, color='gray', linestyle='--')
plt.title('Price Difference (Δp = p_A - p_B)')
plt.xlabel('Generation')
plt.ylabel('Price Difference')
plt.legend()

plt.subplot(2, 2, 3)
plt.plot(epochs, history_log["share_A"], label='Firm A Share', marker='o')
plt.plot(epochs, history_log["share_B"], label='Firm B Share', marker='x')
plt.title('Market Share')
plt.xlabel('Generation')
plt.ylabel('Share')
plt.ylim(0, 1)
plt.legend()

plt.subplot(2, 2, 4)
plt.plot(epochs, history_log["profit_A"], label='Firm A Profit', marker='o')
plt.plot(epochs, history_log["profit_B"], label='Firm B Profit', marker='x')
plt.plot(epochs, history_log["total_profit"], label='Total Market Profit', marker='D', color='green', linestyle='-.')
plt.title('Profit Evolution (Individual & Total)')
plt.xlabel('Generation')
plt.ylabel('Profit')
plt.legend()

plt.tight_layout()
plt.show()


import numpy as np
import matplotlib.pyplot as plt

# ==========================================
# 1. 市場パラメータと関数
# ==========================================
TOTAL_DEMAND = 1000
COST = 10
BETA = 0.3

def calculate_market(p_A, p_B, beta=BETA, demand=TOTAL_DEMAND, cost=COST):
exp_A = np.exp(-beta * p_A)
exp_B = np.exp(-beta * p_B)
total_exp = exp_A + exp_B
share_A = exp_A / total_exp
share_B = exp_B / total_exp
profit_A = (p_A - cost) * share_A * demand
profit_B = (p_B - cost) * share_B * demand
return share_A, share_B, profit_A, profit_B

# ==========================================
# 2. 価格差(Δp)スイープ実験
# ==========================================
fixed_p_B = 22.0 # 企業Bの価格を固定（基準価格）
delta_p_array = np.linspace(-5, 5, 100) # Δp (A - B) を -5 から +5 まで連続的に変化

# 記録用リスト
margins_A = []
shares_A = []
profits_A = []
profits_B = []
total_profits = []

for dp in delta_p_array:
p_A = fixed_p_B + dp

# 市場計算
s_A, s_B, prof_A, prof_B = calculate_market(p_A, fixed_p_B)

# 指標の分解と記録
margin_A = p_A - COST
margins_A.append(margin_A)
shares_A.append(s_A)

profits_A.append(prof_A)
profits_B.append(prof_B)
total_profits.append(prof_A + prof_B)

# ==========================================
# 3. ログの可視化 (曲線による構造分析)
# ==========================================
plt.figure(figsize=(15, 5))

# ① マージンとシェアのトレードオフ
plt.subplot(1, 3, 1)
plt.plot(delta_p_array, margins_A, label='Margin (p_A - Cost)', color='blue')
# 視認性のためシェアをスケールして重畳表示（本来は0.0〜1.0）
plt.plot(delta_p_array, [s * 20 for s in shares_A], label='Share (Scaled x20)', color='orange')
plt.axvline(0, color='gray', linestyle='--', alpha=0.5) # 価格差0のライン
plt.title('Trade-off: Margin vs Share')
plt.xlabel('Price Difference Δp (A - B)')
plt.ylabel('Value')
plt.legend()

# ② 自社利益と相手利益の推移
plt.subplot(1, 3, 2)
plt.plot(delta_p_array, profits_A, label='Firm A Profit', color='blue')
plt.plot(delta_p_array, profits_B, label='Firm B Profit', color='red')
plt.axvline(0, color='gray', linestyle='--', alpha=0.5)
plt.title('Individual Profits')
plt.xlabel('Price Difference Δp (A - B)')
plt.ylabel('Profit')
plt.legend()

# ③ 個別利益 vs 市場全体利益
plt.subplot(1, 3, 3)
plt.plot(delta_p_array, profits_A, label='Firm A Profit', color='blue')
plt.plot(delta_p_array, total_profits, label='Total Market Profit', color='green', linestyle='-.')
plt.axvline(0, color='gray', linestyle='--', alpha=0.5)

# Aの利益が最大になるΔpを算出してプロット
max_profit_A_idx = np.argmax(profits_A)
optimal_dp = delta_p_array[max_profit_A_idx]
plt.axvline(optimal_dp, color='blue', linestyle=':', label=f'Max Profit A (Δp={optimal_dp:.1f})')

plt.title('Firm A Profit vs Total Profit')
plt.xlabel('Price Difference Δp (A - B)')
plt.ylabel('Profit')
plt.legend()

plt.tight_layout()
plt.show()

# 数値の出力
print(f"--- 解析結果 (基準価格 p_B = {fixed_p_B}円, β = {BETA}) ---")
print(f"自社(A)の利益が最大になる価格差: Δp = {optimal_dp:.2f}円")
print(f"その時のマージン: {fixed_p_B + optimal_dp - COST:.2f}円")
print(f"その時のシェア: {shares_A[max_profit_A_idx]:.2f}")

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年2月6日2026年2月6日

LLMでの「世界モデル（簡易版）」を自作してみました

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

LLMでの「世界モデル（簡易版）」を自作してみました

昨今のAIは文字の生成や画像、動画の生成は目を見張るものがあります。

しかし、人間のように物理世界を理解して動くのはまだまだ苦手です。

例えば、人は前から車が来たら、「どっちに来るかな。来ない方に避けよう」と思うでしょう。
AIにはそれがまだ理解できない。

単純に人間社会のさまざまな現象を学習していないからです。

これらを理解し、頭の中でシミュレーションできるのが世界モデル。

ここでは、開発環境に制限があるので、簡易的な世界モデルを実装してみようと。

そんな好奇心から始まったプロジェクトをご紹介します。

Google Colab上でTransformerを一から実装し、環境のルールを学習させ、脳内シミュレーションだけで迷路を突破する。

最初は何も知らなかったAIが、物理法則を学び、不確実性を理解し、最後にはゴールへ駆け込むまでの進化の記録を共有します。

技術的な工夫と、AIの成長プロセスをぜひご覧ください。

世界モデル（World Model）とは？

今回実装したのは、「世界モデル」と呼ばれるAIアーキテクチャです。
簡単に言えば、AIの中に「現実世界のシミュレーター（脳）」を作ることです。

従来のAI：画面を見て、反射的にボタンを押す。
世界モデル：画面を見て、「もし右へ行ったらどうなるか？」を脳内で予測（Dreaming）してから、最善の手を選ぶ。

今回は、この脳の部分にLLM（大規模語言モデル）の基盤技術であるTransformerを使用しました。
「次の単語」を予測するように、「次の画面（盤面）」を予測させるアプローチです。

第1の進化物理法則の習得と「夢」の可視化

最初のステップは、AIに「この簡易ゲーム世界（Minigrid環境）」のルールを教えること。

5×5のシンプルな部屋でエージェントをランダムに動かし、そのデータをTransformerに学習させます。

課題と解決：データの可視化

実装初期、学習は順調に進んでいる（Lossが低下している）のに、生成された予測画像が真っ黒に見えるという現象に直面。

これはMinigridのデータ形式が「RGB画像」ではなく「ID（小さな整数値）」で構成されていたためでした。

ここで「値を30倍にスケーリングして可視化する」という調整に変更。

その結果、真っ黒だった画面から、AIが描いた鮮明な「夢」が浮かび上がりました。
AIは壁の位置や、自分の動きに合わせて景色が変わる法則を、完璧に理解していたのです。

第2の進化不確実性への適応

次なる挑戦は、難易度を一気に上げた「動くモンスター（青い丸）」がいる環境への適応です。
自分（エージェント）の動きは決まっていますが、モンスターはランダムに動きます。

確率的な未来予測

ここで非常に興味深い現象が観測されました。AIが生成した数手先の予測画像が、ぼんやりと「分身」したようになったのです。
これはAIの混乱ではなく、その事象に合った適合でした。

「右に来るかもしれないし、左かもしれない」

AIは不確実な未来に対し、一点に賭けるのではなく、可能性の重ね合わせとして確率的に世界を捉えるようになりました。
この「ぼやけた影」こそが、AIがランダム性を理解した証拠でしょう。

第3の進化生存戦略から「ゴール」へ

世界を理解したAIに、いよいよゲームをプレイさせます。

手法はモデル予測制御（MPC）。
行動する前に脳内で複数のパラレルワールドをシミュレーションし、ベストな未来を選ぶ方法です。

段階的な最適化プロセス

Phase 1: 慎重な生存戦略
最初に実装したプランナーは「生存」を最優先しました。
予測画像内のエージェントの有無を判定基準にしたところ、AIは「絶対に死なない動き」をマスター。
しかし、リスクを回避するあまり、安全地帯から動こうとしない「慎重さ」も見られました。

Phase 2: ロジカルな評価への転換

より積極的な動きを引き出すため、評価関数をアップデート。
「色のピクセル数」を見る曖昧な判定から、「オブジェクトIDと座標計算」による論理的な判定へ変更。

「モンスターから2マス以上離れているか？」といった正確な状況判断が可能になり、AIの動きに迷いがなくなりました。

Phase 3 Hero Mode

最後に、ゴールへ向かう「意志」を強化。

探索空間の最適化：「ドアを開ける」などの不要な行動選択肢を排除し、移動のみに集中。
思考の深化：シミュレーション回数を200回に増加し、読みの深さも強化。
報酬設計：ゴール到達へのインセンティブを最大化し、恐怖を乗り越える動機付けを強化。

最終結果 33ステップの完全勝利

すべての調整を終えた「Hero Mode」での実行結果です。

制限時間が100ステップある中、AIはわずか33ステップでゴールに到達。

生成されたGIFアニメーションには、迫りくる青いモンスターを最小限の動きで華麗にかわし、最短ルートで緑色のゴールへ突き進むエージェントの姿が記録されていました。

それはもはや単純なゲームの攻略ではなく、自ら思考し、目的を達成する真の姿です。

まとめ

今回のプロジェクトを通じて、特別なスーパーコンピュータがなくても、「世界を理解し、自ら行動計画を立てるAI」を簡易的に実装できることがわかりました。

見る：状態をトークンとして認識する
学ぶ：物理法則と不確実性を学習する
夢見る：未来をシミュレーションする
叶える：最適な行動を選択し、現実を変える

この4つのステップは、ゲーム攻略だけでなく、ロボティクスや自動運転など、あらゆるAIエージェントの基本となる技術です。

今回はごく単純なゲームで学ぶ世界モデルでしたが、これの規模を拡大して、さらなる発展系の「世界モデル」も作っていくつもりです。

LLMの中で「世界モデル」が十分に認識できてくれば、AGIへの進化もまた一歩近くなるでしょう。

今回使用したPythonコード

＊表示のバグでインテントが崩れています。
コピーしてお気に入りのAIに直してもらってください。

全部載せるとアレなので、初期の一部です。
ご参考までに。


!pip install gymnasium minigrid torch numpy matplotlib

import torch
import torch.nn as nn
import torch.optim as optim
import gymnasium as gym
import minigrid
from minigrid.wrappers import ImgObsWrapper
import numpy as np
import matplotlib.pyplot as plt
import random

# --- 設定 ---
ENV_ID = "MiniGrid-Empty-5x5-v0" # シンプルな5x5の部屋
SEQ_LEN = 10 # 学習するシーケンス長
BATCH_SIZE = 32
EMBED_DIM = 64
N_HEAD = 4
N_LAYER = 2
LR = 1e-3
EPOCHS = 500
DATA_COUNT = 1000 # 収集するステップ数

# デバイス設定
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# --- 環境とトークン化の準備 ---
# グリッドの各セル(3チャンネルの値)を1つの整数トークンに変換する簡易ハッシュ関数
def state_to_tokens(state):
# state shape: (H, W, 3) -> 平坦化
return state.flatten().tolist()

# 逆変換（可視化用）
def tokens_to_state(tokens):
# 5x5グリッド, 3チャンネル (Minigridの仕様に合わせる)
return np.array(tokens).reshape(7, 7, 3).astype(np.uint8)

# 環境テストと次元確認
env = gym.make(ENV_ID, render_mode="rgb_array")
env = ImgObsWrapper(env)
obs, _ = env.reset()
obs_dim = len(state_to_tokens(obs)) # トークン列の長さ (7*7*3 = 147)
vocab_size = 256 # ピクセル値やIDは0-255の範囲
act_vocab_size = env.action_space.n

print(f"Observation Token Length: {obs_dim}")
print(f"Action Space: {act_vocab_size}")

# --- データセット収集 (Data Collection) ---
print("Collecting trajectories...")
dataset = []
buffer = []

obs, _ = env.reset()
for _ in range(DATA_COUNT):
action = env.action_space.sample() # ランダムに行動
next_obs, reward, terminated, truncated, _ = env.step(action)

# データを保存: [現在の状態トークン列, 行動]
tokens = state_to_tokens(obs)
dataset.append((tokens, action, state_to_tokens(next_obs)))

obs = next_obs
if terminated or truncated:
obs, _ = env.reset()

print(f"Collected {len(dataset)} transitions.")

# --- Transformer 世界モデル定義 ---
class WorldModel(nn.Module):
def __init__(self, obs_len, vocab_size, act_vocab_size, embed_dim, n_head, n_layer):
super().__init__()
self.obs_len = obs_len

# 埋め込み層
self.token_embedding = nn.Embedding(vocab_size, embed_dim)
self.action_embedding = nn.Embedding(act_vocab_size, embed_dim)
self.pos_embedding = nn.Parameter(torch.zeros(1, obs_len + 1, embed_dim)) # +1はAction用

# Transformer Decoder
encoder_layer = nn.TransformerEncoderLayer(d_model=embed_dim, nhead=n_head, batch_first=True)
self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=n_layer)

# 出力ヘッド: 次の状態の各トークンを予測
self.head = nn.Linear(embed_dim, vocab_size)

def forward(self, obs_tokens, action):
# obs_tokens: (Batch, Obs_Len)
# action: (Batch, 1)

# 状態の埋め込み
obs_emb = self.token_embedding(obs_tokens) # (B, Obs_Len, Dim)

# 行動の埋め込み
act_emb = self.action_embedding(action).unsqueeze(1) # (B, 1, Dim)

# 入力シーケンス結合: [状態..., 行動]
x = torch.cat([obs_emb, act_emb], dim=1) # (B, Obs_Len + 1, Dim)

# 位置エンコーディング加算
x = x + self.pos_embedding[:, :x.size(1), :]

# Transformer処理
x = self.transformer(x)

# 次の状態予測 (行動トークン部分を使って次の全状態を予測するのは簡易版として、
# ここではTransformerの出力全体から次の状態を回帰させる簡易構成をとります)
# 本来はAutoregressiveに1トークンずつ予測しますが、今回は一括予測で簡略化します。

# 入力の各位置の情報を使って、「次の状態の各位置」を予測するよう学習させるため、
# 状態部分の出力を使います。
logits = self.head(x[:, :self.obs_len, :]) # (B, Obs_Len, Vocab)
return logits

model = WorldModel(obs_dim, vocab_size, act_vocab_size, EMBED_DIM, N_HEAD, N_LAYER).to(device)
optimizer = optim.Adam(model.parameters(), lr=LR)
criterion = nn.CrossEntropyLoss()

# --- 学習ループ ---
print("Starting training...")
loss_history = []

for epoch in range(EPOCHS):
# バッチ作成
batch = random.sample(dataset, BATCH_SIZE)

obs_batch = torch.tensor([b[0] for b in batch], dtype=torch.long).to(device)
act_batch = torch.tensor([b[1] for b in batch], dtype=torch.long).to(device)
next_obs_batch = torch.tensor([b[2] for b in batch], dtype=torch.long).to(device)

optimizer.zero_grad()

# 予測
pred_logits = model(obs_batch, act_batch) # (B, Obs_Len, Vocab)

# Loss計算 (Flattenして計算)
loss = criterion(pred_logits.reshape(-1, vocab_size), next_obs_batch.reshape(-1))

loss.backward()
optimizer.step()

loss_history.append(loss.item())

if epoch % 50 == 0:
print(f"Epoch {epoch}, Loss: {loss.item():.4f}")

plt.plot(loss_history)
plt.title("World Model Training Loss")
plt.show()

# --- ドリーミング (Dreaming/Simulation) ---
# 実際の環境を使わず、学習したモデルだけで未来を予測するテスト
print("Dreaming future steps...")

# 初期状態
env.reset()
start_obs, _, _, _, _ = env.step(env.action_space.sample())
current_tokens = torch.tensor([state_to_tokens(start_obs)], dtype=torch.long).to(device)

fig, axes = plt.subplots(1, 6, figsize=(15, 3))
axes[0].imshow(start_obs)
axes[0].set_title("Start (Real)")
axes[0].axis('off')

# 5ステップ先まで「夢」を見る
for i in range(5):
# ランダムな行動を決定（ポリシーがあればそれを使う）
action = torch.tensor([env.action_space.sample()], dtype=torch.long).to(device)

# 世界モデルで次の状態を予測
with torch.no_grad():
pred_logits = model(current_tokens, action)
# 最も確度の高いトークンを選択 (Greedy decoding)
next_tokens = torch.argmax(pred_logits, dim=2)

# 予測された状態を画像に戻して表示
img = tokens_to_state(next_tokens.cpu().numpy()[0])
axes[i+1].imshow(img)
axes[i+1].set_title(f"Dream Step {i+1}")
axes[i+1].axis('off')

# 現在の状態を更新（現実の観測は使わない！）
current_tokens = next_tokens

plt.show()
print("Visualization: 左端が実際の初期状態。右へ続く画像は、モデルが脳内で想像した未来の遷移です。")

# --- ドリーミング (Dreaming/Simulation) ---
print("Dreaming future steps...")

# 初期状態
env.reset()
start_obs, _, _, _, _ = env.step(env.action_space.sample())
current_tokens = torch.tensor([state_to_tokens(start_obs)], dtype=torch.long).to(device)

fig, axes = plt.subplots(1, 6, figsize=(15, 3))

# ★修正ポイント: 画像を30倍して表示（IDを見える明るさにするため）
axes[0].imshow(start_obs * 30)
axes[0].set_title("Start (Real)")
axes[0].axis('off')

# 5ステップ先まで「夢」を見る
for i in range(5):
action = torch.tensor([env.action_space.sample()], dtype=torch.long).to(device)

with torch.no_grad():
pred_logits = model(current_tokens, action)
next_tokens = torch.argmax(pred_logits, dim=2)

img = tokens_to_state(next_tokens.cpu().numpy()[0])

# ★修正ポイント: ここも30倍します
axes[i+1].imshow(img * 30)
axes[i+1].set_title(f"Dream Step {i+1}")
axes[i+1].axis('off')

current_tokens = next_tokens

plt.show()
print("Visualization: 明るく補正しました。赤いブロック（エージェント）などが動くのが見えるはずです。")

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年1月21日2026年1月24日

仮想SNSで再現。その結果「勝者総取り」や「分断」がやはりおきたよという話

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

今回のテスト実験の元の論文

下記の論文に興味をもったので、google colabで簡易的に実験してみました。

“Can We Fix Social Media? Testing Prosocial Interventions using Generative Social Simulation”

https://arxiv.org/pdf/2508.03385

これは2025年8月に preprint（査読前論文）として公開されたもので、アムステルダム大学（University of Amsterdam）の研究チームが、AIエージェントを用いてSNSの根本的な構造を検証したものです。

論文の存在はYoutubeで知りました。

・論文概要

この論文では、

人工的なSNS空間を構築し、LLM（大規模言語モデル）を持ったエージェントに投稿・再投稿・フォローをさせるシミュレーションを作成。

その結果、アルゴリズム等のない最小SNSでも
① エコーチェンバー現象（同じ意見の集団化）
② 少数エリートへの集中（影響力の偏り）
③ 過激な意見の増幅（極端な発言の広がり）
が自然発生することが示されています。

また、既存の分断対策（時系列フィード・多様性重視表示・匿名化など）を実装して検証しても根本的な問題解決にはならなかった、という結論が出ています。

SNSの問題はアルゴリズムではなく構造にあるという研究

近年、SNSが社会の分断を加速させているという議論は世界中で繰り返されている。

その際、多くの場合「おすすめアルゴリズム」が原因として語られる。

しかしアムステルダム大学の研究チームは、問題の根源はもっと深いところ、SNSという仕組みそのものにあると指摘した。

彼らはAIエージェントを大量に用いた仮想社会を構築し、極めて単純な機能しか持たないSNS空間でも、エコーチェンバー（同じ意見の集団化）や影響力の集中が自然発生することを示した。

つまり「アルゴリズムが偏らせている」のではなく、「人が同質な相手と繋がり、拡散できる設計自体」が分断を生む装置になっているという主張である。

この考え方に強い興味を持ち、私はGoogle Colab上で簡易的なSNSシミュレーションを作り、段階的に構造を変化させながら検証を行った。
本記事はその実験の記録である。

投稿・拡散・フォローだけの世界でも分断は起きるのか？

今回のテーマは「人間らしい複雑なSNS」ではなく、最小構造のSNS社会を作ることだった。

エージェントに許した行動はほぼこれだけ。

* 投稿する
* 他人の投稿を見る
* 共感したものに反応する
* 作者に好感を持つ（疑似フォロー）

アルゴリズム的な賢さは一切入れていない。高度な推薦も、広告ターゲティングも無し。
それでも分断や格差が起きるなら、「問題は設計そのものにある」という論文の仮説を裏付けることになる。

Phase1　まず匿名SNSでは格差はほとんど生まれなかった

最初は完全匿名環境で実験した。
投稿には作者情報を持たせず、エージェントは内容（stance）の一致だけでlikeする。

結果

* 投稿数は多いが人気は比較的均等
* Post Gini 約0.33
* Agent格差ほぼ無し

誰が書いたか分からない世界では、評価は「発言単位」にしか蓄積されないため、個人への人気集中が起こらない。これは重要なベースラインになった。

Phase2　投稿者がわかるだけで偏りは始まる

次に作者IDをわかるようにし、likeした相手に親和性を持つ仕組みを追加。

すると

* 少しずつ同じ作者に反応が集まり始める
* ただしまだ大きな勝者は生まれない
* Agent Gini 0.13

人が見えるだけで「好みの人に寄る」挙動が出るが、この段階ではまだSNS特有の爆発的格差には至らなかった。

Phase2.5　露出バイアスを入れた瞬間に勝者総取りが発生

ここで現実SNSの核心要素を追加した。

それはこれ。
「人気投稿ほど表示されやすくする（露出バイアス）」

すると社会は一変した。

* Post Gini 0.55まで上昇
* Agent Gini 0.40
* ロングテール出現
* 一部投稿だけが異常に伸びる

アルゴリズムではなく「人気を参照するだけ」で、勝者総取り構造が自動発生した。

「人気→露出→さらに人気」の自己強化ループに拍車

この段階で明確になったのは、SNSは本質的にポジティブフィードバック機械であるという点だ。

1. 共感される
2. 多く表示される
3. さらに共感される
4. 著名人、人気インフルエンサーなどの人気が信頼を強化

このループは自然に格差を固定し、少数の注目される人たちに人気を集中させる。
結果、勝者の総取りが派生する。

Phase3　反対意見を20%混ぜる介入は本当に効くのか？

分断対策としてよく語られる「異なる意見を見せる」施策を実装。
フィードの20%を強制的に反対側から表示させた。

結果　分断は止まらず、投稿格差はむしろ崩壊レベルへ
驚くべき結果になった。

反対意見は評価されないため、結局「同じ少数の投稿」だけにlikeが集中し続け、露出バイアスと組み合わさってバズが暴走した。

SNSを直すのではなく「交流の設計」を変える必要性

ここまでの実験で分かったのは、「炎上を減らす」「反対意見も見せる」「ランキングを隠す」といった小手先の手当てが、根っこの駆動力を止められないという事実だ。

なぜならSNSの分断や勝者総取りは、特定のアルゴリズムが悪さをした結果ではなく、もっと基本の構造、人が繋がり、反応し、拡散できるという設計が生む自然現象だからである。

今回のPhase2.5で最も強烈だったのは、露出バイアス（人気者がより見られる）が入った瞬間に、投稿格差と影響力格差が一気に立ち上がった点だ。

これは「プラットフォームが誰かを意図的に優遇した」というより、人気を参照した瞬間に避けられない自己強化ループが生まれることを意味する。

人気は人気を呼び、露出は露出を呼ぶ。

つまり人が集まり、盛り上がっているものを見せるという当たり前の設計が、格差を自動生成するエンジンになってしまう。

SNSが商業ものである以上、それは仕方のない設計だろう。広告をより多く表示することが、運営側の使命なのだから。

では「露出の偏りを抑えれば良い」のかというと、それも単純ではない。

Phase3の反対意見20%混入は、分断を抑えるつもりの介入が、投稿レベルの集中を壊滅的に悪化させた。

ここから見えるのは、SNSにおける問題は「何を表示するか」だけでなく、「表示されたものに人がどう反応するか」まで含めたループ全体で決まるということだ。

反対意見を見せても、人は必ずしも反対側に歩み寄らない。
むしろ反発・無視・不信につながりやすい。

その結果、誰も評価しない投稿が大量に流れ込み、評価は少数発言者の人気投稿へさらに収束し、露出バイアスがその収束を加速する。

この構造を止めるには、SNS内の「接続（connection）」と「反応（feedback）」の設計そのものを変える必要があるだろう。

しかし、商業上、それは不可能な話だ。なぜなら、SNSはボランティアでの運営ではなく、商取引されている場だからだ。

要するに、「SNSを直す」というのは、壊れた機械のネジを締め直すような単純な話ではない。

構造が自然に生み出す現象を、別の構造に置き換える話である。
接続・反応・拡散・露出。このループをどう設計するかが、SNS社会の空気そのものを決めてしまうだろう。

分断はソフトではなくハード（仕組み）で生まれている

今回のColabでの実験は、元論文が示した結論を、極限まで単純化した形で追体験させてくれた。

重要なのは、ここで起きたことが「誰かが悪意を持って操作した結果」ではなく、ルールがそうさせたという点だ。

匿名での投稿は安定。
非匿名（誰が書いたかわかる）で偏り。
人気投稿の露出で暴走。
反対意見の介入でさらに崩壊。

この4行は、SNSがどこから来るのかを、段階的に切り分けた観察記録になっている。

詳しく見ると、
まず匿名環境では、人気は発言にしか蓄積されず、人に固定されない。
そのためインフルエンサー構造が立ちにくい。
ここでは格差は限定的で、システムは比較的安定する。

次に非匿名（誰が書いたかわかる）を入れると、好きな相手に反応するという自然な行動が生まれ、関係が偏り始める。

ただしこの段階では、まだ爆発的な勝者総取りにはならない。
理由は簡単で、「偏り」があっても増幅装置が無いからだ。

Phase2.5で露出バイアスを入れた瞬間、偏りは増幅に変わる。

人気者の露出が増え、露出増がさらに人気を増やし、格差が自己強化する。

ここで初めて、現実SNSで見慣れたロングテールと、一部投稿の爆発的バズが立ち上がった。

つまり、勝者総取りを生む本体は「露出が人気を参照する」構造である。
アルゴリズムが高度かどうかは副次的で、参照してしまった時点で方向性が決まる。

そしてPhase3の反対意見の介入は、さらに重要な示唆を与えた。

反対意見を混ぜることは、直感的には健全そうに見える。
だがエージェントが賛成側にしか反応しないという条件の下では、反対意見の露出は評価につながらない。

評価されない投稿が大量に流れ込み、評価はさらに少数へ収束し、露出バイアスが収束を極端化する。

その結果、投稿格差（Post Gini）がほぼ最大級に達した。
これは「意見の多様性を増やした」つもりが、「評価の集中」をむしろ強める可能性があるということだ。

今回学んだ教訓

ここから導ける教訓は、SNSの介入は表示をいじれば良いという単純な話ではなく、ループ全体の力学を変えなければならないという点である。

現実社会で分断が拡大しにくいのは、制度・文化・時間・コストといったブレーキが多層的に存在するからだ。
学校や職場、地域のコミュニティでは、いろんな人たちが混在する。

つまり、自然と多種多様な意見の中で生活している。

ところがSNSは、そのブレーキを意図せず取り外した設計になっている。

好意を持った意見の人との交流がメインで、反対意見は表示されにくい。

ではどうすればいいのか

強調したいのは、SNSが？？？と言いたいわけではないということだ。

SNSは非常に強力な道具で、情報流通や発見の速度を上げ、多くのメリットを生んだ。

問題は、強力な道具には強い反作用がつきものであり、その反作用が構造由来である以上、部分的な調整では根本解決しないという点である。
（まあ、商業商品である以上、解決する必要はないのかも知れない）

もし再設計するのなら、その中心はアルゴリズムの微調整ではない。

接続と反応と拡散が作るフィードバック・ループ。
そのハードをどう組むかで決まってくるのだろう。

今回使ったPythonコード

上からPhase１で全Phase３まであります（Phase2.5含む）。
順番に実行するとわかりやすいです。

＊表示のバグで、インテントが崩れてます。
このままコピーして、GPT5先生（おのおのお気に入りAI）に「インテント直して」と言って修正してもらってください。

実行した結果は数値で出ますので、またGPT5先生に聞いてください。
いい感じに解析してくれます。

Phase１

# -*- coding: utf-8 -*-
"""

# Phase1: 完全匿名SNSシミュレーション（最小構成）

このノートブックは、**投稿者が誰かわからない完全匿名SNS**で、
それでも **勝者総取り（反応集中）** が起きるかを検証する最小実験です。

- 非匿名SNSとの比較用ベースライン付き
- フォローなし
- 反応（like）のみ
- エージェントはルールベース
"""

# Cell 1: imports & seed
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

SEED = 42
random.seed(SEED)
np.random.seed(SEED)

# Cell 2: Config
N_AGENTS = 200
T_STEPS = 200
POST_PROB = 0.2
LIKE_PROB_BASE = 0.1
STANCE_NOISE = 0.05

# Cell 3: Agent initialization
agents = []
for i in range(N_AGENTS):
agents.append({
"id": i,
"stance": np.random.normal(0, 0.3)
})

# Cell 4: Simulation (anonymous)
posts = [] # each post: {post_id, stance, likes}
post_id = 0

for t in range(T_STEPS):
# posting
for a in agents:
if random.random() < POST_PROB:
posts.append({
"post_id": post_id,
"stance": a["stance"],
"likes": 0
})
post_id += 1

# reactions (anonymous, content-only)
for p in posts:
for a in agents:
sim = 1 - abs(a["stance"] - p["stance"])
prob = LIKE_PROB_BASE * max(sim, 0)
if random.random() < prob: p["likes"] += 1 # stance update (exposure) for a in agents: if posts: sampled = random.choice(posts) a["stance"] += STANCE_NOISE * np.sign(sampled["stance"] - a["stance"]) # Cell 5: Metrics likes = [p["likes"] for p in posts if p["likes"] > 0]

def gini(x):
if len(x) == 0:
return 0.0
x = np.asarray(x, dtype=np.float64).flatten() # ← ここがポイント（float化）
if np.min(x) < 0:
x = x - np.min(x)
x = x + 1e-9 # floatなのでOK
x = np.sort(x)
n = x.size
index = np.arange(1, n + 1, dtype=np.float64)
return float(np.sum((2 * index - n - 1) * x) / (n * np.sum(x)))

print("Total posts:", len(posts))
print("Gini of likes (post-level):", round(gini(likes), 3))

# Cell 6: Visualization
plt.hist(likes, bins=30)
plt.title("Distribution of Likes per Post (Anonymous SNS)")
plt.xlabel("likes")
plt.ylabel("count")
plt.show()

"""
## 期待される観察結果

- 投稿者を完全匿名にしても、
**一部の投稿に like が集中**
- 投稿単位のジニ係数は高止まり
- 勝者総取りは「人」ではなく「投稿」に宿る

次ステップ：
- 非匿名版との比較
- 擬似匿名（ハンドル固定）
- 内容クラスタ集中の検証
"""

Phase2

# -*- coding: utf-8 -*-
"""
# Phase2: 非匿名SNSシミュレーション（ID効果あり）
"""

import random, numpy as np, matplotlib.pyplot as plt
random.seed(42); np.random.seed(42)

N_AGENTS=200; T_STEPS=200; POST_PROB=0.2; LIKE_PROB_BASE=0.1; STANCE_NOISE=0.05; AFFINITY_GAIN=0.01

agents=[{"id":i,"stance":np.random.normal(0,0.3),"affinity":{}} for i in range(N_AGENTS)]

posts=[]; pid=0
for t in range(T_STEPS):
for a in agents:
if random.random()<POST_PROB:
posts.append({"post_id":pid,"author":a["id"],"stance":a["stance"],"likes":0}); pid+=1
for p in posts:
for a in agents:
sim=1-abs(a["stance"]-p["stance"])
bonus=a["affinity"].get(p["author"],0)
prob=LIKE_PROB_BASE*max(sim+bonus,0)
if random.random()<prob:
p["likes"]+=1
a["affinity"][p["author"]]=a["affinity"].get(p["author"],0)+AFFINITY_GAIN
for a in agents:
if posts:
s=random.choice(posts)
a["stance"]+=STANCE_NOISE*np.sign(s["stance"]-a["stance"])

agent_like={}
for p in posts:
agent_like[p["author"]]=agent_like.get(p["author"],0)+p["likes"]

import numpy as np
def gini(x):
x=np.asarray(x,dtype=float)+1e-9
x=np.sort(x); n=len(x); idx=np.arange(1,n+1)
return (np.sum((2*idx-n-1)*x))/(n*np.sum(x))

print("Total posts:",len(posts))
print("Agent Gini:",round(gini(list(agent_like.values())),3))

plt.hist(list(agent_like.values()),bins=30); plt.title("Likes per Agent"); plt.show()

Phase2.5

# -*- coding: utf-8 -*-
"""

# Phase2.5: 非匿名SNS + 露出バイアス（人気者がさらに見られる）

Phase2（ID + affinity）に **露出バイアス** を追加します。
現実SNSで格差が爆発しやすい「増幅装置」を再現する最小実験です。

## 追加したもの
- 各ステップで各エージェントが見る投稿（FEED_SIZE本）を作る
- 投稿の選ばれやすさ = **投稿者の累積人気（author_total_likes）** に比例
- 人気者の投稿が「より頻繁に露出」→ さらに反応が増える → 人気が加速

## 出力
- Post Gini（投稿単位の反応格差）
- Agent Gini（人単位の反応格差）←ここが跳ね上がるはず
- ヒストグラム（likes per agent）
"""

# Cell 1: Imports & Seed
import random
import numpy as np
import matplotlib.pyplot as plt

SEED = 42
random.seed(SEED)
np.random.seed(SEED)

# Cell 2: Config
N_AGENTS = 200
T_STEPS = 200
POST_PROB = 0.2

# "見る" 本数（現実SNSの「フィード」っぽさ）
FEED_SIZE = 25

# Likeの基本確率
LIKE_PROB_BASE = 0.12

# 見た投稿の影響でstanceが微調整される強さ
STANCE_NOISE = 0.03

# 好感度（擬似フォロー記憶）
AFFINITY_GAIN = 0.01

# 露出バイアスの強さ（0で無効、1で強め）
EXPOSURE_ALPHA = 1.0

# 露出の「最低保証」（人気が0でも露出される）
EXPOSURE_FLOOR = 50.0

# Cell 3: Agent initialization
agents = []
for i in range(N_AGENTS):
agents.append({
"id": i,
"stance": np.random.normal(0, 0.3),
"affinity": {},
"total_likes": 0, # 受け取った累積like（人気）
})

# Cell 4: Helpers
def gini(x):
if len(x) == 0:
return 0.0
x = np.asarray(x, dtype=np.float64).flatten()
if np.min(x) < 0:
x -= np.min(x)
x += 1e-9
x = np.sort(x)
n = x.size
idx = np.arange(1, n + 1, dtype=np.float64)
return float(np.sum((2 * idx - n - 1) * x) / (n * np.sum(x)))

def exposure_weights(posts, agents):
"""投稿がフィードに選ばれる重み（人気者ほど露出↑）"""
if len(posts) == 0:
return None
# 投稿者の累積人気
author_pop = np.array([agents[p['author']]['total_likes'] for p in posts], dtype=np.float64)
# floor + alpha * pop の形（alpha=0で完全均等露出）
w = (EXPOSURE_FLOOR + author_pop) ** EXPOSURE_ALPHA
w = np.maximum(w, 1e-9)
w = w / w.sum()
return w

# Cell 5: Simulation (non-anonymous + exposure bias)
posts = []
post_id = 0

for t in range(T_STEPS):
# 1) posting
for a in agents:
if random.random() < POST_PROB:
posts.append({
"post_id": post_id,
"author": a["id"],
"stance": a["stance"],
"likes": 0,
})
post_id += 1

if len(posts) == 0:
continue

# 2) build exposure distribution (changes as popularity changes)
w = exposure_weights(posts, agents)

# 3) each agent scrolls a feed and may like
# (feed sampled with replacement; this is enough for the effect)
post_indices = np.arange(len(posts))

for a in agents:
# sample what this agent sees
seen_idx = np.random.choice(post_indices, size=FEED_SIZE, replace=True, p=w)

# like decisions
for idx in seen_idx:
p = posts[idx]
# content similarity
sim = 1 - abs(a["stance"] - p["stance"])
sim = max(sim, 0.0)

# identity memory bonus (pseudo-follow)
bonus = a["affinity"].get(p["author"], 0.0)

prob = LIKE_PROB_BASE * max(sim + bonus, 0.0)

if random.random() < prob: p["likes"] += 1 # update popularity of author agents[p["author"]]["total_likes"] += 1 # update affinity memory a["affinity"][p["author"]] = a["affinity"].get(p["author"], 0.0) + AFFINITY_GAIN # stance update from one random seen post (light exposure drift) s = posts[random.choice(seen_idx)] a["stance"] += STANCE_NOISE * np.sign(s["stance"] - a["stance"]) # Cell 6: Metrics post_likes = [p["likes"] for p in posts if p["likes"] > 0]
agent_likes = [a["total_likes"] for a in agents]

print("Total posts:", len(posts))
print("Post Gini:", round(gini(post_likes), 3))
print("Agent Gini:", round(gini(agent_likes), 3))

top1 = np.percentile(agent_likes, 99)
share_top1 = sum([x for x in agent_likes if x >= top1]) / (sum(agent_likes) + 1e-9)
print("Top 1% share (agents):", round(share_top1, 3))

# Cell 7: Visualization
plt.hist(agent_likes, bins=30)
plt.title("Likes per Agent (Non-Anonymous + Exposure Bias)")
plt.xlabel("total likes received")
plt.ylabel("count")
plt.show()

plt.hist(post_likes, bins=30)
plt.title("Likes per Post (Non-Anonymous + Exposure Bias)")
plt.xlabel("likes")
plt.ylabel("count")
plt.show()

"""
## 使い方（おすすめ）
- まずこのまま実行して、Agent Gini が Phase2 より上がるか確認
- 次に Cell 2 の **EXPOSURE_ALPHA** を変えてみる
- 0.0 → 露出バイアス無し（Phase2に近い）
- 0.5 → 弱めの増幅
- 1.0 → 強めの増幅
- FEED_SIZE を増やすと「SNS漬け」になり格差が出やすいです

次：
- 匿名版でも「露出バイアスだけ」で格差がどれだけ出るか（構造の切り分け）
"""

Phase3

# -*- coding: utf-8 -*-
"""
# Phase3: Cross-cut Feed (20% Opposing Views Injection)
Non-anonymous SNS simulation with exposure bias + forced opposing content.
"""

# Cell 1: Config
NUM_AGENTS = 200
STEPS = 400
FEED_SIZE = 20
EXPOSURE_ALPHA = 1.0
OPPOSING_RATIO = 0.2
SEED = 42

# Cell 2: Imports
import numpy as np
import random
from collections import defaultdict
import matplotlib.pyplot as plt

# Cell 3: Gini
def gini(x):
x = np.array(x, dtype=float)
if np.amin(x) < 0:
x -= np.amin(x)
x += 1e-9
x = np.sort(x)
n = len(x)
return (np.sum((2*np.arange(1,n+1)-n-1)*x)) / (n*np.sum(x))

# Cell 4: Init agents
random.seed(SEED); np.random.seed(SEED)
agents = []
for i in range(NUM_AGENTS):
stance = random.choice([-1,1])
agents.append({"id":i,"stance":stance,"followers":set(),"likes":0})

# Cell 5: Simulation
posts = []
for step in range(STEPS):
# Post
for a in agents:
if random.random() < 0.1:
posts.append({"author":a["id"],"stance":a["stance"],"likes":1})
if not posts: continue

# Exposure weights
likes = np.array([p["likes"] for p in posts], dtype=float)
weights = likes**EXPOSURE_ALPHA
weights /= weights.sum()

for a in agents:
feed = []
# opposing injection
opp_posts = [p for p in posts if p["stance"] != a["stance"]]
same_posts = posts
n_opp = int(FEED_SIZE * OPPOSING_RATIO)
if opp_posts:
feed += random.choices(opp_posts, k=n_opp)
feed += random.choices(posts, weights=weights, k=FEED_SIZE-len(feed))

for p in feed:
if p["stance"] == a["stance"]:
p["likes"] += 1
agents[a["id"]]["likes"] += 1

# Cell 6: Metrics
post_likes = [p["likes"] for p in posts]
agent_likes = [a["likes"] for a in agents]

print("Total posts:", len(posts))
print("Post Gini:", round(gini(post_likes),3))
print("Agent Gini:", round(gini(agent_likes),3))

top = int(NUM_AGENTS*0.01)
share = sum(sorted(agent_likes, reverse=True)[:top]) / sum(agent_likes)
print("Top1% share:", round(share,3))

# Cell 7: Plot
plt.figure()
plt.hist(post_likes, bins=40)
plt.title("Likes per Post with Opposing Injection")
plt.xlabel("likes"); plt.ylabel("count")
plt.show()

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年1月16日2026年1月16日

Google DeepMindのgemma scope2の考えを使って、LLMの正答とハルシネーションを比べてみた

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

下記の記事に興味を持ったので、いろいろ調べてgoogle colabでライト実験してみました。
https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

・対象モデル：Gemma-2-2B
・解析手法：Gemma Scope 2（SAE による内部特徴解析）
・観測箇所：第12層の内部特徴（正解時 vs 誤答時の差分）
・使用環境 : google colab (T4使用)
・プロンプト出力でGPT5.2で解析

・実験内容：
正解「キャンベラ」
誤答（幻覚ハルシネーション）「シドニー」
Australia / Sydney 系特徴の過剰活性
首都＝行政（office）系特徴の不足

Google DeepMindのgemma scope2とは

Google DeepMind が公開しているGemma Scope 2（gemma scope2）は、LLM（大規模言語モデル）の「頭の中で何が起きているか」を調べるための解析手法・ツール群です。

LLMは、文章をそれっぽく作るのは得意ですが、「なぜその答えを出したのか」は普通は見えません。

gemma scope2 では、
モデル内部にある大量のニューロンの活動を、意味のある特徴（feature）として整理し、

どの概念が強く働いたのか
どの概念が弱かったのか

を比較できるようにします。

これにより、AIが正解した理由だけでなく、AIが幻覚（ハルシネーション）を起こした理由も、「考え方のズレ」として説明できるようになります。

この記事では、この gemma scope2 を使った解析結果をもとに、AIがこちらの指定した「オーストラリアの首都」を間違えた理由を見ていきます。

AIはなぜ簡単な問題を間違えたのか

「オーストラリアの首都は？」
これは学校の地理でも出てくる基本問題です。

正解はキャンベラ。
ところが、LLMが「シドニー」と答えてしまうことがあります。

この現象は一見すると、「AIがバカなミスをした」「知識がない」と思われがちです。

もちろん今回の実験に使ったGemma-2-2Bは比較的小さなモデルなので、若干のミスは出るかと思います。

しかし実際には、知識は持っているのに、考え方の順番を間違えたというケースがほとんどです。

今回の解析は、そのことをとても分かりやすく示しています。

今回起きたAIの間違いを整理しよう

まず、事実関係を整理します。

問題：オーストラリアの首都は？
正解：キャンベラ
誤答（幻覚）：シドニー

ここで重要なのは、シドニーが「完全なデタラメ」ではない点です。

シドニーはオーストラリア最大級の都市で、世界的にもよく知られています。

つまりこの誤答は、それなりに筋が通った方向にズレているのです。

この「もっともらしいズレ」こそが、LLMの幻覚（ハルシネーション）の特徴です。

AIの頭の中をのぞいてみる

gemma scope2 では、AIの内部で活動しているニューロンを、「特徴（feature）」という単位で観察します。

特徴とは、「国っぽさ」「都市っぽさ」「行政っぽさ」など、意味のかたまりを感じ取る反応だと考えてください。

今回の解析では、

正解したとき（キャンベラ）
誤答したとき（シドニー）

で、どの特徴が強くなったか／弱くなったかを比較しました。

なぜ「シドニー」が思い浮かんでしまったのか

誤答時に特に強くなっていたのが、次の特徴です。

Australia / Australian / Sydney
Australia / Australian

これは、「オーストラリア」という入力を受けた瞬間に、オーストラリアを代表する有名都市のイメージが一気に立ち上がったことを意味します。

モデル内部では、次のような流れが起きやすくなります。

オーストラリア
→ オーストラリアといえば？
→ 有名な都市
→ シドニー

ここで、本来必要な「首都を答える」という判断が後回しになります。

つまり、論理問題が連想ゲームに引っ張られた状態です。

本来、考えるべきだったこと

正解するために必要だったのは、「首都とは何か」という視点です。

首都とは、

政治の中心
行政機関が集まる場所

という役割を持っています。

解析では、office / workplace といった行政・公的機能を表す特徴が弱くなっていました。

本来あるべき思考の流れは、こうです。

オーストラリア
→ 首都（政治・行政の中心）
→ 政府・官庁
→ キャンベラ

しかし誤答時は、この「役割のルート」が弱く、「有名都市ルート」が勝ってしまいました。

このAIの間違いは「嘘」なのか？

この点はとても大切です。

今回の誤答は、AIが「嘘をついた」わけではありません。

AIは、

首都がキャンベラだという知識
オーストラリアとシドニーの強い関連性

その両方を持っています。

ただし、どちらを優先するかの判断で、関連性の方が勝ってしまった。

その結果、「一番それっぽい答え」としてシドニーを選んだ、というだけです。

人間の考え方ととてもよく似ている

これは人間にもよくあるミスです。

クイズで焦ると、「日本の都市といえば？」と聞かれていないのに、勢いで東京と答えてしまうような感覚です。

考え直せば分かるのに、最初に浮かんだ答えを止められない。

LLMの幻覚（ハルシネーション）は、こうした人間的な思い込みの近道ととてもよく似ています。

この分析からわかる大切なこと

今回の gemma scope2 による解析から、次のことが分かります。

幻覚（ハルシネーション）はランダムではない
概念の強弱で説明できる
「何が強すぎたか」「何が弱すぎたか」が重要

このケースでは、

強すぎた：オーストラリア → シドニー
弱すぎた：首都＝行政機能

このバランスの崩れが、誤答を生みました。

まとめ AIの幻覚（ハルシネーション）を正しく理解しよう

「シドニー幻覚（ハルシネーション）」は、知識不足による失敗ではありません。

起きたのは、概念の優先順位の逆転です。

首都を考えるべき場面で、「有名な都市」という連想が勝ってしまった。

gemma scope2 のような解釈可能性の手法を使えば、このズレを具体的に説明できます。

AIの幻覚（ハルシネーション）は、怖いものでも、魔法でもありません。

理解できる現象であり、理解できるからこそ、減らし方・付き合い方を考えることができます。

「AIも人間と同じような思考ミスをする」
という点を押さえておくと、AIがより身近に感じられるでしょう。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2026年1月6日2026年1月6日

LLMの各社の会話ボイスモードはなぜ違うのか

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

LLMでの会話は結構楽しいですよね。

暇つぶし、相談事、調べものなど、皆さんもいろんな用途で使っているでしょう。

そんなボイスモードですが、各社によって、声質や話し方が違いますよね。

これは何故なのか。

単純に学習量が違うのではないかと。

今回はこれを知りたくて、いろいろ試してみました。

会話ボイスモードの違い同じ文章を音声で読ませてみる

会話ボイスモードの違いを理解するうえで、いちばん早いのは「実際に聞いてみる」ことだ。
今回はGoogle Colabを使い、あらかじめ用意した短い日本語文章をTTS（Text To Speech）で音声化する、という非常にシンプルな実験から始めた。

最初に使ったのは、手軽に利用できるgTTS（Google TranslateベースのTTS）だ。
コード自体は数行で、文章をMP3として生成し、その場で再生できる。仕組みとしては何も難しくない。

しかし、実際に再生してみると、すぐに違和感があった。

これです↓↓↓

発音は正確だが、抑揚が少なく、間の取り方も均一で、全体的に「読み上げ音声」という印象が強い。
決して失敗ではないが、「会話している感じ」からは遠い。

ここで重要なのは、構成や仕組みが間違っているわけではないという点だ。

「テキスト → TTS → 音声」という流れは正しく、ボイスモードとしては成立している。
それでも人間っぽく聞こえない。
この時点で、「違いはLLMではなく、音声側にあるのではないか」という仮説が自然と浮かんできた。

TTSを変えただけで世界が変わった体験

次に行ったのは、TTSをgTTSからOpenAIのTTSに差し替えることだった。

文章は同じ。変えたのは「読む役」だけである。

結果は驚くほど明確だった。

これです↓↓↓

抑揚が自然になり、語尾の抜け方や間の入り方が、人の話し方に近づいた。
特に、「考えながら話している感じ」や「軽い感情の揺れ」が音声から伝わってくる。

この体験で強く感じたのは、ボイスモードの印象の大部分はTTSが決めているという事実だ。

LLMがどれだけ賢く文章を生成しても、それを機械的な音声で読めば、会話はロボット寄りになる。
逆に、TTSの表現力が高ければ、多少シンプルな文章でも「喋っている感覚」が生まれる。

つまり、「人間っぽさ」の正体は、知能よりも音声表現にある。

ボイスモードの正体は「LLM × TTSの分業構造」だった

この実験を通じて見えてきたのが、ボイスモードの基本構造だ。
それはよく誤解されがちだが、「LLMがそのまま喋っている」わけではない。

実際には、

LLMがテキストを生成する（何を言うか）
TTSがそれを音声に変換する（どう言うか）

という明確な分業がある。

さらに補足すると、Whisperなどの音声モデルは「読み上げ」ではなく「聞き取り」を担当する。
つまり、音声入力をテキストに戻す側だ。

Advanced Voice Modeも、この基本構造自体は同じだと考えられる。
違いがあるとすれば、TTSの品質と、テキストを音声に変換する前後の調整（間やテンポの制御）である。

この分業構造を理解すると、「なぜTTSを変えただけで印象が激変したのか」が腑に落ちる。

Googleの会話モードはなぜロボット寄りなのか

ここで疑問が湧く。

Googleは音声技術の最先端企業のひとつだ。
それなのに、なぜ会話モードは比較的ロボット寄りに聞こえるのか。
（CMなんかは特に顕著ですよね。スマホアプリで生で聞くと最近はちょっと人間寄りにしているのかな）

結論から言えば、それは技術力の問題ではなく、設計思想の問題ではないかと。

Googleの音声AIは、検索、ナビゲーション、要約、業務支援など、生活インフラに近い用途で使われる。

そこでは「感情の揺れ」や「間の個性」よりも、「安定」「一貫性」「誤解の起きにくさ」が重視される。

人間っぽさは楽しい一方で、
不安に感じる人がいる
意図を誤解されやすい
感情があるように受け取られやすい

といったリスクも抱える。

Googleはこのリスクを避けるため、あえてTTSの人間味を抑え、最大公約数的な音声体験を選んでいると考えられる。

GrokやAdvanced Voice Mode（チャッピー）が楽しい理由

一方で、GrokやAdvanced Voice Modeは、明確に「人間寄り」を選んでいる。
間があり、迷いがあり、感情の揺れがある。

これは、単に音声が上手いというだけではない。
会話そのものが価値になるという前提で設計されているからだろう。

多少クセがあってもいい。
少し人間っぽすぎてもいい。
その代わり、「話していて楽しい」ことを優先する。

Grokなんかはクセ強の代表だろう。
アニメ設定の悪ガキキャラなんかにしたら、かなりどきつい毒をはく。
忖度しない会話はそれなりに結構面白い。

一方、openAIのアドバンスボイスモードでの会話も大阪弁でキレのある会話をしてくれる（そういう設定にしているのだが）。
まるで大阪の友人としゃべっている感じだ。

これらの特徴があるからこそ、TTSの表現力を前面に出す設計が可能になる。
GrokやAdvanced Voice Modeが「人間っぽい」と言われるのも、まさにこの方向性を選んでいるからだろう。

実験してわかったこと　ボイスモードの差は学習量ではない

今回の一連の実験で、最も大きな学びはこれだ。

ボイスモードの差は、LLMの学習量や賢さの差ではない。

同じ文章でも、TTSが変わるだけで、体験はまったく別物になる。
ロボットっぽさは「未熟さ」ではなく、「設計上の選択」だったのだ。

そして、人間っぽく喋るAIが楽しいと感じる人が増えているのも事実だろう。

今後は、「正確で無感情な音声」と「人間味のある会話音声」が、用途によって明確に分かれていくのではと。

会話ボイスモードの進化は、知能の競争というより、体験設計の競争に入っている。
その入り口を、今回の小さな実験ではっきりと示してくれた。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2025年12月27日2025年12月27日

nanoGPTで５分で終わるLLMの事前学習をしてみました

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

nanoGPT　小さなLLMに挑戦した理由

近年、大規模言語モデル（LLM）の進化は目覚ましく、ChatGPTをはじめとする高性能なモデルが次々と登場しています。しかし一方で、「自分の手でLLMを育ててみたい」「中身を理解させながら学びたい」と思うかたも多いでしょう。

そこで選んだのが、比較的小規模で学習しやすいnanoGPTです。

nanoGPTとは

nanoGPT（ナノジーピーティー）とは、OpenAIのGPT系モデルの仕組みをベースにした、シンプルで小規模な言語モデル実装です。(進化版でnanoChatと言うものもあります)

もともとは、Andrej Karpathy氏によって公開された教育・研究目的のプロジェクトで、「最小構成でGPTを再現する」ことを目標に作られています。

最大の特徴は、そのシンプルさと分かりやすさにあります。
実装は数百行程度のPythonコードにまとめられており、GPTのコアとなるTransformer構造や自己注意機構が、非常に読みやすい形で書かれています。

そのため、LLMを「使う」だけでなく、「中身を理解したい」「自分で動かしてみたい」という人にとって、最高の教材になっています。

また、nanoGPTは小さなモデルサイズでも動かせるように設計されているのも大きな魅力です。

数百万〜数千万パラメータ規模のモデルであれば、個人のPCやGoogle Colabといった環境でも学習実験が可能で、「巨大なGPU環境がないと無理」というLLMの敷居を大きく下げてくれます。

本来のGPTは数百億〜数千億パラメータという桁違いの規模ですが、nanoGPTではそのミニチュア版を自分の手で動かすことができます。

これにより、
・データを入れるとどう学習が進むのか
・損失が下がるとはどういうことか
・モデルのサイズや設定で何が変わるのか
といったことを、実体験として学べます。

さらに、nanoGPTはカスタマイズの自由度も高く、データセットやトークナイザ、モデルサイズ、学習ステップ数などを自分で調整しながら、さまざまな実験ができます。

今回のように、日本語テキストを使って独自の小さなLLMを育てるといった使い方も十分可能なのです。

「事前学習」とは？ゼロから言葉を覚えさせるということ

LLM開発の最初のステップが「事前学習（Pre-training）」です。
これは、人間で言えば、まだ何も知らない人に大量の文章を読ませて、言葉や文のつながりを自然に覚えさせる段階にあたります。

質問に答えさせたり、指示に従わせたりする前に、とにかく膨大なテキストを与えて、「次に来そうな単語」を予測する訓練を繰り返します。

今回のnanoGPTの事前学習では、意味を理解させるというよりも、「日本語らしい文字の並び」や「文のリズム」を体に染み込ませることが目的でした。
ここが、その後のファインチューニングの土台になります。

学習データと準備　どんなコーパスをどう集めたか

コーパスとは、AIに言葉を覚えさせるために集めた大量の文章データのこと。

事前学習で最も重要なのがこのデータです。
今回は、日本語テキストとして定番の青空文庫を中心に使いました。

著作権が切れた文学作品が多く、文章量も十分で、日本語の文体を学ばせるには最適です。

取得したテキストは、そのままでは使えないため、不要な記号の削除や文字コードの統一など、簡単な前処理を行いました。

さらに、SentencePieceを使ってサブワード分割し、モデルが扱いやすい形に変換します。

この「データを整える作業」は地味ですが、学習の質を左右する重要な工程で、LLMづくりの裏側を強く実感する部分ですね。

実際にやってみた　nanoGPT事前学習の手順と環境

学習環境はGoogle Colabを利用しました。GPUが手軽に使えるのは大きな利点です。

手順としては、

1. リポジトリのセットアップ
2. データの配置とトークナイザ作成
3. モデルサイズやブロック長などの設定
4. 学習スクリプトの実行

という流れです。

ここで重きを置いたのは、事前学習を最後までというよりも、まず実際に体感することだと思ったので、わずか５分で終わる事前学習に設定しました。

モデルは約200万パラメータ程度の小さな構成にし、まずは「最後まで回る」ことを重視しました。
学習ログを眺めながら、損失が少しずつ下がっていくのを見ると、ひとまず安心感。

数分後、ついに事前学習が完了しました。

ここで５分で終了していますが、実際に時間があれば、これを数時間なり数日なりの時間をかけてやると更なる学習の進度が期待できます。

学習が終わって見えたことモデルは何を覚えたか

学習後、実際に文章を生成させてみると、日本語らしい文字列は出てくるものの、意味はほとんど通っていません。５分しか学習していないので当然です。

漢字とひらがなが混ざった、それっぽい文章が延々と続くだけです。

事前学習の段階では、「日本語の形」を覚えただけで、「質問に答える」能力はまだ無いのです。（おまけにたったの５分）

それでも、最初はランダムだった出力が、だんだんと日本語らしくなっていく過程を見られたのは大きな成果でした。
モデルが言語の空気を掴み始めた瞬間を、自分の環境で体験できたのは、何にも代えがたい経験です。

ファインチューニングと人格づくりへ

事前学習を終えたnanoGPTは、いわば「日本語の音や形を覚えた状態」です。しかし、まだ質問に正しく答えたり、会話らしく受け答えしたりすることはできません。
ここからが本当の意味での育成のスタートだと感じています。

次に取り組みたいのが、SFT（指示追従ファインチューニング）です。

これは、「質問」と「望ましい答え」のペアを大量に与えて、モデルに「こう聞かれたら、こう答える」という振る舞いを教える学習です。
これによって、ある程度事前学習をこなしたマシンなら、少しずつ会話ができるAIに近づいていきます。

さらに、その先にはDPOのような手法を使った「らしさ」の調整があります。

複数の答えの中から、より好ましいものを選ばせることで、丁寧な口調、分かりやすい説明、あるいは関西弁のようなキャラクター性など、「人格」と呼べる部分を形づくっていきたいと考えています。

最終的な目標は、ただ正しい答えを返すだけのAIではなく、「このAIと話したい」と思えるような、自分好みの相棒のような存在を育てることです。

小さなモデルだからこそ、試行錯誤しながら何度も作り直し、少しずつ成長させていけるのも大きな魅力です。

事前学習で作った土台の上に、ファインチューニング。

これらの実験がLLMへの理解を深めてくれるはずです。

まとめ　nanoGPT事前学習は最高の教材

今回、nanoGPTを使って事前学習を一通り回してみて感じたのは、「これは最高の教材」ということです。

巨大モデルをAPIで使うだけでは見えない、データ準備の大変さ、学習が進む感覚、そして事前学習の限界。そのすべてを自分の手で実装する。

意味の通る文章を話すAIにはまだ遠いですが、「ゼロから言語モデルを育てる」という経験は、LLMを理解する上で何よりの経験かと思います。

この土台をさらに進化させて、本当に会話できるモデルへと実現させていく。
これこそが知的好奇心を満たす最高の実験ですね。

使用したPythonコード

下記に使用したPythonコードを記します。
google colabにて実装。

５分程度で終わるように作ってあるので、お手軽に実験できるかと思います。
時間のある方はいろいろいじって、数時間、数日間と学習させてもよろしいかと。

※下記コードはインテントがくずれている場合ありです。
くずれていると動きません。

コピーして、GPT５先生に修正を投げれば直してもらえます。
ご了承のほど。


# Commented out IPython magic to ensure Python compatibility.
# -*- coding: utf-8 -*-
# @title nanoGPT 5分体験（青空文庫 BPE版）

import os, re, zipfile, urllib.request, pathlib

# 1. GPUの確認
print("=== 1. GPU環境のチェック ===")
gpu_info = os.popen('nvidia-smi').read()
if 'failed' in gpu_info:
print("⚠️ GPUが見つかりません。Colabのメニュー「ランタイム」>「ランタイムのタイプを変更」でT4 GPUなどを選択してください。")
else:
print(gpu_info)
print("✅ GPU確認OK")

# 2. nanoGPT
print("\n=== 2. nanoGPT をダウンロード中... ===")
if not os.path.exists('nanoGPT'):
!git clone https://github.com/karpathy/nanoGPT.git
# %cd nanoGPT
print("✅ nanoGPT OK")

# 3. 依存
print("\n=== 3. 必要なツールをインストール中... ===")
!pip -q install torch numpy transformers datasets tiktoken sentencepiece
print("✅ インストール完了")

# 4. 青空文庫データ準備（BPE）
print("\n=== 4. 学習用データ（青空文庫）を準備中... ===")

out_dir = pathlib.Path("data/aozora_bpe")
out_dir.mkdir(parents=True, exist_ok=True)

tmp_dir = pathlib.Path("data/_aozora_tmp")
tmp_dir.mkdir(parents=True, exist_ok=True)

# 作品ZIP（必要ならここ増やしてOK。増やすほど“青空っぽさ”が出る）
works = [
("kokoro", "https://www.aozora.gr.jp/cards/000148/files/773_ruby_5968.zip"),
("merosu", "https://www.aozora.gr.jp/cards/000035/files/1567_ruby_4948.zip"),
("rashomon", "https://www.aozora.gr.jp/cards/000879/files/127_ruby_150.zip"),
]

def clean_aozora_text(text: str) -> str:
# 5分体験用：最低限のゴミ取り（ルビ・注記など）
text = re.sub(r"《.*?》", "", text) # ルビ
text = re.sub(r"［＃.*?］", "", text) # 注記
text = re.sub(r"｜", "", text) # ルビ補助
text = re.sub(r"[ 　]+\n", "\n", text) # 行末空白
text = re.sub(r"\n{3,}", "\n\n", text) # 改行詰め
return text.strip()

all_texts = []
for name, url in works:
zip_path = tmp_dir / f"{name}.zip"
if not zip_path.exists():
print(" downloading:", url)
urllib.request.urlretrieve(url, zip_path)

with zipfile.ZipFile(zip_path, "r") as z:
txt_names = [n for n in z.namelist() if n.lower().endswith(".txt")]
if not txt_names:
raise RuntimeError(f"txt not found in {zip_path}")
member = txt_names[0]
raw = z.read(member)

# 青空は Shift_JIS 多め
try:
s = raw.decode("shift_jis")
except UnicodeDecodeError:
s = raw.decode("utf-8", errors="ignore")

s = clean_aozora_text(s)
all_texts.append(s)

data = "\n\n".join(all_texts)
(out_dir / "input.txt").write_text(data, encoding="utf-8")
print(f"✅ input.txt 作成: {out_dir/'input.txt'} 文字数={len(data):,}")

# BPE tokenizer（SentencePiece）を学習
# vocab_sizeは 4000〜8000 が無難（uint16の上限もあるので 65535以下）
vocab_size = 8000

spm_prefix = str(out_dir / "spm")
spm_model = out_dir / "spm.model"
spm_vocab = out_dir / "spm.vocab"

if not spm_model.exists():
import sentencepiece as spm
print("\n--- SentencePiece BPE tokenizer を学習中 ---")
spm.SentencePieceTrainer.train(
input=str(out_dir / "input.txt"),
model_prefix=spm_prefix,
vocab_size=vocab_size,
model_type="bpe",
character_coverage=0.9995, # 日本語寄り
bos_id=1, eos_id=2, unk_id=0, pad_id=3
)
print("✅ tokenizer 作成:", spm_model)

# tokenizerでID化 → train.bin/val.bin 作成
import numpy as np
import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load(str(spm_model))

ids = sp.encode(data, out_type=int)
print("✅ トークン数:", len(ids))

n = len(ids)
split = int(n * 0.9)
train_ids = np.array(ids[:split], dtype=np.uint16)
val_ids = np.array(ids[split:], dtype=np.uint16)

train_ids.tofile(out_dir / "train.bin")
val_ids.tofile(out_dir / "val.bin")

# meta.pkl（train.py が vocab_size を知るために必要）
import pickle
meta = {
"vocab_size": int(sp.get_piece_size()),
"sp_model_path": str(spm_model),
}
with open(out_dir / "meta.pkl", "wb") as f:
pickle.dump(meta, f)

print("✅ saved:", out_dir/"train.bin", out_dir/"val.bin", out_dir/"meta.pkl")
print("vocab_size:", meta["vocab_size"])

# Commented out IPython magic to ensure Python compatibility.
# 5. 事前学習（BPE版 / 5分体験）
# %cd /content/nanoGPT/nanoGPT

!python train.py config/train_gpt2.py \
--dataset=aozora_bpe \
--out_dir=out-aozora-bpe \
--device=cuda \
--compile=False \
--eval_interval=50 \
--eval_iters=5 \
--log_interval=10 \
--max_iters=120 \
--lr_decay_iters=120 \
--block_size=128 \
--batch_size=16 \
--n_layer=4 \
--n_head=4 \
--n_embd=128 \
--dropout=0.0 \
--wandb_log=False

# @title 推論（青空BPE / SentencePiece）

import torch
import sentencepiece as spm
from model import GPTConfig, GPT

# ===== 設定 =====
ckpt_path = "/content/nanoGPT/nanoGPT/out-aozora-bpe/ckpt.pt"
spm_model_path = "data/aozora_bpe/spm.model"
device = "cuda" if torch.cuda.is_available() else "cpu"

# ===== tokenizer =====
sp = spm.SentencePieceProcessor()
sp.load(spm_model_path)

# ===== checkpoint =====
checkpoint = torch.load(ckpt_path, map_location=device)
config = GPTConfig(**checkpoint["model_args"])
model = GPT(config)
model.load_state_dict(checkpoint["model"])
model.to(device)
model.eval()

# ===== prompt =====
prompt = "吾輩は猫である。"
ids = sp.encode(prompt)
x = torch.tensor([ids], dtype=torch.long).to(device)

# ===== generate =====
with torch.no_grad():
y = model.generate(
x,
max_new_tokens=120,
temperature=0.8,
top_k=50,
)

text = sp.decode(y[0].tolist())
print("-----")
print(text)

!pwd
!ls -lah /content/nanoGPT/out-aozora-bpe
!ls -lah /content/nanoGPT/nanoGPT/out-aozora-bpe
!find /content/nanoGPT -maxdepth 3 -name ckpt.pt -o -name best.pt

# @title ckpt.pt をローカルにダウンロードする（Colab用）

from google.colab import files
import shutil
import os

# ckpt の場所（今回確定している正しいパス）
ckpt_path = "/content/nanoGPT/nanoGPT/out-aozora-bpe/ckpt.pt"

# 念のため存在チェック
assert os.path.exists(ckpt_path), "❌ ckpt.pt が見つかりません"

# ダウンロードしやすい場所にコピー（名前も分かりやすく）
dst = "/content/aozora_bpe_ckpt.pt"
shutil.copy(ckpt_path, dst)

print("✅ 準備完了。ダウンロードを開始します")

# ダウンロード
files.download(dst)

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

2025年12月23日2025年12月23日

「国産AI開発 3兆円」の投資記事を見て

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

国産AI開発 3兆円の投資記事とは

下記の読売新聞の記事が面白かったので、思いを書いてみました。

記事の内容の要約はこれです。↓↓↓

＊＊＊＊＊＊＊＊＊＊＊

「国産AI開発目標3兆円　来春新会社　ソフトバンクなど」

ソフトバンクを中心に、
国産AI開発のための新会社を来春つくる計画。

投資規模はなんと最大3兆円レベルを目標。

日本最大級の基盤モデル（いわゆる国産LLM）を開発したい考え。

データセンター、半導体、電力、研究開発までぜんぶまとめてAI基盤を国内で整える構想。

アメリカのOpenAIやGoogleに対抗できる体制を目指す。

「ロボ向けAIに対応　国産開発で産業競争力を強化」

日本の強みであるロボット産業向けのAI を、できるだけ国産で開発していこう、という話。

海外（米国や中国）のAIに頼りすぎると、技術流出・安全保障・コスト面でリスクがある、という危機感。

産業用ロボットや工場の自動化で使える現場特化のAIを育てて、製造業の競争力を守る狙い。

政府も支援して、企業・大学と連携しながら進める方針。

要するに
「金も設備も本気出すから、日本版の最強AIつくろうや！」ってこと。

＊＊＊＊＊＊＊＊＊＊＊＊＊ここまで。２０２５年１２月　読売新聞朝刊の１面他より抜粋要約。

なぜ国産AI賛成の立場なのか

この記事について、大賛成の立場です。
えっ、今から国産LLMの開発？
という発想もあるかと思いますが、今だからチャンスなんです。

理由はひとつ。
今ならまだ追いつけるから。

これはAI、特にLLMを開発している人たち共通の認識ですが、「スケーリング則」って鈍ってるよね。
という意見が前提に立ってます。

スケーリング則とは

スケーリング則とは何か。

AIはサイズや学習量を大きくすればするほど、性能が良くなるという経験則のこと。
ここでいう「大きくする」とは、主に次の3つを増やすことを指している。

モデルのパラメータ数（AIの頭の大きさ）
学習に使うデータ量
学習にかける計算量（GPUなどの計算パワー）

これらをバランスよく増やしていくと、AIの能力もあがっていくという考え。
もっとわかりやすく言うと、単純にお金をかければかける程、AIの実力は上がっていくよねって言う考え方。

しかし、これが徐々に頭打ちになりつつあります。

先行していたOpenAIのchatGPTが先日googleのGemini3に追いつかれたのが有名な話。

まだまだスケーリング則でLLMの発展はできますが、以前のような爆発的な伸びが鈍ってきたと。

某有名なAI研究者もスケーリング則に変わる何かを求めて、「また研究の時代がやってきた」という方もいます。

なので、停滞している今が大チャンス。この機会に一気に差を縮めていくのが得策かと思われます。

そんなこんなで、下記の記事をどうぞ。

なぜ今「国産AI」が必要なのか？

新聞記事を読んでまず感じたのは、「いよいよ日本も本気で国産AIに取り組む段階にきたという強いメッセージです。

これまでAIといえば、アメリカのOpenAIやGoogle、中国の巨大IT企業の話題が中心で、日本はどこか使う側の立場に見えがちでした。

しかし、AIはこれからの社会や産業の基盤になる技術。

もしその心臓部をすべて海外に依存してしまえば、コスト、セキュリティ、そして国家としての主導権の面で大きなリスクを抱えることになる。

今回の新聞記事は、そうした危機感を背景に「自分たちのAIを自分たちで持つ」ことの重要性を、はっきり示している。

国産AIは単なる技術開発ではなく、日本の未来を守るための戦略的な一手だと感じた。

ロボット×AIは日本の十八番

日本といえば、やはりロボットと製造業です。

これは世界に誇れる強みです。工場の産業ロボット、精密機械、品質管理のノウハウは、長年積み上げてきた貴重な財産です。
これにAIが本格的に組み合わされば、競争力は一気に高まるでしょう。

海外製AIをそのまま使うだけでは、日本の現場特有の細かな要求や安全基準、職人技のような感覚まで十分に活かしきれないことも少なくありません。

だからこそ、日本の産業現場を知り尽くした企業や研究者がつくる「現場目線の国産AI」が必要なのです。

ロボット×AIという日本の強みを磨き直すことは、製造業の復活だけでなく、次世代の雇用や技術者育成にもつながります。
ここに国産AIの大きな価値があると思います。

3兆円投資のインパクト本気度が違う国産AI構想

ソフトバンクなどが中心となって進める、最大3兆円規模の国産AI投資。

正直に言って、この数字を見たとき「始めるのが遅いけど、ついに本気を出したか」と思いました。

AIの基盤モデル開発、データセンター整備、半導体、電力インフラまで含めた構想は、もはや一企業のプロジェクトを超えた国家レベルの次元です。

この規模の投資があれば、世界と競える研究環境を国内につくることも夢ではありません。
（とは言え、世界レベルで見たら、まだまだ投資額は少ないでしょう）

しかし、人材が集まり、技術が蓄積され、次のスタートアップや新産業が生まれる土壌にはなるでしょう。

「どうせ海外には勝てない」と最初から諦めるのではなく、「勝ちに行く舞台を自分たちで用意する」。
この姿勢こそが、今回の構想の最大の価値だと感じます。

製造業・医療・インフラ　広がる国産AIの可能性

国産AIの活躍の場は、工場だけにとどまりません。

医療では診断支援や病院業務の効率化、インフラでは老朽化した設備の点検や災害対策、農業では収穫予測や自動化など、日本ならではの課題は数多くあります。

特に高齢化が進む日本にとって、AIによる省力化や支援は社会を支える重要な鍵になります。

日本の制度、言語、文化、現場の実情に合ったAIを国内で育てられれば、その効果は計り知れません。

国産AIは単なる技術競争ではなく、「日本の社会課題を日本の知恵で解く」ための道具です。そこに大きな意味があるのではないでしょうか。

まとめ

今回の新聞記事が伝えているのは、「日本はもう一度、技術で世界と勝負する」という宣言だと思います。

国産AIは、失われた30年と言われてきた停滞を抜け出し、日本が再び成長するためのエンジンになり得ます。

もちろん課題は多くあります。
人材不足、コスト、スピード感、国際競争。決して簡単な道ではありません。

しかし、ここで挑戦しなければ、日本はずっと使うだけの国のままでしょう。
一部の企業や研究者だけの話ではなく、日本全体の未来を形づくるものです。

「AIを制するものは、世界を制す」
多分これは間違いないものだと思っています。

国産AIが育ち、産業と社会を支え、日本から世界にLLMの発信する日を、心待ちにしたいものです。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊

2025年12月12日2025年12月12日

AI消費者100人に聞いちゃう「聞いちゃった君」を作りました

＊＊＊＊＊＊＊＊

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください！

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

下記の論文に興味があったので、Pythonコードに落とし込んでみました。（簡易版ですが）
https://arxiv.org/abs/2510.08338

以前にも似たようなシステムをチャットボットで作ったのですが、今回はPythonコードとGoogle colabで作ってみました。

仮想顧客３００人に聞く！　「アンケ太郎君」
https://chatgpt.com/g/g-68d4ff88f0f481919387480d17e9d9da-jia-xiang-gu-ke-300ren-niwen-ku-anketai-lang-kun-ver1-5

「聞いちゃった君」とは？AIが100人の消費者を一瞬でつくる時代へ

マーケティングの現場では、商品を作るにも広告を打つにも、まず最初に「ターゲットの声」が必要らしい。

しかし実際の消費者調査は、時間も費用もかかり、しかも調査票の設計や回答の質にも悩まされることが多いとの事。

そこで生まれたのが、今回紹介する AI消費者100人メーカー「聞いちゃった君」である。

これは、大規模言語モデル（LLM）を使って 100人分の仮想消費者の自由回答を生成し、購買意向をスコア化する仕組みだ。
調査パネルを用意する必要はなく、日本語で商品説明を投げるだけで、一瞬で100人の「声」が返ってくる。

最大の特徴は、回答が単なる数字ではなく、すべて自然な文章の自由記述で返ってくるところ。
ユーザー心理や購買理由、懸念点まで読み取れるため、「生の声」に近い市場感覚をつかむことができる。

自由回答 × AI が生むリアルすぎる声とは

「聞いちゃった君」の特徴は、AIが適当に文章を作っているわけではない点だ。

まず、年齢・性別・収入などから 100パターンのペルソナを自動生成する。
たとえば「53歳・女性・高所得」「22歳・女性・中間所得」「47歳・男性・高所得」といった具合だ。

次に、それぞれのペルソナに対して、商品説明を読んだ上での “気持ち” を自然文で書かせる。

このとき AI は「数字で答えるな」「1〜3文の自然な文章で答えろ」といった制約のもと、実際の消費者らしいニュアンスを出す。

驚くべきは、年齢や所得によって微妙に反応が変わることだ。

高所得者は「興味はあるが成分を調べたい」、低所得者は「価格次第」など、消費者行動そのものと近い形で返る。

これは現実のアンケートの「生の声」にかなり近く、マーケティングの1次評価としては十分使えるレベルだろう。

日本語で質問するだけでOK 裏側では英語に変換して高精度解析

「聞いちゃった君」は見た目は日本語のシステムだが、裏側では高度な工夫が施されている。

実は、市場調査系のAIアルゴリズムは、英語で処理したほうが精度が高い。

大規模言語モデルは英語で学習されているデータ量が圧倒的に多く、埋め込みモデル（意味ベクトル）も英語での安定性が高いためだ。

そこで「聞いちゃった君」は、

・日本語の商品説明を英語へ翻訳
・英語で消費者回答を生成
・英語で意味類似度を計算し、1〜5 にスコア化（SSR方式）
・最終的に日本語へ再翻訳して出力

という構造を採用している。

ユーザーは日本語しか触らないが、内部では常に英語の高精度処理が走っているため、回答の安定性とニュアンスの豊かさが保たれる。

消費者100人が同時に答える仕組み　AI自由回答 → 類似度分析 → スコア化

「聞いちゃった君」の核心技術は、論文でも紹介されている SSR（Semantic Similarity Rating）方式だ。

これは、文章と5段階評価の「アンカー文」（例：買いたい・買いたくない）を意味の距離で比較し、買いたい度を数値化する手法である。

処理の流れは次のとおり：

・100人分のペルソナから自由回答（英語）を生成
・その回答文を埋め込み（embedding）に変換
・アンカー文（5段階）も同じく embedding に変換
・コサイン類似度 → Softmax → 確率分布（pmf）を算出
・期待値スコア（1〜5）を自動計算
・文章内容は日本語に翻訳して出力

これにより、数値と自由記述の両方を同時に得られる。

従来のアンケートでは「3」とだけ答えていた人が、AIの自由記述では理由まで書く。
これで極めてマーケティング価値が高くなるだろう。

本物の消費者データと相関90%以上論文級の手法を軽量化した仕組み

「聞いちゃった君」の基盤になっているSSR手法は、実験で実際の消費者データと90%近い一致率を示している。

つまり、AIが作る仮想消費者の反応が、人間がもう一度回答したときの再現性（再テスト信頼性）と同じレベルということだ。

今回の仕組みは、その論文の数理的な核だけを抜き出し、Colab上で実用的に動くように調整したもの。

アンカー文の設計、翻訳ループ、embedding の統一、Softmax 温度の調整など、実用上のチューンも施してある。

コンセプト検証・初期仮説チェック・A/Bテストの方向性出しとしては十分すぎる精度を持つのではないか。

なぜ100人の仮想消費者がマーケ施策に役立つのか

なぜ、実在しない「仮想消費者100人」で意味があるのか？
その理由は次の3点にある。

1. 初期の方向性を高速で掴める
2. 文章で理由が見えるため改善点が明確
3. 年齢や所得によるバラつきが分析できる

商品説明文を少し変えて再度100人で回せば、それだけでA/Bテストが成立する。
初期マーケティングのスピードが圧倒的に変わるだろう。

まとめ AI消費者100人に聞いちゃう「聞いちゃった君」

AI消費者100人メーカー「聞いちゃった君」は、市場調査の入り口を軽く、速く、理由付きで手に入れられるツールだ。

・日本語で商品説明を投げるだけ
・100人分の自由回答が返ってくる
・購買意向スコアも自動計算
・年齢や収入による差も見える
・A/B テストも瞬時に可能

「聞いちゃった君」は、これからのマーケターの瞬間テストエンジンになる可能性を秘めているでしょう。

今回の出力結果

下記に今回の出力の結果の一部を記します。
CSVでの出力なので、読みづらいです。

出力長さは調整してあります。長文でもOK.自在に可能です。

Pythonコードについてはここでは伏せておきます。興味のある方はLINEにてご連絡ください。

＊＊＊＊＊＊＊＊＊

●入力

「24時間うるおいが続く新しいフェイス用保湿クリームです。

無香料で敏感肌にも使える処方で、植物由来の成分を中心に配合しています。」

この商品についてのアンケートに答えてください。

●出力

id age gender income expected_score free_text_en free_text_ja

0 0 22 woman high income 3.176441

I find the idea of a moisturizer that offers 24-hour hydration very appealing, especially since it’s fragrance-free and designed for sensitive skin. The use of plant-derived ingredients aligns wit…

24時間保湿を提供するモイスチャライザーのアイデアはとても魅力的です。特に香料が含まれておらず、敏感肌向けに設計されている点が気に入っています。植物由来の成分が使われているのも、より自然な製品を好む私の好みに合っていますので、ぜひ購入を検討したいと思います。ただし、実際に肌にどのように感じるかを確認するために、レビューを調べたり、サンプルを試してみたりしたいです。

1 1 53 woman high income 3.136645 As someone who values high-quality skincare,

I find the promise of 24-hour hydration appealing, especially since it’s suitable for sensitive skin and fragrance-free. The use of plant-derived ingre…

高品質なスキンケアを重視する私にとって、24時間の保湿効果は魅力的です。特に、敏感肌にも適していて香料が含まれていない点が気に入っています。植物由来の成分が使われていることも、自然な処方を好む私の好みに合っており、このモイスチャライザーを試してみたいと思っています。ただし、購入する前に具体的な成分やレビューを調べて、自分のスキンケアニーズに合っているか確認したいです。

2 2 37 non-binary person high income 3.187053

I would be quite interested in this moisturizer, especially since it offers 24-hour hydration and is fragrance-free, which aligns well with my preference for gentle products on sensitive skin. The…

このモイスチャライザーにはとても興味があります。特に、24時間の保湿効果があり、香料が含まれていない点が私の敏感肌に優しい製品を好む好みに合っています。また、植物由来の成分が使われているのも魅力的で、私はスキンケアにおいて自然な処方を重視しています。全体的に、予算内であれば購入を検討したいと思いますし、レビューやおすすめを通じてその効果を確認できればなおさらです。

3 3 35 woman high income 3.182247

I would be quite interested in this face moisturizer, especially since it offers 24-hour hydration and is formulated for sensitive skin, which is a priority for me. The fact that it’s fragrance-fr…

このフェイスモイスチャライザーにはとても興味があります。特に、24時間の保湿効果があり、敏感肌用に処方されている点が私にとっては重要です。香料不使用で、植物由来の成分が含まれているのも、優しい自然派の製品を好む私の好みに合っています。もしその効果が本当であれば、私のスキンケアルーチンに加えることを考えられます。

4 4 61 woman low income 3.049169

As a 61-year-old woman with sensitive skin, I appreciate that this moisturizer is fragrance-free and made from plant-derived ingredients, as these features are important for my skin’s health. Howe…

敏感肌の61歳女性として、この保湿クリームが無香料で植物由来の成分で作られていることを評価しています。これらの特徴は私の肌の健康にとって重要です。しかし、私の収入が少ないため、購入を決定する前に価格を確認し、予算に合うかどうかを考慮する必要があります。もし価格が手頃であれば、試してみる意欲が高まるでしょう。

5 5 20 man middle income 3.192976

I would be somewhat interested in buying this face moisturizer, especially since it’s designed for sensitive skin and is fragrance-free, which is important to me. The promise of 24-hour hydration …

このフェイスモイスチャライザーには少し興味があります。特に敏感肌用で香料が含まれていない点が私にとって重要です。24時間の保湿効果というのも魅力的ですが、購入する前に具体的な植物由来の成分を調べて、自分の肌タイプに合っているか確認したいと思います。全体的に見て、試してみる価値のある製品だと考えています。

6 6 54 woman low income 3.138376

I would be quite interested in this face moisturizer because it promises 24-hour hydration, which is important for my skin’s dryness. The fact that it’s fragrance-free and designed for sensitive s…

このフェイスモイスチャライザーには非常に興味があります。24時間の保湿効果があるとされており、私の肌の乾燥には重要です。香料が含まれておらず、敏感肌用に設計されている点も魅力的です。私は強い香りや刺激の強い成分に反応しやすいので、その点が特に嬉しいです。ただし、購入を決める前に価格や予算に合うかどうかを考慮する必要があります。

7 7 33 man middle income 3.166876

I would be quite interested in this face moisturizer, especially since it offers 24-hour hydration and is designed for sensitive skin. The fact that it is fragrance-free and uses plant-derived ing…

このフェイスモイスチャライザーにはとても興味があります。特に24時間の保湿効果があり、敏感肌向けに設計されている点が魅力的です。香料不使用で植物由来の成分を使用しているのも、優しい自然派スキンケア製品を好む私の好みに合っています。もし良いレビューがあれば、ぜひ購入を検討したいと思います。

8 8 42 non-binary person middle income 3.145704

I find this moisturizer appealing because it offers 24-hour hydration and is fragrance-free, which is important for my sensitive skin. The use of plant-derived ingredients also aligns with my pref…

このモイスチャライザーは、24時間の保湿効果があり、香料が含まれていないため、敏感肌の私にはとても魅力的です。また、植物由来の成分が使われている点も、より自然な製品を好む私の好みに合っています。全体的に、特に良いレビューがあれば購入を検討する可能性が高いです。

9 9 47 man low income 3.097881

I would be somewhat interested in this face moisturizer since it offers 24-hour hydration and is designed for sensitive skin, which is important for me. However, my budget is tight, so I would nee…

このフェイスモイスチャライザーには少し興味があります。24時間の保湿効果があり、敏感肌向けに設計されているのは私にとって重要です。ただ、予算が厳しいので、他の選択肢と比べて手頃かどうかを考慮する必要があります。香料不使用で植物由来の成分が使われているのはプラスですが、決定する前にレビューやおすすめを探すと思います。

＊＊＊＊＊＊＊＊＊

以上、アンケートの一部のご紹介でした。
参考にしてください。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

最近のデジタルアート作品を掲載！

X　旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

スマホで動く小型SVLMは現実的なのか

小型SVLMとは何か、なぜ注目されているのか

Qwen系モデルで動画理解を試してみた

3Bと7Bを比べて見えた違い

スマホ実装でわかった課題

まとめ スマホで全部考えるより「見て報告するAI」が現実的

今回使ったPythonコード

小型モデルを回答＆分析に使うメリット

そもそもRAGとは何か

今回の環境と使用した諸々

実装してみてつまずいたポイント

なぜ最初は精度があまり出なかったのか

チャンク分割や検索方法を見直してみた

小型モデルでRAGを試す面白さ

今回使用したコード

AI for Scienceとは何か ビジネスを「実験対象」にするという発想

価格競争モデルの設計 2社市場を実験環境にする

仮説生成と反証ループ エージェントによる戦略進化

最適反応の発見 「少し安い」が合理的になる理由

個別最適と市場最適のズレ

まとめ ビジネスも実験できる時代へ

今回使ったPythonコード

LLMでの「世界モデル（簡易版）」を自作してみました

世界モデル（World Model）とは？

第1の進化 物理法則の習得と「夢」の可視化

第2の進化 不確実性への適応

段階的な最適化プロセス

最終結果 33ステップの完全勝利

まとめ

今回使用したPythonコード

今回のテスト実験の元の論文

SNSの問題はアルゴリズムではなく構造にあるという研究

投稿・拡散・フォローだけの世界でも分断は起きるのか？

Phase1 まず匿名SNSでは格差はほとんど生まれなかった

Phase2 投稿者がわかるだけで偏りは始まる

Phase2.5 露出バイアスを入れた瞬間に勝者総取りが発生

「人気→露出→さらに人気」の自己強化ループに拍車

Phase3 反対意見を20%混ぜる介入は本当に効くのか？

SNSを直すのではなく「交流の設計」を変える必要性

分断はソフトではなくハード（仕組み）で生まれている

今回学んだ教訓

今回使ったPythonコード

Google DeepMindのgemma scope2とは

AIはなぜ簡単な問題を間違えたのか

今回起きたAIの間違いを整理しよう

AIの頭の中をのぞいてみる

このAIの間違いは「嘘」なのか？

人間の考え方ととてもよく似ている

この分析からわかる大切なこと

まとめ AIの幻覚（ハルシネーション）を正しく理解しよう

会話ボイスモードの違い 同じ文章を音声で読ませてみる

TTSを変えただけで世界が変わった体験

ボイスモードの正体は「LLM × TTSの分業構造」だった

Googleの会話モードはなぜロボット寄りなのか

GrokやAdvanced Voice Mode（チャッピー）が楽しい理由

実験してわかったこと ボイスモードの差は学習量ではない

nanoGPT 小さなLLMに挑戦した理由

nanoGPTとは

「事前学習」とは？ゼロから言葉を覚えさせるということ

学習データと準備 どんなコーパスをどう集めたか

実際にやってみた nanoGPT事前学習の手順と環境

学習が終わって見えたこと モデルは何を覚えたか

ファインチューニングと人格づくりへ

まとめ nanoGPT事前学習は最高の教材

使用したPythonコード

国産AI開発 3兆円の投資記事とは

なぜ国産AI賛成の立場なのか

スケーリング則とは

なぜ今「国産AI」が必要なのか？

ロボット×AIは日本の十八番

3兆円投資のインパクト 本気度が違う国産AI構想

製造業・医療・インフラ 広がる国産AIの可能性

まとめ

「聞いちゃった君」とは？AIが100人の消費者を一瞬でつくる時代へ

自由回答 × AI が生むリアルすぎる声とは

日本語で質問するだけでOK 裏側では英語に変換して高精度解析

消費者100人が同時に答える仕組み AI自由回答 → 類似度分析 → スコア化

本物の消費者データと相関90%以上 論文級の手法を軽量化した仕組み

なぜ100人の仮想消費者がマーケ施策に役立つのか

まとめ AI消費者100人に聞いちゃう 「聞いちゃった君」

まとめスマホで全部考えるより「見て報告するAI」が現実的

AI for Scienceとは何かビジネスを「実験対象」にするという発想

仮説生成と反証ループエージェントによる戦略進化

最適反応の発見「少し安い」が合理的になる理由

まとめ　ビジネスも実験できる時代へ

第1の進化物理法則の習得と「夢」の可視化

第2の進化不確実性への適応

Phase1　まず匿名SNSでは格差はほとんど生まれなかった

Phase2　投稿者がわかるだけで偏りは始まる

Phase2.5　露出バイアスを入れた瞬間に勝者総取りが発生

Phase3　反対意見を20%混ぜる介入は本当に効くのか？

会話ボイスモードの違い同じ文章を音声で読ませてみる

実験してわかったこと　ボイスモードの差は学習量ではない

nanoGPT　小さなLLMに挑戦した理由

学習データと準備　どんなコーパスをどう集めたか

実際にやってみた　nanoGPT事前学習の手順と環境

学習が終わって見えたことモデルは何を覚えたか

まとめ　nanoGPT事前学習は最高の教材

3兆円投資のインパクト本気度が違う国産AI構想

製造業・医療・インフラ　広がる国産AIの可能性

消費者100人が同時に答える仕組み　AI自由回答 → 類似度分析 → スコア化

本物の消費者データと相関90%以上論文級の手法を軽量化した仕組み

まとめ AI消費者100人に聞いちゃう「聞いちゃった君」