
ちめん太、AIに新型が出たから新旧で記事対決させたで。ワシ、もう科学者と言うても過言やないな

で、その対決、ちゃんと条件そろえたんですか?

条件? 同じお願いしたら同じ条件やろ

……はい、今日はその雑な対決が思わぬ方向に転がる話です
こんにちは、とんまよです。僕はブログ運営や民泊の事務作業をClaude(AI)に手伝うてもらってる非エンジニアです。そのClaudeに先日、新モデル「Fable 5」が来ました。
新型が来たらやることは一つ。旧モデルと同じブログ記事を書かせて、ガチで対決させる。結果は予想外の方向に転がって、最終的に記事を3本書かせることになりました。AIをブログや仕事に使うてる人には、たぶん全部役立つ話です。
そもそも「Fable 5」って何や——あの"ミュトス"の牙を抜いたやつ
Fable 5は、2026年6月9日に登場したClaudeの最新モデルです。非エンジニア向けにざっくり言うと、AIのモデルは「頭脳のバージョン」。同じClaudeでも中の頭脳を切り替えられて、これまでの最上位は「Opus」系(うちで使うてたのはOpus 4.8)でした。
ほんでこのFable 5、ただの新型やないんです。AI界隈でちょっと話題になってた「ミュトス(Mythos)」——開発元のAnthropicが社内に持ってる最強モデルで、「強すぎてそのまま一般公開はできん」と言われてた伝説の存在——がおりまして。Fable 5は、そのミュトス級の頭脳に安全装置をつけて、一般人でも使えるようにした「牙を抜いたバージョン」なんです。公式いわく「これまで一般公開したどのモデルよりも高性能」。
おもろいのが安全装置の仕組みで、危険な質問が来たら自動で旧モデルのOpusに回すらしい。新人エースが答えにくい客をベテランにパスする焼肉屋みたいなシステムや。さらに「1Mコンテキスト版」というのもあって、一度に記憶できる量が100万トークン——日本語で文庫本7〜10冊分——という化け物仕様。
ちなみにこのFable 5、2026年6月22日までは有料プラン(Pro等)内で追加料金なしで試せます。6月23日からは従量課金のクレジット制に移行する予定なんで、気になる人は今のうちに触っとくのがお得です。
そんな「伝説の牙抜き版」が来たんやから、気になるやないですか。ほんまに記事、上手くなったんか?
ラウンド1:旧王者Opus、自力調査で書く
題材は、僕が毎月出してる大阪観光の月例データリポート。まず旧モデルのOpus 4.8が普通に書きました。このときOpusはネット検索を9回かけて、訪日客数・ホテル単価・為替なんかの最新データを自力で集めてから執筆。いつもの仕事ぶりです。
出てきた記事は3,474字。データの裏取りもしっかりしてて、安定の出来。ここまでは何の問題もなかった。
ラウンド2:新人Fable、同じ会話で「作り直して」
ほんでモデルをFable 5に切り替えて、一言こう頼みました。「Vol.2をイチから作り直して」。
数分後、新バージョンが出てきた。切り口がガラッと変わってて、バラバラやった7つの話題を一本の軸で貫く構成。お、なかなかやるやん——と思いながら読み比べた僕の正直な感想がこれです。
- 細かい部分の正確さは、旧モデルのほうが上に感じる
- 新モデルは切り口はおもろいけど、ところどころ雑
- 冒頭のつかみのコント、意味がよう分からん
- 数字の比較に算数ミスっぽい誇張もあった(3万円→5.5万円を「2倍超え」みたいに書く)
あれ? 新型エンジンちゃうかったんか? ……ここで僕の中の何かが、ざわ…ざわ…し始めました。
待てよ。こいつ、カンニングしてへんか?
ふと浮かんだ疑問がこれです。「Fableは、Opusの記事が"見えてる"状態で書いてへんか?」
AIとの会話には「コンテキスト」、要は会話の記憶があります。同じ会話の中でモデルを切り替えても、それまでのやり取りは全部引き継がれる。あとでログを調べたら、ラウンド2のFableが読んでた会話の記憶は約19万トークン分。その中には、Opusが書いた記事の全文も、集めたデータも、僕の細かい指示も丸ごと入ってました。
つまり僕がやった「対決」は、例えるなら——転校生に「前の生徒と同じテストを解いて」と言いながら、前の生徒の答案を机に置きっぱなしにしてた。そら影響受けるわ。Fableの「ガラッと変えた切り口」も、よう考えたら「前の答案と同じことはできん」というプレッシャーの産物かもしれん。こういう「前に見た情報に引っ張られる現象」を、アンカリングと言うそうです。人間の心理学と同じやね。
ラウンド3:何も見せず、ゼロから書かせた
こうなったら正しい対決をするしかない。3本目は、過去の会話が一切見えへんまっさらな環境のFable 5に書かせました。渡したのはデータ集と記事の仕様書、たった2つだけ。Opusの記事も、ラウンド2の記事も、僕とのやり取りも、何ひとつ見せへん。カンニングペーパー全没収のガチ勝負です。
ひとつフェアに言うとくと、この「データ集」はラウンド1でOpusが9回検索して集めた調査メモ(に僕が少し追記したもの)です。つまりラウンド3のFableは「先輩の調査ノートを借りて、執筆だけ自分でやった」状態。せやからこの対決で比べてるのは執筆力だけで、調査力の勝負はしてません。そこは今後の宿題。
3本の実測データがこちら。生成時間とトークン(AIの作業量の単位)は、Claudeの会話ログから掘り起こしました。
| 項目 | R1:旧Opus | R2:新Fable(カンニング版) | R3:新Fable(ガチ版) |
|---|---|---|---|
| 文字数 | 3,474字 | 4,003字 | 4,169字 |
| ネット検索 | 9回(自力調査) | 0回 | 0回(データ集のみ) |
| 執筆の出力トークン | 5,079 | 4,756 | 約39,000 (思考・準備込みの全工程) |
| 読んでいた「記憶」 | 約16万トークン | 約19万トークン (Opusの答案込み) |
ほぼゼロ |
| 生成時間 | 約30秒 (ログの時刻差から概算) |
計測できず | 2分3秒(実測) |
※トークンの数え方は条件によって変わるので、あくまで規模感として見てください。
そして出てきたガチ版を読んで、僕は二度おどろくことになります。
結果発表:本当の違いは「賢さ」やなくて「正直さ」に出た
おどろき①:派手な切り口が消えて、構成が旧モデル寄りに戻った。
ラウンド2にあった奇抜な構成は、ガチ版では出てこんかった。やっぱりあれは「前の答案と差をつけたろ」の産物やった可能性が高い。素の構成力は、新旧でそこまで大差ない。
おどろき②:ガチ版は「分からんことを分からん」と書いた。
実は僕がAIに渡したデータ集、飲食業界の数字を入れ忘れてたんです。会話の記憶から数字を拾えたラウンド2は普通に書けた。ほなガチ版はどうしたか——
「正直に書く。飲食の最新データは今号では取得できんかった。創作で数字を書くわけにはいかんので、ここは宿題とさせてくれ」
……と、記事の中で堂々と白旗を上げよった。それっぽい数字をでっち上げる(AIの世界で「ハルシネーション」いうやつ)んやなくて、無いもんは無いと言う。さらにラウンド2にあった算数ミスっぽい表現も、ガチ版は何も言うてないのに「約1.7倍」と正確に計算してきた。
整理するとこうです。
- 「細部は旧モデルが上」と感じた正体→モデルの差やなくて、自力で9回検索して裏取りした奴が一番詳しいという当たり前の話やった
- 新モデルの進化が見えた場所→切り口の派手さやなくて、データが無いときに耐える正直さやった
非エンジニアの僕が学んだ3つのこと
この対決、勝敗をつけるなら「引き分け、ただし審判(僕)が一番反省」です。学んだことをまとめます。
- ① 同じ会話内で「書き直して」は比較にならん。 AIには前の答案が見えてる。モデル比較は、新しい会話(まっさらな環境)でやること。
- ② 記事の質はモデルよりも「調べたかどうか」で決まる。 一番ディテールが強かったのは、最新データを9回検索した回。賢いAIに古い情報を渡しても、ええ記事にはならん。
- ③ ええAIの見分け方は「知らんことへの態度」。 データが無いときに、それっぽい数字を作るか、「分からん」と言えるか。後者のほうが、仕事を任せる相手として何倍も信用できる。
なんか、AIの話というより新入社員の話みたいやな。「できません」と言える新人のほうが伸びる、的な。

要するにワシの対決は、答案見せながら『実力を見せてみい』言うてたわけか。……これもう対決やなくて公開処刑やん

処刑されてたのは対決の信頼性ですけどね。でも失敗した方法ごと公開するのは、読んだ人が同じ穴に落ちんで済むんで、ええ記事やと思いますよ

せやろ? つまりワシの雑さは計画的やったということや

それは無いです
ほな、また。



