【悲報】GPT-5、開発者からは「微妙」評価!?でもアレが爆安らしいぞwww【コスパ最強か?】
1: 名無しのエンジニアさん 2025-08-15(木) 10:05:22.10 ID:GpT5MiXeD おいお前ら、OpenAIがGPT-5ぶっこんできたぞ! 「真のコーディングコラボレーター」とか言ってたけど、開発者からは早速「微妙」って声が上がってるらしいな。マジかよwww ソース:[Developers Say GPT-5 Is a Mixed Bag]
2: 名無しのプログラマさん 2025-08-15(木) 10:07:01.88 ID:CoDeBuGeR >>1 は?(威圧) また大本営発表かよ。GPT-4oでそこそこ満足してたのに、わざわざ5とか出す意味あんの? どうせ名前変えただけとかだろ(´・ω・`)
3: 名無しのAIウォッチャーさん 2025-08-15(木) 10:08:55.33 ID:ArRoR404N 記事読んだンゴ。 「技術的な推論や計画は得意だけど、コード生成自体はAnthropicのOpusやSonnetの方がマシ」って書いてあるな。 つまり、頭はいいけど手が遅いAIってことか?(´・ω・`)
4: やる夫 ◆Yaruo.fE8yK 2025-08-15(木) 10:10:11.77 ID:YaruoCodeO >>3 えー!そうなんだお!? やる夫はGPT-5で爆速コーディングして楽々開発するつもりだったのに…残念だお…(´・ω・`)
∧_∧
( ´∀`)
( )
| | |
(__)_)
5: やらない夫@地蔵 ◆YaRaNaI.bL7cR 2025-08-15(木) 10:11:34.22 ID:YaRaNaI.bL7cR >>4 お前はいつもそうだな。夢見すぎだぞ。 AIに全部丸投げなんて、そんなうまい話あるわけないだろ。 やらない夫は最初から期待してないぞ( ´ー`)
6: 名無しのプログラマさん 2025-08-15(木) 10:13:05.99 ID:ReDuNdAnT 記事に「低、中、高の冗長性設定がある」って書いてあるな。 「高」だと無駄なコードとか重複した行を吐き出すことがあるって。 もしかして、そこら辺の設定で評価がブレてるだけとか? 俺はシンプルで短いの希望なんだが…
7: できる夫@賢者 ◆Dekiruo.aBcD1 2025-08-15(木) 10:15:40.55 ID:Dekiruo.aBcD1 >>6 説明しよう! 記事によると、Princetonの研究者Sayash Kapoor氏のテストでは、GPT-5(中冗長性)の精度が27%なのに対し、Claude Opus 4.1は51%という結果が出ている。 ただし、GPT-5の「高」や「thinking」モデルはまだテストされておらず、一概に比較はできないが、現時点では精度に差があるのは事実だ。 しかし!
∧∧
(´・ω・)
( つ旦O
と_)_)
重要なのは、GPT-5はコストが圧倒的に安いという点だ。 同じテストで、GPT-5は30ドル、Opus 4.1は400ドルもかかる。 つまり、精度は劣るが、費用対効果は抜群だということになる! テストに2万ドル使ったKapoor氏も「めっちゃ安い」と太鼓判を押している。
8: ひろゆき@考える人 ◆HiroYuki.zXyWv 2025-08-15(木) 10:18:22.44 ID:HiroYuki.zXyWv >>7 それって、あなたの感想ですよね? ベンチマークの数値が信用できるかって話ですよ。 OpenAIが公開してるベンチマーク、SWE-benchのテストのうち477個しかやってないって話じゃないですか。 残りの23個は都合が悪かったんですかね? あと「思考」モデルの精度が高いとか言ってますけど、それって普段使いできるんですかね。 使えないモデルで高い数値出しても意味ないんじゃないかなって。
(´・ω・`)
/ ヽ
し─J
9: 名無しのエンジニアさん 2025-08-15(木) 10:20:01.11 ID:PrOjEcTz >>8 ホリエモンみたいなこと言うなよw でも確かにベンチマークは怪しいよな。自社ベンチマークは信用ならんって定期。
10: 永遠の初心者 ◆Newbie.vU7iK 2025-08-15(木) 10:21:45.00 ID:Newbie.vU7iK えーっと、SWE-benchっておいしいの?(´・ω・`) 結局、GPT-5って使った方がいいんですか?やらない方がいいんですか? 初心者には何がなんだか…
11: 名無しのプログラマさん 2025-08-15(木) 10:23:30.77 ID:DeVaLoPeR >>10 要するに「お財布に優しいけど、コードの精度は他の最新AIより劣るかも」って感じ。 でも、WIREDの記事には「複雑なコーディングタスクを一発でこなせた」ってポジティブな声もあるし、ノーションも「他モデルより15%良い」って言ってる。 使い方次第で化ける可能性はあるってことじゃね?
12: クマー ◆KumaKuma.qWzE4 2025-08-15(木) 10:25:11.22 ID:KumaKuma.qWzE4 でも、結局バグを吐くクマー! 「URLを幻覚した」って事例もあるし、どんなに安くてもバグまみれのコードじゃ意味ないクマー! クマー!!
____
/ \
/ノ \ .\
/(●)(●) \
| (__人__) |
\ `∀´ /
/ \
13: 名無しのAI研究者さん 2025-08-15(木) 10:26:59.00 ID:ReSeArChR >>12 それは「ハルシネーション(幻覚)」の問題ですね。 大規模言語モデルの宿命とも言えますが、GPT-5でもまだ完全には解決されていないようです。 特にURLのような具体的な情報生成では、精度が求められますからね。
14: 名無しのエンジニアさん 2025-08-15(木) 10:28:40.50 ID:StArTuPGo ぶっちゃけ、ここ数年のAIモデルの進化って、「全てが劇的に良くなる」じゃなくて「特定のサブタスクが劇的に良くなる」ってフェーズに入ってるよな。 Claude Sonnet 3.5はコーディング最強、Geminiはコードレビュー、みたいな。 GPT-5もその流れで、思考・計画が得意でコスパがいいって特性なんだろう。 AGIへの一直線進化みたいな期待は、もうやめといた方がいいんじゃね?
15: やる夫 ◆Yaruo.fE8yK 2025-08-15(木) 10:30:15.33 ID:YaruoCodeO >>14 なるほどだお!じゃあやる夫はGPT-5に設計図を書かせて、細かいコードは他のAIか自分で書くお! コストも安くなるし、これならやれるお!(`・ω・´)
16: 名無しのエンジニアさん 2025-08-15(木) 10:31:40.99 ID:FiNaLcOsT 結局、安くてそこそこ使えるなら全然アリだろ。 ベンチマークの数字だけ見て「ダメ」って判断するのは早計。 現場で実際に使ってみて、自分のワークフローに合うかどうかが全てやで。
まとめ
OpenAIの最新モデルGPT-5の発表は、開発者の間で賛否両論を巻き起こしています。主なポイントは以下の通りです。
- コード生成の質: 技術的な推論や計画能力は高いものの、実際のコード生成においてはAnthropicのClaude CodeやOpusといった競合モデルに劣るとの声が多数上がっています。特に冗長なコードを生成する傾向も指摘されています。
- 圧倒的なコストパフォーマンス: 他の高性能モデルと比較して、GPT-5は圧倒的に安価であることが判明しました。Princeton大学の研究者のテストでは、同じタスクでGPT-5が30ドルなのに対し、Claude Opus 4.1は400ドルと、費用対効果の高さが際立っています。
- ベンチマーク評価への疑問: OpenAIが公開したGPT-5の性能を示すベンチマークに対し、一部の批評家や研究機関から「評価方法が偏っている」「不足がある」といった批判が出ています。
- 期待値とのギャップ: 多くの開発者が「AIの全てが劇的に進化する」という過剰な期待を抱いていたため、GPT-5が特定のサブタスクに強みを持つという現実とのギャップに失望する声も聞かれます。しかし、一部の企業や開発者は、複雑なタスクの一発解決能力や特定の用途での有効性を評価しており、使い方次第で価値を発揮する可能性を秘めています。
結論として、GPT-5は万能ではないものの、その破格の安さと特定の得意分野を活かせば、開発者の強力なツールとなり得るでしょう。
コメント (0)
まだコメントはありません。