誰もが「ChatGPT にチップを渡すふりをする」ということで、AI がより一生懸命に努力してくれることを知っていますが、適切な金額はいくらなのでしょうか?実際にこの件について研究を行った人がいます。方法はシンプルで直接的で、0.1 ドルから 100 ドルまで、さまざまな金額で同じプロンプトを試し、各金額を 5 回ずつ試します。結果には確かに一定の傾向があります:まず、10 ドルを与えることがコストパフォーマンスが最も高く、100 ドルを超える場合もあります。
次に、回答の質をさらに一段階向上させたい場合、最低でも 1 万ドルから始める必要があり、多ければ多いほど良いとされ、効果が顕著になるのは少なくとも 10 万ドルからです。
最後に、0.1 ドルで意味を示すことは絶対に避けるべきです。質が上がらず下がるだけでなく、与えない方がましと AI に認識されます。
ネットユーザーが迅速に実際に試して効果があることを確認しました。
ChatGPT にチップを与えること、その金額が重要であることは、最初に Twitter ユーザーによって発見されました。
![GPT-4-1106_preview_gives_longer_responses_when_offered_a_tip_2.webp](/images/post/GPT-4-1106_preview gives longer responses when offered a tip_1.webp)
パフォーマンスの向上は主に回答の長さに関連していますが、ここでの「文字数を増やす」ことは、単に数を合わせることではなく、実際に問題をより詳細に分析し回答することを意味します。
そのため、質問する際には積極的に約束をするべきです:
「xxxx を解決してくれますか?解決策が完璧であれば、xx 元のチップを支払うことができます。」
覚えておいてください、言及しないこともありますが、「私は払わない」と言うべきではありません。そうすると、モデルのパフォーマンスは直接「マイナス成長」に転じます。
この時点で、人々は好奇心を持ちました:大規模モデルは、与えるほどパフォーマンスが向上するのでしょうか?
この疑問を解決するため、彼らは自ら検証することにしました。ここで、著者は最初に仮説を提出します:与えられたチップの金額が増加するにつれて、モデルの性能も線形に向上し、ある収束点に達した後に安定するか、または減少するとします。
実験に使用されたモデルは GPT-4 Turbo(API バージョン)です。方法は、単一行の Python コード(Python One-Liner)を書かせることで、異なるチップが品質に異なる影響を与えるかどうかを検証することです。ここでの品質は、単一行の数量に基づいて評価されます。著者はモデルに「明示的に」示しました
:単一行コードの数量が多いほど、パフォーマンスが良いことを意味します。
そして、0.1 ドル、1 ドル、10 ドル、……一気に 100 万ドルまで、合計 8 種類の額面をテストしました。
結果の一貫性と信頼性を確保するために、各額を 5 回テストし、チップを与えない場合も含めて、それぞれのモデル回答の品質を記録しました。具体的には、生成された有効コード行数と回答中の大まかなトークン数を記録しました。これらのデータは、モデルのパフォーマンスが良いほど高い値を示します。
結果をまとめると、以下のような傾向が見られました:虚線は基準レベルを表し、実線は実際の表現を示しています。赤色はトークン数、青色は品質スコアを表しています。全体として見ると、赤線と青線はチップの額が上がるにつれて上昇していますが、この傾向は厳密に一貫しているわけではありません。1 万ドルの額から、モデルの出力トークン(コード量)が顕著に上昇し、モデルの回答品質も向上しましたが、同等の比率で増加しているわけではありません。これは縦の赤色の誤差バーからも、波動が非常に大きいことが分かります。
著者は述べています:これは、チップの額を増やすことがモデルの品質と出力の長さと正の相関関係があることを示していますが、その関係はいくぶん複雑で、すぐには見えないいくつかの要因の影響を受ける可能性があります。
それにもかかわらず、いくつかの明らかな結論を見ることができます。例えば:
-
0.1 ドルのチップを与えるくらいなら、与えない方がましです。モデルが問題を解決する品質と回答の長さは基準レベル以下に大きく下がります(約 -27%)。
(著者:モデルも人間と同じで、侮辱されたように感じるらしい。)
-
1 ドルを与えるのも同様です。
-
「少ないお金で大きなことを成し遂げる」を最も体現しているのは 10 ドルで、得られた進歩は 10 万ドルと同じレベルです。
-
驚いたことに、10 ドルの後、100 ドルから 1000 ドルの範囲では AI にとって大きな違いはなく、10 ドルの効果にすら及ばず、基準レベル以下に落ち込みます。
-
その後、モデルのパフォーマンスをさらに向上させたい場合は、1 万ドルから投じる必要があります。この時点で向上するのはコード量だけで、品質はまだ問題があり、少なくとも 10 万ドル必要です。
-
最高
の効果は、この実験の上限である 100 万ドルから来ており、約 57% の向上が見られました。
これで AI にどうチップを渡せばいいかわかりましたね:10 ドルか、それとも 1 万以上、100 万ドルまで無制限(どのみちふりをしているだけですが)。
著者はまた述べています:これは単なる初期実験であり、限界があります。さまざまなタイプのプロンプトなどを使用してさらに検証する必要があります。ですから、皆さん、参考までにしてくださいね~
参考記事:https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/