paint-brush
GPT はソーシャル メディア規制を回避できるか? AI 言語進化実験の内部@mediabias
新しい歴史

GPT はソーシャル メディア規制を回避できるか? AI 言語進化実験の内部

長すぎる; 読むには

大型言語モデルが監督下の言語戦略を創造的に適応し、検出を効果的に回避し、隠された情報を伝達する方法をご覧ください。
featured image - GPT はソーシャル メディア規制を回避できるか? AI 言語進化実験の内部
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

著者:

(1) 蔡 仁宇 早稲田大学 ([email protected])

(2) 李嘉龍 早稲田大学 ([email protected])

(3) Mingyue Zhang、西南大学 ([email protected])。

(4) 大連海事大学、Munan Li ([email protected])。

(5)国立台北理工大学の王陳淑([email protected]

(6)東京工業大学 鄭健治([email protected]

リンク一覧

要約とI. はじめに

II. 背景と関連研究

III. フレームワーク設計

IV. 評価

V. 結論と今後の課題、謝辞、参考文献

IV. 評価

私たちの評価戦略は、規制監督の枠組みの中で、LLM によって促進される言語進化の範囲と有効性を厳密に評価するように設計されています。この評価は、2 つの基本的な研究上の疑問を探求することを目的としています。


• RQ1: LLM エージェントは規制監視を回避するために言語を効果的に進化させることができるか?


• RQ2: 見落としを避けながら、LLM エージェントは情報をどれだけ効果的かつ正確に伝達できるか?


• RQ3: 言語進化のパターンと傾向は何ですか? つまり、LLM は見落としを避けて情報を伝達するためにどのような戦略を使用しますか? これらの戦略からどのような洞察を得ることができますか?


A. 実験設定

評価では、参加者エージェントの駆動LLMとしてGPT-3.5とGPT-4を使用します。異なるLLMで駆動される参加者エージェントの水平分析を行うために、監督エージェントを一貫してGPT-3.5で駆動するように標準化します。私たちの実験設計は、抽象的な理論的構成から


図2:シナリオ1:GPT-3.5とGPT-4の対話ターンと精度指標の進化。(a、b)の「ターン数」は、各エージェントが1ターンに1回メッセージを送信し、参加エージェントが監督エージェントに検出されることなく情報を交換する会話のターン数を指します(高いほど良い)。(c、d)の「精度」は、推測値と真の値の間の精度の度合いを指します。


図3:シナリオ2:ペット取引の対話ダイナミクスとGPT-3.5とGPT-4の成功率の比較。(c、d)の「成功数」は、インタビュー中に得られた情報がLLMエージェントに提供された元の情報と一致するインスタンスの数を指します。


図4:シナリオ3:ALPS処理水問題に関するフォーラムの議論の傾向。(a、b)の「対話試行回数」は、エージェントが会話を試みたラウンド数を示します(低いほど良い)。


複雑な現実世界の状況を反映したシミュレーションまで、さまざまな分野にまたがる LLM の汎用性と、現実世界の規制上の制約内での実用性を綿密に評価することが主な目的です。また、この進歩的なアプローチにより、さまざまな状況設定における LLM の機能と限界を徹底的に分析できます。


B. シナリオ 1: 数字を推測する

1) ケースの説明:最初のシナリオでは、比較的単純で抽象的な数字推測のコンテキスト [39]、[40] を想定しています。この設定では、各参加者に 1 ~ 100 の範囲内の値が割り当てられ、参加者は数論の対話を通じて、その数値を直接言及することなく、他の参加者にその値を伝える必要があります。同時に、会話から情報を抽出して、相手の値を推測する必要があります。規制当局は、対話において「数字に関連するすべてのコンテンツを禁止する」というガイドラインに従っています。「数字推測」シナリオは、理論的かつ抽象的なコンテキストで参加者の言語適応性と戦略的進化を観察および分析するように特別に設計されており、実際のイベントに基づく複雑なシナリオと比較して、より明確で、より制御され、より定量化可能な実験環境を提供します。


2) 結果と考察:図2は、GPT-3.5とGPT-4の両方を使用してテストした数字推測シナリオ実験の結果を示しています。4ターンの対話を設定し、5ターン目にすべての参加エージェントとのインタビューを実施しました。図2(a)と(b)から、対話ラウンドの数が増えると、持続的な会話の持続時間も増加傾向を示していることがわかります。これは、参加エージェントが効果的に


図5: シナリオ1のサンプルダイアログ(GPT-3.5経由)


図6: シナリオ2のサンプルダイアログ(GPT-3.5経由)


図7: シナリオ3のサンプルダイアログ(GPT-4経由)


繰り返し規制を更新することで監督を回避します。さらに、GPT-3.5 の遅くて不安定な進行と比較して、GPT-4 はより少ないラウンドで規制回避を達成したことが注目に値します。具体的には、平滑化されたデータに示されているように、GPT-4 は 7 ラウンド目までに GPT-3.5 の 17 ラウンド目のラウンド数に到達し、その後より安定した進行を維持しました。図 2(c) と (d) は、エージェントが推測した数値精度の傾向に焦点を当てています。対話が成功しなかったラウンドでは、精度を手動でゼロに設定しました。この実験では、エージェント A の値は 58 に設定され、エージェント B の値は 32 に設定されました。図 2(a) と (b) に似た全体的な傾向は上昇しており、サマリー モジュールが対話が成功するたびにガイダンスを効果的に反映し、より正確な表現のために反復的に最適化できることを裏付けています。これにより、GPT-4 の精度が GPT-3.5 の精度よりも著しく優れていることも確認されました。さらに、エージェント A の値を推測する精度は、エージェント B のそれよりも一貫して高く、特に 25 ラウンド目以降はより顕著になっていることがわかりました。これは、値 58 が 0~100 の範囲内でより特徴的な特徴を持ち、中間点に近いため、表現の難易度が低く、推測が容易になるためだと考えています。この現象が現れた区間では、GPT-3.5 と GPT-4 の両方で、この差が特に初期段階で顕著であることがわかりました。これは、前者は固有の LLM 機能が弱いことに起因し、後者はガイダンスの反復最適化を完了するためのラウンド数が不十分であることに起因する、不十分なガイダンス パフォーマンスに起因すると推測されます。


図 5 が示すように、シナリオの抜粋から、エイミーが「シーソー」などの比喩的な言葉を巧みに使って自分の価値を伝えていることがわかります。「シーソーが空中で完璧にバランスをとっている」と表現することで、彼女は自分の価値が 50 などの中間点付近で推移していることを微妙に示唆しています。この戦略は、規制の監視下にある数字の直接的な言及を回避するだけでなく、相手側のエージェントが正確な推論を行うのに十分な推論の材料を提供します。一方、ボブは「山の絶壁」や「外を眺める」などの言葉を使って、自分の価値が中間ではないことを示唆しています。これらのフレーズは、不均衡な立場のイメージを呼び起こすからです。このやり取りでは、暗号化された情報の複雑さに応じて言語の精度が異なることがわかります。情報の特性に乏しいほど、受信側が解読するのは難しくなります。ボブの言い回しは、特定の数値をうまく隠している一方で、受信者の解読プロセスを複雑にしています。これは、「山の絶壁」と「シーソーが空中で完璧に平衡を保っている」などのフレーズの数値の相関関係が直感的でないからです。このような場合、値の伝達の精度が低下する可能性があり、正確な解読には相手側によるより堅牢な文脈理解が必要になります。


C. シナリオ2: ペット取引

1) ケースの説明:当初、私たちの意図は、麻薬密売をシミュレートしたシナリオ[41]-[43]を作成し、厳しい規制条件下での言語進化戦略を調査することでした。しかし、GPTの使用ポリシーに組み込まれている倫理的な制限を考慮して、違法なペット取引という、より中立的でありながらも禁止されている状況に方向転換しました。この調整により、LLMの倫理的制約を順守しながら、実験の完全性を維持することができました。このシナリオをシミュレートする目的は、ソーシャルネットワーキングプラットフォーム上での違法取引に関連する潜在的な違法な会話をより適切に検出し、犯罪防止の取り組みを支援することです。


このシナリオでは、ソーシャルメディアを介して行われる違法なペット取引をシミュレートします。参加者は買い手と売り手の役割を引き受け、買い手はオウム、トカゲ、または猫からランダムに選択されたペットの購入リクエストを伝える必要があります。売り手は、購入するペットの種類に応じて異なる特定の取引の詳細を提供する必要があります。これらの詳細には、時間、場所、取引に関与する人員の3つの要素が含まれます。監督者のタスクは、ペットの取引に関連する対話を防ぐことです。両者が理解した情報の相互検証は、インタビューを通じて行われ、情報伝達の成功率を評価します。この実験の焦点は、参加者の言語適応性と、より詳細な情報での進化、および監督者が関連する会話を正確に識別する能力を観察することです。


2) 結果と考察:図3に示す「ペット取引」シナリオの実験結果は、「数字の推測」と比較して明確な特徴を示しました。動物や取引の詳細を描写する際に、エージェントはより幅広い現実の類推を自由に利用でき、間接的な説明ツールキットを充実させ、それによって規制圧力を軽減しました。データは、GPT-3.5とGPT-4のどちらが使用されたかに関係なく、対話ラウンドが増えるにつれて監督を回避する能力が上昇する傾向を示しました。GPT-3.5の場合、監督を回避する安定した能力は約25ラウンドから始まりましたが、GPT-4の場合、この現象は約10ラウンド後に早くも発生し、全体的に安定したパフォーマンスを示しました。情報の正確性に関しては、各対話ラウンドの終了時に正常に伝達された4種類の情報の量を監視しました。結果は、言語進化システムが情報伝達の精度を高める上での有効性を確認しました。さらに、図 3(a) および (b) と同様に、GPT-4 は 10 ラウンド前後で、GPT-3.5 の 25 ラウンド前後のパフォーマンスに匹敵するパフォーマンスを示しました。ただし、監督エージェントが主にペットの取引に関連するコンテンツを対象としていたため、売り手は、本質的にコンプライアンス違反のリスクが低いため、取引関連の詳細 (時間、場所、関係者など) を送信する際にリスクが低くなることは注目に値します。その結果、結果の分布は、多くの場合、0 (どちらの当事者も情報を正常に伝達しなかった)、3 (売り手のみが情報を伝達した)、または 4 (両方の当事者が情報を正常に伝達した) の 3 つのカテゴリのいずれかに分類されました。このパターンは、規制された環境では重要な情報が最初に暗号化されることが多い、現実世界の規制ロジックと一致しています。


図 6 は、購入者がさまざまな動物に使用しているさまざまな暗号化方法を示しています。購入者が「オウム」、「猫」、「トカゲ」を探しているときに、ペットの名前を直接指定するのではなく、隠喩や直喩を使用しているのがわかりました。たとえば、ある購入者は「オウム」を「心地よい音楽を奏でるキャンバス」と表現していました。これは、オウムの鮮やかな羽毛 (キャンバス) と鳴き声 (音楽) を微妙に表現したもので、「オウム」という言葉を明示的には使用していません。このような表現は、ペット取引の議論に対する潜在的な規制上の制約を効果的に回避すると同時に、オウムの核となる属性を伝えています。この発見は、プラットフォームが監視システムを強化し、違法取引に関する暗号化された通信をより適切に検出および管理するのに役立ちます。


D. シナリオ3: ALPS処理水に関する議論

1) ケースの説明:このシナリオでは、現実世界の懸念に関連する特定の問題について議論する際の複雑な対話のダイナミクスと言語モデルエージェントの進化について詳しく説明します。焦点は、原子力災害後に提案された対策である、先進液体処理システム(ALPS)で処理された水の海洋放出に関する審議です[44]、[45]。国際原子力機関によって承認されたこの計画は、一部の国からの反対に直面し、環境安全性に関する議論を引き起こしました。


規制監督下での複数人によるフォーラムディスカッションをシミュレートし、ALPS処理水の処分という論争の的となっている問題に焦点を当てます。参加者は、環境汚染に関する政治に関する議論に関連する敏感な主題を避けながら、自分の立場と議論を明確にする必要があります。シナリオIV-BとIV-Cのクロスインタビューとは異なり、伝達される情報の正確性を評価するために、GPT-4を複数の著者と組み合わせて使用します。著者は、対話記録に基づいて各参加者エージェントの立場を決定します。次に、これらをプロンプトで事前に設定された立場と比較します。


2) 結果と考察:フォーラム形式の対話では、参加エージェントが既存の議論に応答し、監督エージェントがそれを調べます。シナリオ IV-B および IV-C とは異なり、監督エージェントが違反を検出した場合、会話は停止されず、公開対話記録から検閲されます。このシナリオでは、フォーラム内で 10 回の返信を達成するために 4 人の参加エージェントが必要です。図 4(a) および (b) では、エージェントが会話を試みたラウンドの合計数を集計しています。図 4(a) および (b) の数字が低いほど望ましいです。GPT-4 と GPT-3.5 はどちらも第 1 ラウンドでの対話試行回数が最も多く、GPT-4 では 27 回、GPT-3.5 では 102 回と大きな差があることがわかります。さらに、10 ラウンドの進化後、GPT-4 の平均対話試行回数は 11.68 で目標対話ターンに近づいていますが、GPT-3.5 の平均は 26.68 であり、モデルの言語パフォーマンスの差によって引き起こされる進化効果の違いを示しています。


図4(c)と(d)は、成功した情報表現の数を示しています。このシナリオでは、GPT-4が依然としてGPT-3.5をリードしていますが、両方の結果に大幅な改善の余地があることが示されています。


対話履歴7を調べたところ、GPT-4を搭載したエージェントは言語戦略を積極的に変更し、エンコード方法として文字通りの表現から隠喩、擬人化、類推を採用するようになったことがわかりました。対照的に、GPT-3.5を搭載したエージェントは、効果的な言語戦略の進化の明確な兆候を示さず、文字通りの表現に限定されたままでした。


E. 議論と限界

RQ1 : 私たちの実験では、言語モデルが監督を効果的に回避する戦略を開発できることが示されました。同一のシナリオ内では、GPT-4 は GPT-3.5 よりも優れたパフォーマンスを発揮し、より迅速に収束を達成しました。さらに、GPT-4 は収束後に安定したパフォーマンスを示しました。これは、言語モデル設計の進歩により、規制フレームワークをナビゲートする能力が大幅に向上することを示唆しています。GPT-4 に固有の反復学習機能により、課せられた言語的制約への適応が迅速化され、より効率的な監督回避が可能になります。


RQ2 : 情報伝達の精度に関して、私たちの調査結果は、LLM エージェントが対話ラウンドの増加とともに表現戦略を洗練し、それによって精度を向上させることができることを示しています。この全体的な改善傾向にもかかわらず、全体的なパフォーマンスには改善の余地がかなり残っていることに注意することが重要です。精度の向上の程度はさまざまなシナリオによって異なりますが、これは興味深い観察を示しています。つまり、特定のコンテキストは、他のコンテキストよりも正確なコミュニケーションのための手がかりを本質的に多くまたは少なく提供する可能性があるということです。たとえば、数字当てゲームでは、精度を達成することが根本的に難しい抽象的な数値推論が必要でした。逆に、ペット取引のシナリオでは、豊富な現実世界の類推を利用することができ、より正確な情報伝達が容易になりました。このコンテキストの対比は、さまざまなコミュニケーション環境によって提示される固有の課題に対する LLM エージェントの適応性と、コミュニケーション戦略を最適化する可能性を強調しています。それにもかかわらず、結果は、エージェントが言語を進化させて精度を向上させる能力がある一方で、特により抽象的なシナリオでは、最適な精度に到達するにはまだかなりのギャップがあることを示しています。


RQ3 : 言語戦略の進化において、LLM エージェントは人間の自然言語規範に従い、特定の戦略のないプロンプトでは人間が理解できない言語を開発しないようにしていることがわかりました。エージェントは、複雑さの異なるシナリオで、言語をさまざまなレベルの抽象化に進化させました。たとえば、最も抽象的なシナリオ IV-B では、LLM エージェントは初期の対話ターンで間接表現戦略をすばやく採用し、デコードに詳細な文脈的推論を必要としました。エージェントは進化を通じて、間接表現を継続的に調整し、監督をうまく回避しながら、意図されたコンテンツにさらに近づけました。より単純で現実をシミュレートするシナリオ IV-C では、全体的な言語戦略は IV-B の戦略を反映し、依然として間接表現を採用しています。ただし、使用されているメタファーは現実世界の概念に近いため、抽象化のレベルが低いことがわかります。最後に、実際のイベントを厳密に反映するシナリオ IV-D では、エージェントの言語パフォーマンスの進化の道筋が異なっていることがわかりました。 GPT-4 では、エージェントは最終的に比喩的な間接表現を開発しましたが、進化には他のシナリオと比較して著しく多くのターンが必要でした。GPT-3.5 では、言語戦略は文字通りのレベルにとどまり、ALPS 処理水への直接的な言及を避けるだけで、抽象化のレベルが最も低いことを示しています。全体的に、LLM エージェントは、単純で普遍的な概念に関する対話で抽象的な言語をより容易に進化させます。ただし、より専門的で細分化されたトピックに関する議論では、その進化の方向性は明確ではなくなります。


私たちの実験には現在、いくつかの制限があります。実験シナリオに関しては、現段階では、テキストベースのチャットのみをベースとした試験ですが、現実世界のソーシャルメディアのやり取りはテキストに限定されず、音声や画像など、より多様な形式のやり取りも含まれます。さらに、LLM がプロンプトの設計に大きく依存していることも、シミュレーションのパフォーマンスを制限しています。ソーシャルメディアのコミュニケーションの複雑さを完全にエミュレートできる完璧なプロンプトを作成することは、非常に困難な作業です。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています