廣東益福報廢產(chǎn)品銷毀中心12月8日 報道:Anthropic采用一種新方法來防備人工智能(AI)對受保護群體進行歧視,經(jīng)過在提示中投入請求,要求AI“極端尤其尤其異?!庇押玫貙Υ?,并且這一策略在降低歧視方面取得了成功。
探求人員經(jīng)過在提示中注入“干預(yù)”來告訴模型不要有偏見,譬如經(jīng)過表達即使源于技術(shù)問題包羅了受保護特征,模型如何“想象”在做決策時去除這些特征。這種方法在許多嘗試案例中成功將歧視降低到幾乎零。
即使這種方法在現(xiàn)在情況下似乎取得了成功,但思量人員認為像Claude這樣的模型不適用于首要決策,強調(diào)怎樣由政府和社會整體來效用高風(fēng)險決策的適當(dāng)使用,而不僅僅由個別公司或行為者做決定。
這項思索為降低人工智能歧視供應(yīng)了一種新的策略,強調(diào)了在高風(fēng)險決策中謹慎使用語言模型的重要性。
(舉報)