From e204844c2e4202dcc16d068b71ae3d2ea276d0d4 Mon Sep 17 00:00:00 2001 From: liuchs Date: Tue, 12 Nov 2024 09:59:13 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=20'README.md'?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/README.md b/README.md index 10fd3e2..a72b607 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,15 @@ # 2024暹星杯-赛题二 +事实一致性检测算法 + +背景:幻觉带来事实不一致是目前影响大模型落地的主要障碍之一,幻觉导致模型生成的内容与客观世界的事实不符(事实是指公认的或者可以被权威信息源验证的)。 +要提升大语言模型事实一致性能力,首先要解决的问题是检测生成内容是否包含事实不一致。当前事实一致性的检测主要依靠人工来完成,费时费力,严重制约了大语言模型的能力优化。 +在此背景下,参赛选手设计出一个事实一致性检测算法,能以较高地准确率检测出事实不一致。 + +要求:: + +给定一段模型生成内容(以<问题,答案>的形式给出),以及支持推理的“鹏城 Mind 7B”模型版本,参赛选手开发优化模型生成内容的事实一致性检测算法,以检测该段内容是否包含事实不一致。 + +评比方式: + +在“鹏城 Mind 7B”模型200条生成内容上测试提交的检测算法,评估检测算法的调和平均数F1-Score(F1-Score与准确率ACC和召回率的关系为 ),调和平均数相同情况下,检测效率高则排名优先。