阿里巴巴开源新闻时间线摘要生成系统:CHRONOS

项目简介

阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息

支持开放域新闻时间线生成,不限特定领域

处理速度快,可以处理大量新闻


  • 我们提出了Chronos,这是一种基于新颖的检索时间线汇总方法(TLS),它通过迭代提出有关该主题的问题以及检索到的文档以生成时间顺序的摘要。

  • 我们为开放域TLS构建一个最新数据集,该数据集在大小和时间表的持续时间内超过了现有的公共数据集。

  • 实验表明,我们的方法对开放域TLS有效,并通过最先进的封闭域TLS方法实现了可比的结果,效率和可扩展性有了显着提高。


⚗️开放数据集

我们发布了开放式TLS数据集以进行开放域时间轴汇总。


目标新闻查询在news_keywords.py中介绍,地面真相时间表在 data/open/{NEWS_KEYWORD}/timelines.jsonl 遵循以下格式:

[["YYY-MM-DDT00:00:00", ["", "", ""]]]

开放式TL的统计数据是:

🛠运行CHRONOS 

1 依赖

pip install -r requirements.txt

2 为data/数据集构建一个主题问题示例池。

python question_exampler.py

或者,您可以使用我们提供的data/question_examples.json ,其中包含危机,T17和Open-TLS数据集的示例。

3. 运行CHRONOS

我们发布了CHRONOS ,以完成开放域时间表汇总任务。您也可以参考我们的ModelsCope Repo来构建具有streamlit应用程序。

Replacing Keys  更换密钥

在运行之前,请在src/model.py中用自己的API键替换占位符,以调用QWEN或GPT型号

DASHSCOPE_API_KEY = "YOUR_API_KEY"OPENAI_API_KEY = "YOUR_API_KEY"

还请在src/searcher.py中将其替换为您自己的Bing Web搜索API密钥,以从Internet搜索新闻。

BING_SEARCH_KEY = "YOUR_API_KEY"

运行脚本

要尝试使用open-TLS数据集,请运行:

python main.py \      --model_name "$model" \      --max_round "$round" \      --dataset open \      --output "$output_dir" \      --question_exs

其中"$round"是最大自我询问回合,而"$output_dir"设置了包含的输出目录:(1)检索新闻,(2)生成的时间表和(3)评估得分。

项目链接

https://github.com/Alibaba-NLP/CHRONOS

扫码加入技术交流群,备注开发语言-城市-昵称

(文:GitHubStore)

《阿里巴巴开源新闻时间线摘要生成系统:CHRONOS》有2条评论

发表评论