发布中文文档类资源仓库-ChineseDocumentPDF

news/2024/9/30 21:19:25

引言

今天中午,排队打饭间隙,刷到新闻,说是:360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。

面向中文论文及研报两个场景的轻量化版式分析模型已经开源:

  • Github地址:https://github.com/360AILAB-NLP/360LayoutAnalysis,
  • 模型权重huggingface地址:https://huggingface.co/qihoo360/360LayoutAnalysis

巧的是,这一直是我前一段时间以来想做并且在做的事情,只是刚开了一个小头。

版式分析

因为我发现版式分析是一个很关键的模块,尤其是现阶段RAG广泛应用的前提下,版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明:

image.png

通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。因此,版式分析是后续一切工作的基础。

而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。

因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!这不360先做了,我就把前期收集的PDF链接做了整理,就有了Chinese Document PDF仓库。

Chinese Document PDF

该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。

因涉及到版权问题,我这里只放置PDF链接和对应的下载脚本,小伙伴可以自行下载。

该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/45111.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序-uniapp-切换tab时数据列表如何切换?

如图: 这里有两个tab,要保证每次切换后列表保持不变,就必须在运行时要有两个持久化的数据源,每个tab是一个列表,让我们来设计一下这样的数据结构。 首先我们的数据结构是这样的: 体现在vue的data是这样的: 正好对应tab的索引,当tab改变时,tab会回调索引: 模版中则动…

CS后门源码特征分析与IDS入侵检测

CS后门源码特征分析与IDS入侵检测考核作业 上线x64 getshell抓心跳包,对特征字符解密Uqd3用java的checksum8算法得到93,说明是x64的木马public class EchoTest { public static long checksum8(String text) { if (text.length() < 4) { return 0L; } text = text.replace…

Teamcenter AWC aw-chart自定义图表

1.从服务器获取数据:export const queryChartsData =function(data) { // return new Promise(function (resolve) { // setTimeout(function () {var URL_service =get_URL_service()+"reports/get_workflow_datas";//eventBus.publish("progress.start&…

VideoGeneration

一些读过的视频生成相关的论文Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets 主要贡献:设计了一套数据清洗策略来清洗大规模的低质量的数据,用于训练T2V的SOTA模型,并证明了此模型具有足够强的关于动作和3D的先验知识可以用于视频相关的…

Beego仿小米商城RBAC管理模块

Beego仿小米商城RBAC管理模块 原创 Go大神 Go大神 2024-05-20 20:38 浙江一、RBAC表结构 1、表结构图2、models\manager.go package modelsimport ( _ "github.com/jinzhu/gorm")type Manager struct { Id int Username string Password string Mobile …

第1章 计算机网络和因特网

本章流程图1.1 什么是因特网 回答这个问题:我们更够描述因特网的具体构成(nuts and bolts),即构成因特网的基本硬件和软件组件。 我们能够根据为分布式应用提供服务的联网基础设施来描述因特网。1.1.1 具体构成描述 端系统通过通信链路(communication link)和分组交换机(…

TCP协议的客户端和服务端的多路复用

#include <stdio.h> #include <sys/types.h> #include <sys/socket.h> #include <arpa/inet.h> #include <unistd.h> #include <string.h> #include <sys/time.h> #include <sys/select.h> int main(void) {//1.创建套接字in…

Web应用课 第四讲 内外边距、盒子模型、位置、浮动、名片实战

内外边距 margin 内边距 margin属性为给定元素设置所有四个(上下左右)方向的外边距属性。 可以接受1~4个值(上、右、下、左的顺序) 可以分别指明四个方向:margin-top、margin-right、margin-bottom、margin-left 取值 length:固定值 percentage:相对于包含块的宽度,以百…