免责声明:此信息由网站用户发布,所涉及的全部信息(包括图片等)仅供参考。本网站不保证此信息完全真实、有效,也不构成任何建议。详细请见本站网站声明。
项目介绍
项目图片()
项目附件()
感兴趣用户()
用户留言
技术项目信息登记表(供给方)
技术项目名称 |
版云—版面智能分析云服务平台 |
行业分类 |
一级
二级
三级
|
战略性新兴产业分类 |
一级
二级
三级
|
6+1产业分类 |
|
权属人所属地域 |
省
市
区
|
项目权属
(个人或单位名称) |
北京大学 |
商业计划及前景 |
|
项目简介 |
1.
项目概述
互联网时代,从传统出版到数字出版的转型已是大势所趋。《国家中长期科学和技术发展规划纲要
(2006-2020
年
)
》把数字出版和发展新媒体列入科技创新的重点。国家《文化产业振兴规划》要求出版业要加快从主要依赖传统纸介质出版物向多种介质形态出版物的数字出版产业转型,积极发展电子书、手机报和网络出版物等新兴出版发行业态;实现跨平台、跨媒体等多种数字内容服务形式;全面整合出版资源,提高传统出版物和数字出版物的利用水平,促进数字出版产业的发展。
另一方面,伴随着移动终端(如智能手机、
iPad
)的不断普及,移动阅读开始快速走进人们的生活,越来越多的报社、杂志社、出版社等内容提供商将其拥有的内容资产进行结构化整理,推送到移动终端,开发资源更高层次的应用。其间,如何快速甚至自动将现有资源加工成适合移动终端阅读的数字内容,成为数字出版商和移动阅读用户共同关心的一大问题。
本系统——“版云”
---
智能版面分析云服务平台。其主要目标是面向出版资源的原始文档,在抽取出文档布局、样式信息的基础上,再抽取出更高层次的逻辑与语义结构信息;实现对出版资源原始材料的转换加工、结构化信息提取、普适性的阅读数据生成;利用云平台在线为读者用户或数字内容加工商提供内容加工服务。基于本系统,对于内容加工商,可以自动实现文档格式的无缝转换、内容碎片化、元数据的获取等,从而大幅度提高内容深加工的生产效率,降低数字内容加工的成本,提高数字出版产业链的效益。对于终端读者用户,可以实现跨终端、跨平台的格式转换、最佳的内容呈现效果和良好的用户体验;如图
1
所示,一份报纸或者杂志,经过本系统处理后,可以同时支持版式和流式两种阅读模式,实现屏幕自适应的排版,实现不同排版格式间的自由切换,支撑各种版式,正是系统名称“版云”的由来。
2.
技术特点和技术指标
1)
技术特点
从本系统涉及领域的应用现状来看,当前数字内容(如电子书、手机报、期刊杂志)的结构化加工主要依靠人工录入、编辑、校对等流程来实现,占用了极大的人力物力,同时也严重限制了整个数字内容加工流程的生产效率。例如电子目录的制作,主要依靠手工录入目录条目,并且人工查对页码,建立导航链接。根据现有客户的反馈,人工构建目录约
30
条目
/
小时,而利用该平台技术中的目录自动定位与链接恢复技术,可以提高到
110
条目
/
小时。该领域的应用现状,是本系统诞生的需求基础,也是本系统相关技术从一推出就获得客户广泛接受的主要原因。
从本系统涉及技术的研究现状来看,以往关于文档结构化的研究,主要集中在图像格式的文档,对原生电子文档的研究才刚刚起步,相对图像文档结构化,本系统所处理文档的结构化面临着来源多样化,信息质量差异化等新问题和信息准确丰富、内容局部有序等新特性。针对所处理文档的特性,提出新的文档结构化方法和理论,填补文档结构化领域的研究空白,具有重要的科研价值。本系统的研究团队,在多类型文档,尤其是版式电子文档的结构化方面,发表了一系列研究成果,成为该领域的国际先进研究小组,提出了基于底层信息反解、文档同质性、多来源元数据补偿模型、中文文档特性等一系列新的文档结构化方法。
应用创新:在当前数字出版市场,内容从创作到消费一般经过作者、出版社、加工商、提供商、销售商等环节,如图
5
所示。但随着数字出版市场的发展和重组,业已出现了集多个角色于一身的机构,例如出版社开始倾向自己加工和销售内容,从而在数字出版产业链条上分得更多的利益。更甚至,内容由作者创作制作后,直接由读者进行消费,例如在线文学。此项目研发的数字内容加工云服务平台——版云,直接开放给数字出版链条上各个利益方,支持更多的数字出版和内容合作模式。尤其是直接对用户开放,将方便用户对内容进行二次创作,实现数字内容的
C2C
(读者对读者)的传送与分享,人人皆可创作,促进数字出版市场的繁荣
。
2)
技术指标
本系统已经完成版面理解、元数据获取等关键技术的研发,目前达到的主要技术与性能指标如下:
智能版面理解技术可以在抽取出文档布局、样式信息的基础上,抽取出更高层次的结构信息,具体包括
3
个层面,即页面级、功能页、文档级的逻辑结构信息;目前已达到整体抽取准确率不低于
85%
,页面级准确率高于
92%
,目录识别准确率高于
94%
,版面布局信息抽取准确率高于
95%
;值得说明的是,该技术可以根据客户需要进行具体定制的模型学习,性能可以进一步提升。
元数据获取技术,根据目前的技术进展,本系统业已到国际先进水平,准确度在
95%
以上。
3.
技术水平
本系统涉及的技术,是拥有自主知识产权、稀缺、前瞻性的技术,目前市场上还没有成熟的产品可供比较。
从本系统涉及技术的应用现状来看,当前数字内容(如电子书、报纸、期刊杂志)的结构化加工主要依靠人工录入、编辑、校对等流程来实现,严重限制了整个数字内容加工流程的生产效率。例如电子目录的制作,主要依靠手工录入目录条目,并且人工查对页码建立锚点链接,根据现有客户的反馈,人工构建目录,约
30
条目
/
小时,而利用该项目技术中的目录自动定位与链接恢复技术,可以提高到
110
条目
/
小时。
目前市场上的文字识别(
OCR
)软件,主要面对扫描图像文档,本软件平台主要处理海量的由排版软件直接生成的多类型电子文档(如
pdf
、
doc
)。
部分内容加工商的自有加工软件,主要提供录入、编辑、校对等简单的文件或过程管理功能,智能化程度很低,在抽取的结构信息与元数据信息方面和自动化程度方面,远低于本系统产品。
相关国外软件及开源软件,我们在研发中进行了测试比较,在绝大多数性能指标上本系统的技术优于这些软件,相关实验结果已发表。
该领域属于未成熟市场,空间巨大,应用与技术现状,使我们对本系统产品的应用前景充满信心,也是我们将技术走出实验室,进行产业化的主要动力和原因。
4.
市场状况及市场预测
目前,各大电信运营商、
IT
巨头莫不关注数字内容的建设和资源聚合,而作为数字内容流转的关键一环
---
数字内容的加工制作,正在蓬勃发展,不断产出丰富的内容产品,满足巨大的数字阅读需求。据统计全国
580
多家出版社中,超过
530
家开展了数字出版业务,已有
9300
多种纸质期刊利用
IT
技术
,
实现数字网络出版,全国
1900
多种报纸中,实现数字出版的已经超过
60%
,
49
家报业集团全部实现数字出版,这些出版社、期刊报刊社将是数字内容加工制作的主力军,是本系统的主要企业市场,而盛大文学、中文在线、同方、万方等数字内容提供商,也都有数字加工的需求。另外,
随着国家文化体制改革逐步走向深入,新闻出版实力较强的地区都成立了产业集团并且以数字出版基地形式集约化发展,如
重庆北部新区、广东、武汉、长沙、天津、西安等地的国家数字出版基地,这些数字出版基地将是数字内容加工的主阵地,也是本系统产品潜在客户的聚集地。
综上,
这些主体的数字内容加工者,目前普遍面临产能不足的困扰,内容资源加工主要依靠人工,生产效率较低且成本巨大。本系统产品作为内容加工的基础技术和助力平台,将大大提高内容加工的效率,具有广泛的应用前景和市场接受度。
就数字内容加工的机构用户而言,
包括
580
多家出版社、
49
家报业、
53
家内容数据库提供商、
1400
多家不同规模的内容加工公司、
9300
多种纸质期刊杂志,这些机构将是本软件的主要潜在机构客户,
可达到
5-
10
亿元的市场容量。随着本软件产品的不断完善,将支持对外文文档的加工制作,也将迎来本软件平台的第二次飞跃。
尤其值得一提的是,随着自媒体时代的到来,
个人用户将是本软件平台潜在的生力军客户,通过此平台进行内容转换、编辑、再加工等,社会化媒体蓬勃发展的大环境下,其市场容量难以估量。
5.
合作方式
1).
可提供定制的文档内容加工软件;
2).
可提供核心算法
SDK
或者
API
;
3).
可提供文档内容加工服务。 |
获得资助情况
(国家计划课题等) |
|
项目开发阶段 |
小试
|
样品情况 |
有
|
样品类型 |
|
项目联系人信息
如果您想查询项目联系人信息,请您登录,如您还没有开通技E网账号,请立即注册> |