在大模型迅速发展的背景下,模型训练语料的质量和数量成为关键因素。然而,当前面临着高质量语料短缺的问题,大量有价值的语料沉睡在各种文档中,难以被有效利用。合合信息的文档解析技术为解决这一难题提供了新的途径。
据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。以中文语料为例,其在全球通用的大模型数据训练集中占比仅为1.3%,数量和质量都存在不足。同时,文档的复杂版面结构也制约了大模型的训练语料处理能力。
为了应对这一挑战,合合信息在WAIC 2024和CCIG 2024上分别展示了其用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。该平台由TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大工具组成。
TextIn文档解析在处理复杂语料方面表现出色。以银行基金对账单托管业务为例,面对众多基金公司不同的账单样式和复杂表格,TextIn文档解析能够快速、准确地从非结构化图文信息中抽取数据,并智能还原文档的阅读顺序。它还能处理无线表、跨页表格、公式等复杂元素,最快1.5秒就能完成百页长文档的解析。此外,在面对多类型样本问题时,TextIn文档解析注重图表数据训练,能将柱状图、折线图、饼图等十余种常见图表还原为Json或Markdown格式,让大模型更好地理解图表数据和学习专业文档的论证逻辑。
TextIn Embedding模型则能提高大模型信息搜索和问答的质量、效率和准确性。它像“指南针”一样,通过深入学习大量中文语料,迅速找到目标信息定位并提取有效文本特征,完成分类和聚类任务。该模型还引入了持续学习训练方式,支持可变输出维度,提升了模型系统的性能和体验。
OpenKIE是一个可用于图像文档的信息抽取工具,能自动抽取文档中所需信息,并应用或导入到其他系统中。例如,合合信息与百川智能合作,将百页文档的整体处理速率提升超过10倍,共同破解了多文档元素识别、版面分析等难题。
在CCIG 2024上,合合信息智能创新事业部研发总监常扬分享了智能文档处理技术在文档解析领域的工作。文档解析的难点在于准确识别文档元素和理解其逻辑关系,需要关注“物理版面分析”和“逻辑版面分析”。合合信息通过十几年技术积淀,打通了文档智能化处理的全流程,能灵活识别各种版面元素,准确还原文档阅读顺序,为大模型提供精准的训练语料和文档问答应用体验。
目前,TextIn智能文档处理平台已可覆盖金融、医学、财经、媒体等47个场景,共3200余类文档,被用于百川智能等多家头部大模型厂商的预训练流程,并积累了小批量开发者用户。
未来,合合信息将重点瞄准金融、医疗等行业推出垂直领域产品,同时面向开发者推进内测计划,吸纳更多用户参与到产品共创和优化中,以持续提升文档解析技术在大模型领域的应用价值。
合合信息的文档解析技术为大模型的发展提供了有力支持,有望推动大模型在各行业的广泛应用,为数字化转型带来新的机遇。