随着信息代的到来，海量语音的获取和存储能力愈发强大，基于会议办公的实际场景，会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。同时，每年有各种类型的会议需要举行，包括视频电话会议、专题办公会、汇报演讲会等多种会议类型，其中大都需要进行会议纪要的整理与输出。当前会议录音整理，会议纪要编辑耗时长，强度大，重复性强，占据了工作的很大一部分时间，给从事此类工作的秘书和文员造成了一定的困扰。

结合日常办公现状，当前各类型会议，特别是重大、大型会议，需要指派专职会议记录人员全场记录，而大部分会议介于涉密等原因，只能依靠内部人员进行记录。很多重要会议具备时间长、信息量大、纪要输出严等特点，这对会议记录人员提出更高要求，会议记录和整理的工作强度大，且仍可能存在信息遗漏或会议思想理解偏差等问题，亟需得到解决。

1.2. 建设重要性

语音识别（Speech Recognize ）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来，语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发，可满足视频会议、会议演讲、会议研讨、沟通交流、大型会议等一系列需要进行实时文字转写的场景。

本次建设智能会议系统项目，主要解决纯语言交流场景下容易造成的信息偏差、会议记要整理工作量大、重要会议信息得不到体系化管控等问题。项目建成后即可使用，每次会议完成后短时间内即可完成所有相关会议记要的整理工作，同时，每一个人的发言均可记录在纪要当中，可有效减少因不同原因造成的会议精神理解的偏差，提升纪要整理的效率。

此部分项目的实施，对办公信息化水平革新具有战略性意义：

1）通过语音+文字的双重信息输入，加强与会人员对会议精神的理解程度，提升会议成果

2）降了会议记录人员的工作强度和难度，提升了他们的工作效率和工作成果的准确性；

3）智能会议产品的应用，可以大大缩短会议纪要输出周期、会议信息检索时长，降低人员及时间成本；

4）系统提供对会议的统一管控，通过信息的积累，有助于会议知识库成果的建设与应用。

2.
建设内容及目标

本项目基于私有云搭建网络版智能会议系统，完成8个终端会议室的接入，实现对目标场所内办公会议、视频会议、演讲汇报、交谈讨论等会议场景的语音文字化处理。

本期应用建设目标是为建设面向海量会议语音的智能会议转写应用系统，能够通过语种识别技术，智能识别海量语音的语种，实现会议过程中音频实时转写成文字，会议过程中快速记录，会议结束后及时成稿的功能，在整体上打造样板化智能语音转写会议室。

后续规划建设将结合语音识别、大数据挖掘、语音检索等智能语音技术，进一步挖掘海量会议语音的多维度信息，进而实现按多维度信息的检索，并支持语音快听、出材，最终达到大幅提升会议工作效率及能力范围的目标。

3.
总体架构设计

3.1. 逻辑架构

智能会议系统采用分层的方式设计与建设。系统逻辑架构上共分为三层：基础设施层、平台层、应用层。

Ø 基础设施层提供基础计算能力、存储能力、网络支撑能力，保障整个系统安全、稳定、高效运行。

Ø 平台层提供中文语音转写、全文检索等智能语音与基础业务能力。

Ø 应用层针对中文语音转写提供控制管理终端实现对系统以及业务的管理，屏幕显示终端实现会议过程中结果展现给参会人员的功能；音频采集服务通过声卡、麦克风等硬件设备完成音频的实时采集。

系统的逻辑架构如下图所示：

3.2. 物理架构

智能会议系统由多个服务端集群和部署在不同场所的终端设备构成。

服务端主要包含：中文转写引擎服务、应用服务器、分布式文件存储服务集群、全文检索服务集群。具体来说，中文转写引擎服务集群用于部署中文转写引擎，提供中文语音转写能力；分布式文件存储集群主要用于音频文件的存储；全文检索服务集群用于部署全文检索服务，提供全文检索的能力。

终端设备一般包括：PC工作站、展板客户端、大屏幕、声卡以及麦克风。具体来说，声卡与麦克风用于完成语音的采集；PC工作站提供工作界面供用户完成系统的使用与管理工作；大屏幕用于向参会人员显示中文处理结果。

说明：

Ø 1号服务器为应用服务器集群，采用两台服务器的容灾设计，主要部署智能会议系统业务服务以及用户管理服务，用于提供会议管理和会议操作以及用户相关的管理和设置能力。

Ø 2号服务器为转写引擎集群，采用两台服务器的容灾设计，主要部署核心转写引擎以及引擎服务，提供音频到文字的转写能力。

Ø 3号服务器为分布式文件存储(FastDfs)集群主节点和分布式全文检索集群(Elasticsearch)副本，提供音频的分布式存储能力以及主要转写内容的副本的存储和全文检索能力。

Ø 4号服务器为分布式全文检索(Elasticsearch)服务器主节点以及分布式文件存储(FastDfs)集群副本节点，提供转写内容的主存储和全文检索能力以及音频文件的存储副本。

3.3. 业务流程

每个会议室需要配备展板服务器、声卡、客户端笔记本等终端设备，通过与会议室内已有的音响系统、投屏设备进行连接，实现对现场会议、视频会议等会议场景下的语音采集转写、上屏展示能能力。各会议室的设备连接图及数据走向，示意如下：

流程说明：

Ø 主流程：在会议开始时，智能会议客户端发送命令给服务端开始会议，服务端通知展板端的录音服务开始录音，服务端接受录音服务发送的音频流开始转写并把转写结果发送给展板客户端和智能会议客户端。

Ø 声音收集流程：展板端录音服务通过声卡在调音台获取音频并对音频进行处理后发送给服务端进行转写，其中声卡和调音台之间用音频线（6.5mm转3.5mm）连接、展板电脑和声卡之间用USB线连接，展板电脑和服务器之间通过网络进行传输。

Ø 文字编辑流程：用户通过智能会议系统客户端界面进行文字编辑，智能会议系统客户端将编辑后文字通过网络同步到服务端。

每个会议室需要配置包括声卡、展板服务器、KVM控制台、智能会议客户端电脑等终端设备，各设备的作用说明如下：

Ø 声卡：通过调音台收集发言人通过麦克风发出的声音，并将声音的模拟信号转为数字信号传给展板端的录音服务。

Ø 展板服务器：用于部署录音服务和展板客户端应用，在有上屏需求的情况下，与投影仪或电视通过VGA或HDMI视频线进行连接，负责收取声卡传送的录音数据，接收智能会议客户端提供的转写结果信息，实现实时上屏展示。

Ø KVM控制台：为了方便用户对展板端服务端进行查看和编辑, 与展板客户端配合展示转写结果，接收智能会议客户端的音频转写结果，通过投影仪将转写结果展示在大屏幕上，实现现场实时上屏。

Ø 智能会议客户端：用户通过智能会议客户端进行会议的管理、关键词和禁忌词的添加、会议内容的编辑主要包括：一是控制实时会议开始、暂停、结束，会议列表查看，会议内容和音频导出；二是会议内容编辑、关键词和禁忌词的添加；三是实现导入文件转写。

4.
施工环境要求

本项目是基于专网搭建的私有系统，需要满足一定的场地环境及网络基础，且系统的应用要与会场内的音视频设备连接、满足前端收音和上屏展示需求。

4.1. 整体要求

环境指标要求
网络	网络带宽100M以上网络延迟<=100毫秒网络丢包<=0.01% 客户端和服务端之间网络互通（全双工）
电源	服务器：AC220V 1500W 展板端：AC220V 500W
机柜	服务器：高度：2U、深度：800MM 展板端：高度：3U、深度：500MM
音频接口	需提供一路音频输出接口，支持：卡侬公、大三芯、双莲花
视频接口	需提供一路视频输入接口，支持：HDMI、VGA
音频质量	背景噪音 < 50分贝，会议室混响T60 < 1.5秒

4.2. 详细要求

4.2.1. 机柜及电源

智能会议系统网络版采用专业选型的服务器硬件形态，其中服务器每个占约1U的空间，同时要满足AC220V、1500w 电源要求。

部署在会议室中的展板端需要3U空间，用于放置展板端及声卡，安装于正常室内机柜上，设备深度为500MM，同时需要500W电源。

4.2.2. 网络环境

本项目为网络版部署架构，服务器部署在中心机房，展板、主控端部署在会议室，使用专有网络，会议室需要为展板、主控端提供两个网线，并保证两个网线和服务器之间网络互通（全双工），网络带宽要求在100M以上，网络延迟<=100毫秒，网络丢包<=0.01%。

4.2.3. 音视频接口

该系统是基于音频基础上实现语音转写，麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集，需要现场音响设备（调音台或相关音频设备）提供一路音频输出供转写，同时设备接口支持卡侬公、大三芯（6.5）、双莲花输入。

如有展板上屏需求，需要会议室内配有投影仪或者电视机，且具备VGA或者HDMI接口任意一种，展板通过连接投影仪或者电视机进行投屏展示。

5.
建设方案

5.1. 建设原则

为确保实现智能会议平台建设目标，充分发挥语音核心技术能力，系统在设计时须遵循如下原则。

1）标准化设计

系统设计需采用的各项软、硬件设备、技术等均应符合国际通用标准，符合开放性原则，使用的技术要与技术发展的潮流吻合，保证系统的开放性和技术可伸性，与未来技术发展应具有良好的兼容性。

2）模块化设计

系统应采用模块化设计方式，并对大部分功能实现插件化管理。平台中各个服务和模块的设计都采取“高内聚、低耦合”的原则。每个服务和模块都应当是能够独立运行的模块，模块和服务之间通过基于业务的标准接口进行互联，杜绝了模块的复杂依赖关系。

3）界面友好性

系统交互界面应采用“以任务为中心”的方式设计，系统所有主要功能采用统一形式展现，不同应用群体均能方便操作使用。对于复杂的应用，系统采用图形化等符合用户思维方式的直观形式设计，使得极其复杂和枯燥的数据操作界面变得简单直观，大大降低了用户使用各种复杂功能的难度，提高了功能的使用频率。

4）稳定性设计

系统在设计过程中，应能根据模块和服务的功能、重要性等分别采用容错、备份等技术，以保证局部的错误不影响整个平台的运行。

5）安全性设计

为保证系统后续使用的安全，在设计过程中需要考虑物理安全、网络安全、数据安全、应用安全。物理安全包括物理位置的选择，物理访问控制，防盗窃和防破坏，防雷击，防火，防水和防潮，防静电，温湿度控制，电力供应，电磁防护。网络系统的安全需求包括网络边界安全需求、入侵监测与实时监控需求、安全事件的响应和处理需求分析等几方面。应用系统安全包括身份鉴别、访问控制、通信完整性、通信保密性、抗抵赖、软件容错、资源控制、代码安全。数据安全根据数据的产生，传输，存储，消亡环节，对数据采用相应的安全保护措施。并根据数据的重要性采用合适的保护手段。确保数据的完整性、保密性，并做系统数据备份和恢复，保障系统的整体安全要求。

5.2. 软件部分

本项目软件部分的建设内容包括：中文语音转写引擎、智能会议系统的建设。

5.2.1. 核心引擎建设

智能会议平台需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术，通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息，有史以来第一次实现了识别十个英文数字的语音识别系统-Audry系统。八十年代，Bell实验室的Rabiner等科学家将原本艰涩难懂的隐马尔科夫模型（Hidden Markov Model-HMM）理论工程化，形成了较为完善的概率统计模型体系，识别性能也得到了很大的提高。2006年以来Deep Learning理论和技术成为了模式识别领域的一个热门研究方向，G. E. Hinton等深入研究了深度置信网络（Deep Belief Network-DBN）以及深度神经网络（Deep Neural Network-DNN）等模型结构，微软通过与Hinton合作率先将DNN应用于语音识别任务，识别性能取得了显著提升。此后谷歌、蒙特利尔，以及IBM又将循环神经网络（Recurrent Neural Netwok-RNN）成功应用于语音识别领域，特别是长短时记忆（Long-Short Term Memory）神经网络结构，取得非常出色的语音识别性能。加上目前图形处理器（GPU）计算能力的提升，以及互联网时代大规模标注数据获取成为可能，基于深度学习的语音识别技术已经在多个领域达到实用水平。

传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互，智能会议平台需要基于机器语音识别技术构建语音转写引擎。智能会议平台构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力，具体包括中文语音转写引擎与英文语音转写引擎，本系统需要完成中文语音转写引擎的建设。

5.2.2. 应用功能建设

5.2.2.1. 用户管理

智能会议系统采用账号密码登录，在提升用户安全体验的同时，分账号进行管理；系统可根据需要配置提供管理员账号和普通账号，管理员账号可查看全部列表内容，普通账号仅支持查看当前账号下的内容。不同账号间的数据进行逻辑和物理隔离，保证数据安全性和私密性；满足用户不同用户、不同权限的管理需求。

5.2.2.2. 音频采集处理

智能会议系统需要通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作，需要由强大的音频采集处理模块。系统讲通过使用特定的录音服务，通过麦克风收集后，送达后台服务端完成编码工作，实时上传到系统，供后续的转写文字等功能使用，同时保存到内容管理模块中。

5.2.2.3. 实时语音转写

系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别，并持续进行转写结果文本内容的输出。

5.2.2.4. 历史语音转写

相比于实时语音转写模块，历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力；用户可以通过系统提供的功能按钮，导入历史音频并实现快速离线转写；支持音频批量导入。

图 1 历史音频转写编辑效果图

5.2.2.5. 内容编辑

在实时语音转写过程中用户可以实时对转写出的文本结果进行编辑，并进行重点内容标记。在实时编辑的过程中采用延时播放的策略，用户可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持选择查看原始结果，对比修改，方便快捷，会议结束后即可直接成稿,并根据重点内容，整理导出会议纪要。具体功能包括：

延时播放：在实时语音转写过程中,识别结果展现之后再开始连续播放音频，即用户在看到转写文本的时候，同步听到对应的音频,使得校对和编辑更加便利。

重点内容标记：在实时语音转写过程中或者暂停和结束时，用户均可以选中文本来进行重点内容的标记，已标记的文本也可以进行修改和标记取消，方便整理会议纪要，会议结束会后即可或直接成稿。

音字对照：在实时语音转写暂停的时候，用户如果对于有些内容没有听清，对于文本内容不确定的情况下，双击原始结果即可听到文本对应的音频，方便用户对写结果进行编辑，尤其是不小心误删除了编辑文本，可以通过回听原始结果来进行回溯。实时语音转写结束状态时，原始结果及编辑结果均可双击进行音频回听。

图 2 实时语音转写效果图

5.2.2.6. 效果优化

在实时语音转写过程中，智能会议系统通过提供语气词过滤、自动分段等功能自动优化文字转写和显示结果。具体包括：

自动分段：在会议内容实时语音转写成文字的过程中，为了方便用户编辑何查看，系统提供根据VAD+固定字数和 VAD+固定关键词两种自动分段方式。系统提供最佳的默认自动分段方式，用户也可根据实际情况进行设置。

语气词过滤：用户可以在实时语音转写开始前或者进行文稿整理时可以根据需要选择是否开启语气词过滤按钮，若开启按钮可将语气词和多余的词汇去除，以保证文稿的规整。语气词过滤只针对新转写的结果，已经修改过的内容不支持过滤。

关键词优化：用户可通过关键词优化功能将此次会议相关的关键词进行添加，能有效提升该关键词的识别准确率。实时转写过程中用户也可添加关键词，并且可以实时生效，后续识别结果可得到有效优化。

5.2.2.7. 内容展示

系统通过提供展板上屏等形式进行实时语音转写结果的展示。具体功能包括：

实时上屏：通过展板上屏展示中实时语音转写结果。并且，字体颜色和展板背景颜色可以根据实际情况需要进行调整。

图 3 展板效果图

上屏后台修改：如果在实时转写过程中使用了实时上屏功能,希望保障上屏效果，那么可以使用上屏后台修改功能进行展板端的结果纠正。在开始时点击展板按钮，调出展板，此时该展板端会同步出现识别文字。如果在转写过程中出现明显错误或不适宜展示的词语，则可以在主控端进行展板编辑，可以修改或删除,修改之后按Enter 键则修改的内容会同步到现场的投影屏幕上。

5.2.2.8. 内容管理

所有通过智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进行管理，后台通过分布式存储集群实现高效安全存储，整个过程用户无感知。用户可以通过内容管理模块随时查看和编辑，并且可以根据名称等信息快速检索。此外，编辑后的全文本、重点文本以及音频、某一角色的文本，用户都可以快速导出,方便快捷。

5.2.2.9. 全文检索

系统通过自然语言理解、语音识别和语义分析技术理解用户意图，执行用户的检索指令（包括语音、文本等），实现资源文本内容的语音搜索服务能力，不仅能检索文本资源，也能根据文件名对音视频内容进行搜索。该服务在传统的文字输入搜索方式基础上，不仅能支持搜索语音时的相对自由表述，也应当能够支持传统文字检索时的相对自由表述。

6.
售后服务体系

我公司为本项目提供所售软硬件终验后1年的质保服务，具体售后服务内容承诺如下：

序号	服务	周期	项目	数量
1	质保服务	1年	首次上门安装、调试	1次
2			首次系统使用培训	1次
3			通过软件升级的方式提供效果优化	2次/年
4			提供更新后系统的使用培训	2次/年
5			移机安装服务	1次/年
6			设备保养或故障处理，提供远程支持或上门服务	7*24小时

ꄴ前一个：无

ꄲ后一个：无

电话：03135900800 03135900888

地址：张家口市桥东区胜利中路24号高科技产业加速器B213室