互联网舆情监测开发平台-白红宇

互联网舆情监测开发平台

阅读量：6257 次

发布时间：2019-06-22

本文共 1171 字，大约阅读时间需要 3 分钟。

一、简介

互联网舆情监测市场已经发展了一段时间了，企业口碑监测服务也越来越热门。很多企业拟开展类似的业务，苦于舆情监测的技术门槛较高，企业无法投入足够的研究性力量进行相关技术的探索。

灵玖软件：

互联网舆情监测开发平台急相关企业之所急，融合了互联网深网采集、自然语言理解、网络搜索和文本挖掘的研究成果，提供了用于技术二次开发的子系统和API接口，可运行在Windows，Linux，Android，Maemo5,

FreeBSD等不同操作系统平台。

开发者只需要利用该平台，就可开发出种种丰富的舆情口碑业务功能，实现具有市场竞争力的舆情监测系统或服务。

二、主要架构

【注】采集可通过手工配置实现分机、分库、分表存储；索引可以通过编写脚本实现增量式扩展（inserttime为增量标识字段）。

三、部署方法

3.1采集器的部署

采集器可以根据需要部署在一台或多台机器上；同一台机器也可以部署多个采集器软件，普通性能机器就可满足。具体参考如下：

图1采集器工作流程

图2采集器基本配置文件SiteGather.xml

图3采集定向网站任务数据库表配置示例elint_web_siteconf

图4采集器运行界面截图（点击run_gather.bat运行采集器）

图5采集文件结果截图

图6采集文章结果数据库表示例elint_web_docinfo

图7采集跟帖结果数据库表示例elint_web_multiinfo

3.2搜索器的部署

搜索器建议部署在一台机器上，最好具备4G以上内存、2T以上硬盘。利用DBSearch_packet目录下对应的文件，搭建数据库搜索引擎服务的步骤（Windows下支持ODBC方式读取数据库，Linux下目前支持MySQL与Oracle）：

第一步：配置数据库读取参数

配置数据库信息IndexFile\dbConf.xml

配置信息如下所示：

MaxMem为系统建立索引时可以分配的最大内存，内存越大，建立索引越快，但是最大不能超过2GB，同时，需要结合机器特点，内存小的机器，分配大内存往往导致建立索引不成功。

注：为保障数据库连接成功，需要在索引服务器（可以和数据库服务器不是同一台机器）上，在“系统配置/管理工具”中建立连接该数据库的ODBC。

第二步：配置数据库字段信息列表

配置字段信息，结果写入index\FieldInfo.txt

第三步：建立字段信息文件和索引文件

执行BuildIndex.bat。

第四步：启动搜索服务

执行StartServer.bat启动搜索服务。

第五步：检查搜索结果

启动JZSearchAgent.exe，输入检索语句，检查搜索结果是否正常。

转载于:https://my.oschina.net/u/944984/blog/124424

你可能感兴趣的文章