常见安装部署和使用问题
1、关于v3.3.8的agent运行一段时间后停止上报数据的问题说明:GetHostInfo err: open /proc/stat: too many open files

这个是监控docker时出现的小bug,2022-05-08之前(不含2022-05-08)下载的v3.3.8安装包agent运行会出现这个问题
具体表现为agent运行一段时间后日志出现错误:GetHostInfo err: open /proc/stat: too many open files,然后停止上报数据
2022-05-08 00:00已修复此bug,并重新上传发布过(网站上公布的所有下载地址都已更新),2022-05-08 00:00后下载的安装包无此问题
解决方法
重新下载v3.3.8的agent安装包,先停止agent服务,然后将agent/wgcloud-agent-release替换为新下载的agent/wgcloud-agent-release文件
(Windows替换文件agent/wgcloud-agent-release.exe),其他文件不用替换,然后重启agent就好了

2、[wgcloud-agent]2021/07/11 21:39:19 hostUtil.go:93: GetHostTemperatures err: 发生意外。 (不支持 )
[wgcloud-agent]2022/02/26 10:37:01 hostUtil.go:98: GetHostTemperatures err: 发生意外。 (拒绝访问 )

这个错误忽略即可,对agent运行无影响。这是因为有些低版本操作系统或虚拟机,不支持获取CPU温度,没有影响。

3、wgcloud能在内网、局域网运行吗

能,wgloud的server和agent,都是完全私有化部署,不依赖外网环境

4、server无法启动问题

注意:linux检查下面红框内的文件是否有可执行权限,若无,则赋给可执行权限,

这个问题一般是JDK环境变量没有设置好(参考Linux安装JDK1.8请点击Windows安装JDK1.8请点击),或者数据库没连接成功
还有一种可能是server/config/applicaiton.yml格式问题,一般是冒号后没有保留一个空格,检查下刚改过的配置
最后,若还无法启动成功,可以看server/log/的日志文件有什么错误信息,一般错误信息都能百度到答案
如果没有日志文件生成,在server/下使用指令java -jar wgcloud-server-release.jar来测试下有无错误信息

5、agent无法启动问题

linux检查下面红框内的文件是否有可执行权限,若无,则赋给可执行权限,

若还启动不了,查看下agent/log/日志文件里是否有错误信息。或执行./wgcloud-agent-release查看,是否下载对了和系统匹配的agent版本

6、登录慢、页面加载慢,【监控概要】页面没有数字、数据显示的问题

这个问题是server没有连接上mysql数据库导致的,我们按照以下步骤排查
1.我们首先检查server/config/application.yml中mysql连接配置是否正确
2.再检查mysql是否已经启动(应先启动完mysql再启动server)
3.mysql是否允许其他IP访问
4.mysql是否已经创建了wgcloud数据库,并导入sql文件wgcloud.sql
5.若使用postgresql,排查步骤和mysql相同

7、修改server配置文件后,怎么启动不了server

仔细检查下刚修改的地方,是不是配置项目的冒号后没有保留一个英文空格,一般都是这个问题。如下保留一个空格
  #server/logo/目录下的logo图标名称,120*120,如logo.png,此功能需升级到专业版
  logoUrl: logo.png

8、server web页面打不开、404问题

(1) 查看下server/log日志文件里是否有错误信息,server主机是否已经设置了JDK1.8环境变量(若是Windows注意检查JDK环境变量是否允许当前server程序使用)
(2) 检测下server web默认端口9999是否正常连通,是否有防火墙拦截端口(Linux防火墙开启端口命令),还有可能是其他安全软件设置过拦截过滤,在本机测试下telnet [server主机IP] 9999
(3) 是server的web管理页面url写错了,应该是http://[server主机IP]:9999/wgcloud

9、WGCLOUD安全吗

360,火绒,windows defender,深信服,绿盟等都已扫描通过,安全稳定合规,没有任何后门程序,请放心使用

10、server和agent都启动了,但是管理页面看不到监控主机,什么问题

[wgcloud-agent]2022/02/26 10:32:38 daemonUtil.go:47: Get "http://localhost:9999/wgcloud/license/getDaemon": dial tcp [::1]:9999: connectex: No connection could be made because the target machine actively refused it.
[wgcloud-agent]2022/02/26 10:32:38 WgcloudAgent.go:260: 防篡改校验失败: 1
[wgcloud-agent]2022/02/26 10:32:41 licenseUtil.go:18: Get "http://localhost:9999/wgcloud/license/get": dial tcp [::1]:9999: connectex: No connection could be made because the target machine actively refused it.
[wgcloud-agent]2022/02/26 10:32:41 WgcloudAgent.go:350: Client started successfully. v3.3.6 . ©2017-2022 www.wgstart.com . All rights reserved.
[wgcloud-agent]2022/02/26 10:32:41 WgcloudAgent.go:352: bindIp: 192.168.1.7
[wgcloud-agent]2022/02/26 10:32:47 WgcloudAgent.go:156: 主机监控信息上报server错误: Post "http://localhost:9999/wgcloud/agentGo/minTask": dial tcp [::1]:9999: connectex: No connection could be made because the target machine actively refused it.
这个一般是agent访问不通server,无法上报数据
1.首先确认agent的serverUrl配置是否正确,然后在agent主机使用:telnet server的Ip 9999,测试server端的9999端口是否通着。一般都是端口不通导致的。
2.还有一种可能就是server连接不上mysql数据库,参考上面问题[3]说明
3.还有一种可能,就是安全设置规则的问题,只允许从端口9999请求数据,但不允许给端口提交数据,这种情况下日志都没有错误,需要自己检查下安全配置

11、agent打印【防篡改校验失败】和【防篡改校验错误次数大于10次】的问题

这个问题注意几点:
1.server和agent的主机系统时间差不能大于15个小时,若时间差不超过15小时的时候打印【防篡改校验错误】类似信息,忽略即可
2.v3.3.5之前版本,server主机的9997端口(这是守护进程wgcloud-daemon-release的默认端口)要开放给agent主机,保证agent主机可以telnet通server的9997端口
v3.3.5或以后版本9997端口已经不需要开放给agent访问
3.若是v3.3.5或以后版本,查看server本机是否能正常访问http://localhost:9997获得返回值,如:2faa233a1400201bedc199fe1d8ab393,若server主机的localhost不能使用,可以在配置文件server/config/application.yml,将配置项daemonUrl: http://localhost:9997 中的localhost改成server主机ip
4.wgcloud-server-release.jar不要修改
5.server和agent要保持同一个版本
6.注意server端的守护进程(wgcloud-daemon-release)不要关闭,特别是windows注意不要关闭守护进程窗口。若是Linux,查看此进程是否存活
7.server如果运行在arm、龙芯等系统,需要将守护进程wgcloud-agent-release替换为对应的版本,点击下载【2】


12、有没有用户管理模块

现在还没有,但是系统提供了一个只读账号,该账号登录后只能浏览,不能编辑修改,用来给其他部门查看用

13、支持MySql8.0版本吗

支持

14、JDK必须是1.8吗,支持JDK1.6,JDK11吗

不支持jdk1.6,推荐用JDK1.8,v3.3.5开始也支持JDK11。若不想修改原JDK环境变量,可以修改start.sh,把jdk路径直接指到1.8的目录即可。OpenJDK1.8也支持。
我们只是server运行需要JDK,agent不需要JDK

15、WGCLOUD用什么语言开发的

server使用java,agent使用go。前端页面用bootstrap4

16、支持多节点部署吗

支持。有多少主机要监控,部署多少个agent,server只部署一个,所有agent都向这个server上报数据

17、登陆、点击菜单打开页面加载很慢

一般这种情况是server没有连接上mysql数据库导致的,检查下mysql配置是否正确(参考上面问题【3】),及server日志(在server/log下)有无异常信息

18、agent需要连接数据库吗,agent主机需要连接外网吗

agent不用数据库,也不用连接外网,也不需要开放端口。agent所在主机,只要能ping通server所在主机即可

19、Cause: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'FILE_STSTEM' at row 23 ; Data truncation: Data too long for column 'FILE_STSTEM' at row 23;

一般这个异常是盘符路径太长,解决办法:修改数据库表desk_state的FILE_STSTEM长度,改为100,如果不够再加长。
碰到类似数据库列长度不够情况,修改下列长度即可

20、在哪儿添加监控主机啊?

监控主机会自动发现,无需添加。监控主机信息由agent自动上报,无需在server端管理页面添加主机,只要在agent配置文件设置好bindIp即可。

21、server和agent能部署到一台机器吗?

能,所有监控主机都需要部署agent,即使是server主机要监控也需要部署agent

22、监控端口明明是通的,为什么显示状态失败

端口监控采用在监控主机telnet localhost 3306(这里3306只是例子说明)测试端口是否开通。请在监控主机telnet测试。有可能是映射端口,
也有可能监控主机的localhost无法使用。v3.3.1已经支持在agent配置文件指定telnetIp,请升级修复此问题
v3.3.8,agent已支持监测任意IP的端口,不再局限于agent本机端口,同时也取消了telnetIp配置项

23、监控超过100台主机时,调优技巧

当监控主机超过100台时,可以适当将wgcloud-server的内存调大,提升运算能力。具体修改wgcloud-server/start.sh,
-Xms256m -Xmx512m修改为-Xms1024m -Xmx1024m

24、windows启动server时候,启动窗口一闪而过,是什么问题

一般都是没有配置JDK1.8环境变量或配置不正确导致的,在start.bat里将java改为jdk绝对路径试试

25、如何查看运行错误信息

在server/log,agent/log,一般有问题可查看这两个文件夹下的日志文件信息。

26、页面添加时,遇到字符长度限制不够用,怎么处理

一般字段的长度都是经过深思熟虑设计的,足够用。如果确实有特殊情况,可以先随便保存一个不超长度的值,
然后在数据库里修改对应表的字段长度和自己的实际值,即可

27、关于内存使用,没有计算cache说明

内存使用率 = (内存总大小-free-buffer/cache)/内存总大小*100

28、关于进程的cpu使用率过高说明

多核cpu主机,进程cpu使用率高时(>90%),是因为cpu使用率计算没有取cpu核数的平均值,
这意味着在具有2个或多个逻辑CPU的系统上运行的繁忙循环进程可能被计算为具有100%的CPU利用率而不是50%,
不过这种情况出现几率较小,即使出现也是很短暂

29、WGCLOUD的server和agent必须是相同版本吗

是的,server和agent需要保持相同版本
但是server和agent可以混用,比如server运行在linux上,agent可以运行在linux,也可以运行在windows,
反之也可以,但是前提还是server和agent要保持相同版本

30、centos5和REDHAT5,运行不了v3.0的agent

wgcloud从v3.0开始,agent使用go编写,go对linux要求为:内核版本2.6.23或更高版本,CentOS/RHEL 6.0以上,所以请升级下linux吧

31、支持微信钉钉短信告警吗

支持,在安装说明里有说明,微信告警钉钉告警,其他方式告警都可以仿照微信钉钉方式来实现

32、主机列表【删除】是什么意思

若主机已下线,删除后,将不再告警,不会再出现在主机列表中,
其下的监控数据资源(如历史数据、监控进程、监控端口、监控日志)不会被删。若是在线主机,删除后无影响,仅删除主机信息,
其下的监控数据资源(如历史数据、监控进程、监控端口、监控日志)不会被删,一分钟后会自动发现主机

33、监控主机既有linux又有windows,可以server是linux版本,agent采用windows和linux版本吗

可以,server可以部署在linux,agent可以部署在windows也可以部署在linux,同样server部署在windows上,
agent可以部署在linux上也可以部署在windows,只要保持同一个版本就行

34、需要安装tomcat吗

不需要

35、守护进程的9997端口可以修改吗,不启动守护进程有什么影响

可以修改,请查看,如何修改守护进程端口

36、logo和软件名称为什么设置后,没有生效

此功能为专业版功能,请先确认是否已经是专业版。然后记得先修改server/config/application.yml里的logo相关配置项,
另外请注意,ico格式需为png,ico暂时不支持。注意,将自己的logo图片,都放到server/logo目录下,配置文件里写错了,不是server/images

37、监控指标出现-1.0代表什么

负值代表监控资源不存在,不支持,或获取指标失败,可以查看agent/log/下的日志有没有错误信息

38、日志文件监控多长时间扫描一次

默认10分钟,可以在agent/config/application.properties里修改

39、监控主机故障后,server多长时间检测到该主机已下线并发送告警

2-3分钟

40、添加监控进程、端口、docker、日志后,多长时间能采集到指标数据

agent端5分钟内同步监控资源数据,之后按照agent的上报频率来上报采集数据

41、主机查看图表,点击【全天】页面加载慢问题

点击【全天】页面渲染慢,是因为此图表页面加载数据过多导致,可稍等一会就好,agent上报频率越快,
该主机每天产生数据越多。建议非特殊监控主机,agent设置上报时间不要小于60秒

42、进程流量指标是怎么获取的

取自Linux目录/proc/[pid]/io

43、license能更换服务器再使用吗

可以。但一个授权文件只能被一台主机的一个server使用。如不满足使用,请购买适当数量的授权文件

44、大屏展板会自动刷新吗

会,每10分钟自动刷新一次。大屏展板不需要登陆就可以浏览

45、进程监控添加,进程启动路径的关键字是什么意思

就是进程启动CMD的关键字符,保证唯一匹配进程即可,具体说明请查看,进程监控使用说明

46、进程监控列表的读取和写入指标是什么意思

读取:从磁盘读取的字节数(累积)。写入:从磁盘写入的字节数(累积)。始终-1在BSD上。负值代表进程不存在或已下线。

47、java.lang.IllegalStateException: Clock moved backwards. Refusing to generate id for 48240ms

这个异常错误是因为server所在服务器系统时间倒退导致的,一般重启server就可以自动恢复。

48、【监控概要】页面的磁盘容量总和不准确是什么原因

磁盘容量总和是统计所有主机的磁盘容量之和,系统会每小时自动刷新一次,因此看到的数据延迟

49、【监控概要】页面顶部方块里的数字是什么意思

鼠标放上面会有提示,【已下线/总数量】

50、server日志文件中时间和页面显示时间都慢了8小时

显示时间慢8小时问题如何处理

51、关于Apache Log4j 远程代码执行漏洞对WGCLOUD无影响的说明

没有影响,请放心使用,WGCLOUD采用的日志输出方式为SLF4J和Logback,查看说明

52、支持凝思操作系统吗

支持

53、daemonUtil.go:47: Get "http://localhost:9999/wgcloud/license/getDaemon": dial tcp [::1]:9999: connectex: No connection could be made because the target machine actively refused it.

这个错误一般两种可能:
1.agent主机根本就ping不通server主机
2.server主机的9999端口没开放,被防火墙或安全软件拦截了,开启端口就好了
一般就是如上两种情况,还有一种可能是server就没启动成功

54、server在windows启动,窗口中文显示乱码的问题说明

这个没有影响,忽略即可。这个是windows窗口编码导致的,不影响程序运行,server/log下日志文件没有出现乱码,我们主要看日志文件

55、关于windows 32位的agent采集上下行传输速率值很大的问题说明

请升级到v3.3.8的windows 32位agent,此版本已经将上下行传输速率值置为0,因为我们发现很难支持window 32位系统的上下行传输速指标采集,所以请尽量不要用windows 32位 agent

56、主机连接数量是什么

主机连接数量是指主机tcp、udp、inet协议的连接总数量

57、主机系统负载是什么

表示系统CPU繁忙程度的度量,一段时间内系统的平均负载,这个一段时间一般取1分钟、5分钟、15分钟
系统平均负载值指的是系统在最近1,5,15分钟内的压力情况,负载值越低越好
如果服务器的CPU为1核,则load average中的数字 >=3 就是负载过高
如果服务器的CPU为4核,则load average中的数字 >=12就是负载过高

58、agent监控docker错误 GetDockerApiContainerList err: Error response from daemon: client version 1.41 is too new. Maximum supported API version is 1.40

原因描述:api现在最多只能支持到1.40,但是client是1.41版本的
解决方法:解决方法点击

59、WGCLOUD部署好后默认没有主机的进程、docker、端口的监控信息吗

是的,WGCLOUD客户端默认不会监测主机所有的进程、端口等信息,需要我们手动添加自己需要监测的资源
WGCLOUD部署好后,客户端默认会监测主机的所有指标信息(比如cpu、内存、系统信息、磁盘空间、网络流量、系统负载值等)
但是进程等信息需要我们手动来添加,比如我们关注的业务系统的进程、端口、docker、日志等资源,wgcloud默认不监测主机所有进程、端口、docker等资源的,
这样系统压力也大,而且也没有必要的