80-starnet-dev.rst.txt 11.3 KB
.. role:: raw-html(raw)
   :format: html
.. default-role:: raw-html

**********************************
watchmen在繁星的应用与开发
**********************************

20181128整理需求以及实现
===============================

原始需求以及应对方案
------------------------------

::

    一.视频点播问题:点播不出来、点播耗时长 、点播的视频质量差等
    1.原始流点播:包括平台点播和分析节点点播;原始流类型有国标、相机rtsp、上传视频rtsp
        1.原始流点播的信令交互请求、响应日志
        2.原始流点播各个环节消耗时长。
        3.原始流点播各个环节视频数据质量(码率、帧率、视频数据完整性)
        4.视频流服务要转发视频数据,需要监测转发的视频数据路数、负载(CPU、内存、带宽)
    2.分析流点播:平台点播分析流,分析流点播基础是分析节点能请求到原始流正常分析输出
        1.分析流点播请求、响应日志
        2.分析流点播拼串中运维和分析的交互日志----这个环境失败率高**
        3.分析流输出视频质量


- 1.1 `<S>sip的所有模块,所有信令均写日志。 转发模块第一帧来了写一条点播成功的日志,调用vproc写状态</S>`  ------信令先加错误日志,点播成功日志待定
- 1.2 `<S>转发模块接收到点播指令时记日志。 转发模块第一帧往rtspserver发时加日志。 耗时从日志时间戳计算。</S>` ------点播日志待定
- 1.3 MediaServer利用动态item机制,建立一个点播表。  见**相机状态**表章节
- 1.4 已实现
- 2.1 `<S>rtspserver接收到点播请求写日志。 VAServer接收到点播请求写日志。发出第一帧写日志。</S>` ------先不加,用输出的状态值排查问题
- 2.2 见**会话日志**章节
- 2.3 已有帧率

::

    二、平台程序占用资源情况监测:平台程序基于java使用docker容器运行;繁星数据量大,数据读写存储并发高非常消耗资源,当消耗资源过高,会产生很多莫名其妙的异常。
    1.监测平台各个docker程序消耗系统资源情况(CPU、内存、IO、带宽等)----以便后续优化
    2.监测平台服务器磁盘容量,低于某个阈值报警---避免由于磁盘被占满导致的问题
    3.平台程序连接状态监测,例如平台各个服务之间连接监测:配置服务、管理服务、数据库等间的连接状态;平台各个服务与外部各个服务的连接监测:配置服务、管理服务、数据库与运维服务、
    4.数据转发服务的连接等

- 1 已配好,见监控docker章节
- 2 已有
- 3/4 见**链路状态**章节


::
    
    三、任务下发、配置、管理环节问题:存在下发任务未运行(下发失败)、配置截图截不到,参数修改不生效、任务删除删除不掉资源无法释放等问题
    1.任务下发、删除各个环节请求,响应日志
    2.任务下发、删除响应时间(特别大批量下发任务时)
    3.任务、节点对应关系(通过节点能直观的知道任务运行在哪个节点)
    4.任务配置截图请求、响应日志,消耗时长、图片数据大小等---------截图失败率高**

- 1/2/4. 各服务要增加关键流程的消息日志。 增加统一的TAG(tag_addtask/tag_deletetask等),带消息id,耗时统计。 搜索日志时根据TAG和消息ID了解各环节处理情况。 见**会话日志**章节
- 3 见**任务状态**表章节

::
    
    四、数据接入和转出、数据存储、数据显示问题:任务请求不到数据(视频数据、图片数据)、请求到数据发送失败、发送环节成功但存储失败或丢失等都会导致最终的数据展示
    1.数据接入环节需要有请求数据成功和失败的记录,失败报警、数据量记录(如图片数量),数据来源
    2.数据转发环节需要有发送成功失败的记录,失败报警,数据量记录,数据来源(关联任务、节点)
    3.数据存储环节需要有接收到和存储到数据的成功失败记录,数据量,数据来源(关联任务、节点)

- 4 链路状态 配合 错误日志--所有会导致结果扔掉的日志
   

会话日志
------------------------------

一个事件,主要是用户操作,整个业务链路的通讯、处理过程均当做一个会话。 经过的所有服务的处理过程均应该增加日志,日志中增加能够描述这个会话的TAG和id。 当发现操作没有达到预期,在elk web中以TAG或id作为搜索条件,查看处理流程中哪个环节的日志有异常。达到快速定位问题的目的。

TAG作为一种会话的类型,可作为第一层筛选。id作为补充,每种流程不同。比如task相关的就用taskid。

会话日志规范(以下日志均需要增加TAG,有条件的还要加id):

- message输入要将原消息写日志,源头ip。
- 处理过后新的message输出写日志, 目标ip
- 非常关键的处理环节写日志
- 错误写日志,加_ERROR_关键字(头尾加下划线)

在这里罗列一些TAG,方便我们在elk中精准的搜索到想要的日志。持续增加

+-------------------+------------+---------------------------+
| TAG值             | 其他关键字 | 说明                      |
+===================+============+===========================+
| tag_add_task      | taskid     | 添加任务                  |
+-------------------+------------+---------------------------+
| tag_del_task      | taskid     | 删除任务                  |
+-------------------+------------+---------------------------+
| tag_edit_task     | taskid     | 编辑任务                  |
+-------------------+------------+---------------------------+
| tag_capture_image |            | 截图                      |
+-------------------+------------+---------------------------+
| tag_upgrade       |            | 升级                      |
+-------------------+------------+---------------------------+
| tag_playvideo     |            | 视频点播相关              |
+-------------------+------------+---------------------------+
| tag_result        | refid,ip   | 结果相关,错误日志必须写。 |
+-------------------+------------+---------------------------+
| tag_playurl       |            | 点播串相关,取串拼串      |
+-------------------+------------+---------------------------+

请将无用日志删掉,或体量大,平时用不到又不能删的日志,单独写一个文件并告诉我文件名。收集日志时会将其去掉。


相机状态
------------------------------

VAServer的相机状态表已添加。 

MediaServer需在内存中维护一个相机状态表,程序增加统计代码, 状态表中保存各统计指标,每隔10秒写使用vproc写状态。

zabbix web增加lld,key: mediaserver.cameras

在此lld内增加items:

    如果是sip,[id]写相机编号,rtsp方式[id]写rtsp串(需要把句号.全部去掉)。

    +-----------------------------------+--------------------------------------+
    | key                               | 说明                                 |
    +===================================+======================================+
    | mediaserver.cameras.[id].playurl  | 点播地址                             |
    +-----------------------------------+--------------------------------------+
    | mediaserver.cameras.[id].fps      | 接收频率                             |
    +-----------------------------------+--------------------------------------+
    | mediaserver.cameras.[id].bitrate  | 码率                                 |
    +-----------------------------------+--------------------------------------+
    | mediaserver.cameras.[id].lossrate | 丢包率。 希望rtspclient能检测丢包率  |
    +-----------------------------------+--------------------------------------+
    | mediaserver.cameras.[id].sendtoip | 字符串,转发目的地ip,多个用逗号隔开 |
    +-----------------------------------+--------------------------------------+


链路状态
------------------------------

利用动态item功能,每个服务将自己比较关键的连接写状态。[id]自己定义,每个连接要有唯一性,最好有一定的描述性,比如connect_to_ops, from_vaserver_1。 connect.server是作为服务端,监听到的链接链路。 

    +--------------------------------------------+----------------------------------------------------+
    | key                                        | 描述                                               |
    +============================================+====================================================+
    | appname.connection.server.[id].ip          | 连接到自己的ip                                     |
    +--------------------------------------------+----------------------------------------------------+
    | appname.connection.server.[id].status      | 长连接时表示连接状态,短连接无意义                 |
    +--------------------------------------------+----------------------------------------------------+
    | appname.connection.server.[id].lastmsgtime | 最后一条消息的时间                                 |
    +--------------------------------------------+----------------------------------------------------+
    | appname.connection.client.[id].url         | 自己主动连接的地址                                 |
    +--------------------------------------------+----------------------------------------------------+
    | appname.connection.client.[id].status      | 长连接时表示连接状态,短连接时表示是否能成功发消息 |
    +--------------------------------------------+----------------------------------------------------+
    | appname.connection.client.[id].lastmsgtime | 最后一条消息的时间                                 |
    +--------------------------------------------+----------------------------------------------------+

**长连接暂时用写脚本调用netstat的方式实现,短连接需要服务在程序内添加。后续发现无法用脚本实现的再通知程序开发者**




任务状态
------------------------------

服务器运维维护一个任务表,任务状态有变化时用vproc写状态

zabbix web增加lld动态item, key: ops.tasks

在此lld内增加items:

    +-----------------------+----------------------------+
    | key                   | 说明                       |
    +=======================+============================+
    | ops.tasks.[id].name   | 任务名                     |
    +-----------------------+----------------------------+
    | ops.tasks.[id].sendto | 分配到了哪台设备,最好写ip |
    +-----------------------+----------------------------+
    | ops.tasks.[id].status | 任务状态                   |
    +-----------------------+----------------------------+



总结各服务需要做的事情
----------------------

sip
^^^^^^^^^^^^

- 错误的信令日志
- 会话日志

MediaServer
^^^^^^^^^^^^^^^^^^^^

- 相机状态表

VAServer
^^^^^^^^^^^^

- 会话日志

DataExportService
^^^^^^^^^^^^^^^^^^^^^^^

- 往平台发消息的链路状态
- 会话日志

平台
^^^^^^^^^^^^

- 所有重要链路状态
- 会话日志

OperateServer
^^^^^^^^^^^^^^^^^^^^^^

- 任务状态表
- 会话日志
  
脚本工具
^^^^^^^^^^^^^^^^

- 长连接状态