作者:林瑀1, 陈日成2, 金涛2
作者单位:1. 福建师范大学,福建 福州 350117;
2. 福州大学电气工程与自动化学院,福建 福州 350116
关键词:复杂信息系统;多源异构;数据融合;大数据分析
摘要:
多源异构数据给复杂信息系统的智能化信息处理带来巨大挑战,如何对多源异构信息大数据进行融合已成为当前的热点研究技术。该文以复杂电力信息系统为基础,分析多源异构数据融合的预处理方法及其相关性分析技术;随后探讨当前主流的多源异构数据融合技术及其优缺点;在此基础上,提出基于kafka和storm数据处理平台的海量日志处理实际工程大数据分析架构,并利用该架构对多源异构数据融合技术进行测试和分析。该文的理论分析和实验构建可以为相关大数据工程分析与应用提供借鉴意义。
research on multi-source heterogeneous data fusion technology for complex information system
lin yu1, chen richeng2, jin tao2
1. fujian normal university, fuzhou 350117, china;
2. college of electrical engineering and automation, fuzhou university, fuzhou 350116, china
abstract: multi-source heterogeneous data brings great challenges to the intelligent signal processing of complex information systems, and currently the fusion processing technology of multi-source heterogeneous information big data has become a research hotspot. based on the complex power information system, the preprocessing methods of multi-source heterogeneous data fusion and its correlation analysis technology were analyzed in this paper. the current multi-source heterogeneous data fusion methods were discussed in detail, and with the comparison of the advantages and disadvantages of each technology. on this basis, a big data analysis framework for actual log processing case based on kafka and storm data processing platforms was proposed, and the proposed architecture is used to test and analyze multi-source heterogeneous data fusion technologies. the theoretical analysis and experimental results in this paper can provide reference for big data engineering analysis and application.
keywords: complex information system;multi-source heterogeneous;data fusion;big data analysis
2020, 46(7):1-7,23 收稿日期: 2020-05-06;收到修改稿日期: 2020-06-14
基金项目: 国家自然科学基金(51977039);福建省自然科学基金(2018j05118)
作者简介: 林瑀(1980-),女,福建福州市人,讲师,博士,研究方向为大数据、人工智能及其分析应用
参考文献
[1] 薛禹胜, 赖业宁. 大能源思维与大数据思维的融合(一)数据与电力大数据[j]. 电力系统自动化, 2016, 40(1): 1-8
[2] 曹靖, 陈陆燊, 邱剑, 等. 基于语义框架的电网缺陷文本挖掘技术及其应用[j]. 电网技术, 2017, 41(2): 637-643
[3] 李刚, 张博, 赵文清, 等. 电力设备状态评估中的数据科学问题: 挑战与展望[j]. 电力系统自动化, 2018, 42(21): 10-20,177
[4] 黄彦浩, 于之虹, 谢昶, 等. 电力大数据技术与电力系统仿真计算结合问题研究[j]. 中国电机工程学报, 2015, 35(1): 13-22
[5] 彭小圣, 邓迪元, 程时杰, 等. 面向智能电网应用的电力大数据关键技术[j]. 中国电机工程学报, 2015, 35(3): 503-511
[6] zhu k p, li g c, zhang y. big data oriented smart tool condition monitoring system[j]. ieee transactions on industrial informatics, 2020, 16(6): 4007-4016
[7] qu z y, wang y w, wang c, et al. a data cleaning model for electric power big data based on spark framework[j]. international journal of database theory and application, 2016, 9(3): 137-150
[8] guo x l, yu y, wang l, et al. wind data preprocessing algorithm based on extracting isolated points[j]. international journal of multimedia and ubiquitous engineering, 2015, 10(4): 53-62
[9] 齐金山, 梁循, 李志宇, 等. 大规模复杂信息网络表示学习: 概念、方法与挑战[j]. 计算机学报, 2018, 41(10): 2394-2420
[10] 童述林, 文福拴, 陈亮. 电力负荷数据预处理的二维小波阈值去噪方法[j]. 电力系统自动化, 2012, 36(2): 101-105
[11] 辛建波, 康琛, 翁新林, 等. 基于聚类和时间序列分析的变压器状态评价方法[j]. 电力系统保护与控制, 2019, 47(3): 64-70
[12] 戴巨川, 曹俊伟, 张帆, 等. 风电场scada数据预处理方法及评价策略[j]. 太阳能学报, 2017, 38(9): 2597-2604
[13] 申建建, 曹瑞, 苏承国, 等. 水火风光多源发电调度系统大数据平台架构及关键技术[j]. 中国电机工程学报, 2019, 39(1): 43-55
[14] 杨婧, 辛明勇, 欧家祥, 等. 基于大数据的配电网线损定位与评估方法研究[j]. 中国测试, 2019, 45(7): 19-24
[15] 鲁宗相, 李剑楠, 乔颖, 等. 风资源超短期预估中的多数据源降维预处理方法研究[j]. 电网技术, 2015, 39(5): 1275-1280
[16] vaccaro a, mercogliano p, schiano p, et al. an adaptive framework based on multi-model data fusion for one-day-ahead wind power forecasting[j]. electric power systems research, 2011, 81(3): 775-782
[17] 郑黎明, 贾科, 毕天姝, 等. 基于余弦相似度的新能源场站t接型送出线路纵联保护[j]. 电力系统自动化, 2019, 43(18): 111-124
[18] 魏大千, 王波, 刘涤尘, 等. 基于时序数据相关性挖掘的wams/scada数据融合方法[j]. 高电压技术, 2016, 42(1): 315-320
[19] shao h j, xing d. short-term wind power forecasting using model structure selection and data fusion techniques[j]. international journal of electrical power & energy systems, 2016, 83(1): 79-86
[20] mojtaba k, mehrdad s. data fusion for fault diagnosis in smart grid power systems[c]//ieee 30th canadian conference on electrical and computer engineering, 2017.
[21] ali d, masoud b, mohammad h. electricity price forecasting using a new data fusion algorithm[j]. iet generation, transmission & distribution, 2015, 9(12): 1382-1390
[22] 郑毅, 胡祥培, 尹进. 基于多任务支持向量机的健康数据融合方法[j]. 系统工程理论与实践, 2019, 39(2): 418-428
[23] 吴倩红, 高军, 侯广松, 等. 实现影响因素多源异构融合的短期负荷预测支持向量机算法[j]. 电力系统自动化, 2016, 40(15): 67-72, 92
[24] qiu y n, feng y h. fault diagnosis of wind turbine with scada alarms based multidimensional information processing method[j]. renewable energy, 2019, 145(1): 1923-1931
[25] liu y k, xia h, xie c. research of nuclear power plants diagnosis method based on data fusion[c]//17th international conference on nuclear engineering, 2009.
[26] 蒋逸雯, 彭明洋, 马凯, 等. 多源异构数据融合的电力变压器状态评价方法[j]. 广东电力, 2019, 32(9): 137-145
[27] 冀振燕, 宋晓军, 皮怀雨, 等. 基于深度学习的融合多源异构数据的推荐模型[j]. 北京邮电大学学报, 2019, 42(6): 35-42
[28] wang p, yang l, li j, et al. data fusion in cyber-physical-social systems: state-of-the-art and perspectives[j]. information fusion, 2019, 51: 42-57
[29] 刘冬兰, 马雷, 刘新, 等. 基于深度学习的电力大数据融合与异常检测方法[j]. 计算机应用与软件, 2018, 35(4): 61-64 136
[30] 谢国财, 胡亚平, 陈炯聪, 等. 多源异构电网参数融合方法及工程应用[j]. 电力系统自动化, 2015, 39(6): 121-127

