-
pyhive 连接 Hive 时错误
所属栏目:[大数据] 日期:2020-12-25 热度:147
一、User: xx is not allowed to impersonate xxx' 解决办法:修改 core-site.xml 文件,加入下面的内容后重启 hadoop 。 property namehadoop.proxyuser.xx.hosts/name value*/value/propertyproperty namehadoop.proxyuser.xx.groups/name value*/value/pr[详细]
-
分布式基础通信协议:paxos、totem 和 gossip(转载)
所属栏目:[大数据] 日期:2020-12-25 热度:117
背景: 在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。 简单即有效——totem协议: totem协议也[详细]
-
Hive 导入 parquet 格式数据
所属栏目:[大数据] 日期:2020-12-25 热度:120
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式 构造建表语句 倒入数据 一、查看 parquet 内容和结构 下载地址 社区工具 GitHub 地址 命令 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parque[详细]
-
Presto 常用配置及操作
所属栏目:[大数据] 日期:2020-12-25 热度:197
一、介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 推荐阅读 Presto实现原理和美团的使用实践 二、安装 2.1[详细]
-
大数据的技术生态概述(转载)
所属栏目:[大数据] 日期:2020-12-25 热度:131
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系? 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各[详细]
-
九种常见的数据分析模型
所属栏目:[大数据] 日期:2020-12-25 热度:85
1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的[详细]
-
大数据领域常用技术栈
所属栏目:[大数据] 日期:2020-12-25 热度:199
提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发[详细]
-
Databricks说的Lakehouse是什么?
所属栏目:[大数据] 日期:2020-12-25 热度:88
? 在过去的几年里,Lakehouse作为一种新的数据管理范式,已独立出现在Databricks的许多用户和应用案例中。在这篇文章中,我们将阐述这种新范式以及它相对于之前方案的优势。 数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末问世以来[详细]
-
数据挖掘 : 手把手教你做文本挖掘
所属栏目:[大数据] 日期:2020-12-25 热度:188
文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 ? 2 文本挖掘步骤 1)读取数据库或本地外部文本文件[详细]
-
基于大数据分析的安全管理平台技术研究及应用
所属栏目:[大数据] 日期:2020-12-25 热度:82
转自:http://www.36dsj.com/archives/30027 基于大数据分析的安全管理平台技术研究及应用 基于大数据分析的安全管理平台技术研究及应用 Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014[详细]
-
BI解决方案资料收集
所属栏目:[大数据] 日期:2020-12-25 热度:173
ETL工具:Kettle(官网,Pentaho公司开源)、?Informatica、Datastage、OWB、微软DTS、Beeload、久其ETL,Oracle GoldenGate等等……开源的工具(16款开源工具,OSchina ETL工具列表),有eclipse的ETL插件: cloveretl 工作流引擎:jBPM,Activiti,H3 BPM,?[详细]
-
文本挖掘:手把手教你分析携程网评论数据
所属栏目:[大数据] 日期:2020-12-25 热度:141
文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。 首先评论数据如何获取? 一般通过 网络爬虫的方式 抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的[详细]
-
R中文舆情包cnSentimentR
所属栏目:[大数据] 日期:2020-12-25 热度:188
该包使用jiebaR分词,svm[e1071]进行分类; 包括三个函数:cnsr.prepare,cnsr.train,cnsr.predict 目前还在开发中,功能不完整. 请见: https://github.com/leeshuheng/cnSentimentR[详细]
-
工作坊 | 大数据智能分析和挖掘在互联网中的应用实战案例
所属栏目:[大数据] 日期:2020-12-25 热度:119
大数据分析和挖掘在互联网公司中已经得到实质性的推进和应用,典型的应用场景包括搜索引擎的搜索结果和搜索广告排序、电商网站的商品推荐和虚假信息检测、电子邮件服务中垃圾邮件检测、互联网安全公司的病毒和木马检测、视频和新闻分享网站中视频和新闻推荐[详细]
-
亚马逊前首席科学家:大数据价值体现在AI、BI、CI、DI
所属栏目:[大数据] 日期:2020-12-25 热度:191
「 技术领导者 」的订阅首选 本文转载自灯塔大数据 无人机送货、阿法狗下棋、小冰和你谈场恋爱……人工智能领域的成果,一直是企业在大数据运用能力上的主要外在体现,但在亚马逊原首席科学家安德雷斯·韦思岸(Andreas Weigend)看来,大数据能为企业做的,还[详细]
-
bzoj 1670: [Usaco2006 Oct]Building the Moat护城河的挖掘 (凸
所属栏目:[大数据] 日期:2020-12-25 热度:111
1670: [Usaco2006 Oct]Building the Moat护城河的挖掘 Time Limit:? 3 Sec?? Memory Limit:? 64 MB Submit:? 524?? Solved:? 384 [ Submit][ Status][ Discuss] Description 为了防止口渴的食蚁兽进入他的农场,Farmer John决定在他的农场周围挖一条护城河。[详细]
-
《Speed-BI云平台-基于Excel数据源的技巧应用:区域销售收入分析
所属栏目:[大数据] 日期:2020-12-25 热度:94
对于刚接触speed-BI的朋友们,一些看似很简单很琐碎的动作,当没有小窍门和智能化的操作就会使得工作量变大,时间耗起来真要命。本次课就将围绕speed-BI常用的功能进行串讲,还有特别的小技巧一并教授,成为speed-BI的技巧王! ? 课程应用: 本次课程以销售[详细]
-
[bigdata-042]从头搭建 spring+mvc+boot+tomcat
所属栏目:[大数据] 日期:2020-12-25 热度:165
1. 需求 1.1 在spring.io下载一个spring mvc的demo,能运行成功。 1.2 按照自己的理解,重写这个例子,并做适当修改,运行成功。 1.3 将这个例子打包成war包,放到tomcat运行成功。 2. 在spring.ip下载spring mvc并运行 2.1 spring的例子在 http://spring.io[详细]
-
文思海辉与达梦完成产品兼容互认证
所属栏目:[大数据] 日期:2020-12-18 热度:164
继文思海辉与国产IT厂商南大通用、数腾软件完成产品兼容互认证,近日,文思海辉又与武汉达梦数据库股份有限公司(以下简称:达梦公司)完成产品兼容性互认证。[详细]
-
净利润同比下滑超60%,少了小米后华米科技能否独立“行走”?
所属栏目:[大数据] 日期:2020-12-18 热度:130
北京时间11月23日美股盘前,华米科技发布了2020财年第三季度的财务报告。在财报发布后,华米科技当天盘前股价累计下跌7.6%。在23日美股三大股指集体收涨情况下,[详细]
-
奏响5G“主旋律”,MWC将于明年2月重返上海
所属栏目:[大数据] 日期:2020-12-18 热度:137
如果没有因为疫情而停办,2021年将是MWC世界移动通信大会落地上海的第十年。按计划,它将在明年的6月份举办。但由于疫情的影响,2020年的MWC上海展没能如期举行,或许也因为如此,明年的大会比原计划来得更早一些。 据主办方GSMA近日宣布,2021年MWC上海展[详细]
-
戴尔全新产品搭载新一代NVIDIA高性能显卡
所属栏目:[大数据] 日期:2020-12-18 热度:133
历经数次迭代升级,戴尔于近日推出多款重磅新品。搭载新一代NVIDIA GeForce RTX 3070显卡的全新ALIENWARE Aurora游戏台式机、戴尔XPS设计旗舰台式机、G5智能电竞台式机,以更加强悍的性能、令人惊叹的视觉效果及极致的细节功能,为游戏爱好者打造了栩栩如[详细]
-
字节跳动Byte Camp冬令营报名启动,高质量赛题带你线下备战ICPC!
所属栏目:[大数据] 日期:2020-12-18 热度:157
12月7日,字节跳动 Byte Camp 冬令营宣布回归,开启第三期训练营报名。 Byte Camp 冬令营是针对ACM国际大学生程序设计竞赛(ICPC),面向全球顶尖高校在校生举办的国际顶级训练营,旨在提高 ICPC 参赛者竞赛实力,并为所有计算机精英提供国际性的技术交流[详细]
-
第十届吴文俊人工智能科学技术奖名单出炉 云天励飞荣获一等奖
所属栏目:[大数据] 日期:2020-12-18 热度:136
日前,2020年度第十届吴文俊人工智能科学技术奖获奖名单正式出炉,云天励飞荣获吴文俊人工智能专项奖芯片项目一等奖。 吴文俊人工智能科学技术奖被誉为中国智能科学技术最高奖,是人工智能领域的最高荣誉象征。 值得一提的是,这是云天励飞第二次斩获吴文[详细]
-
持续赋能人工智能产业生态 英特尔AI百佳创新激励计划硕果累累
所属栏目:[大数据] 日期:2020-12-18 热度:180
当前,人工智能市场快速发展,又调查数据显示,全球人工智能市场的规模2020年超过1500亿美金,并且未来几年保持17%的年增长率。而在中国,人工智能成为我国产业升级和经济转型的一个主要动力,计划到2025年核心产业规模超过4000亿,带动相关的产业规模超过[详细]
