搜索 - java技术圈 - java技术社区

Unicode与UTF-8/UTF-16/UTF-32的区别 - 刘宝成

Unicode与UTF-8/UTF-16/UTF-32的区别 Unicode的最初目标，是用1个16位的编码来为超过65000字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题 (implantation head-ache's)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示，在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分，例如，在 UTF－8和ASCII中，“A”的编码都是0x41. UTF－16和UTF－32分别...阅读全文

博文 2020-06-11 03:48:10 博客园

阅读:2412次评论:0条 0人喜欢

Maven打包之maven-shade-plugin - 腾讯云开发者社区

org.apache.maven.plugins maven-shade-plugin 3.1.1 true 阅读全文

博文 2022-07-25 02:09:57 腾讯云

阅读:2392次评论:0条 0人喜欢

MapReduce 数据倾斜原因和解决方案_一次次尝试

MapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义： 1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 2）MapReduce是一个并行计算与运行软件框架（Software Framework）。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少了软件开发人员的负担。 3）MapReduce是一...阅读全文

博文 2021-02-22 04:44:09 CSDN博客_mapreduce数据倾斜原因

阅读:2391次评论:0条 0人喜欢

Nagle算法-

说明：本文是最近项目上使用tcp时遇到的问题找到的原因，参考了网络上的几篇文章整理出来，如有版权问题，请留言。 Nagle 算法用于对缓冲区内的一定数量的消息进行自动连接。该处理过程(称为Nagling)，通过减少必须发送的封包的数量，提高了网络应用程序系统的效率。 **1. ** Nagle算法的规则（可参考tcp_output.c文件里tcp_nagle_check函数注释）： 1）如果包长度达到MSS(MSS是最大分段大小Maxitum Segment Size ，MTU是最大传输单元Maxitum Transmission Unit)，则允许发送； 2）如果该包含有FIN，则允许发送； 3）设置了TCP_NODELAY选项，则允许发送； 4）未设置TCP_CORK选项时，若所有发出...阅读全文

博文 2021-11-05 07:39:41 TCP缓冲区管理算法

阅读:2372次评论:0条 0人喜欢

maven全局配置文件settings.xml详解 - 静默虚空

概要 settings.xml有什么用？如果在Eclipse中使用过Maven插件，想必会有这个经验：配置settings.xml文件的路径。 settings.xml文件是干什么的，为什么要配置它呢？从settings.xml的文件名就可以看出，它是用来设置maven参数的配置文件。并且，settings.xml是maven的全局配置文件。而pom.xml文件是所在项目的局部配置。 Settings.xml中包含类似本地仓储位置、修改远程仓储服务器、认证信息等配置。 settings.xml文件位置 settings.xml文件一般存在于两个位置：全局配置: ${M2_HOME}/conf/settings.xml 用户配置: \({user.home}/.m2/settings.x...阅读全文

博文 2020-05-27 12:10:32 博客园

阅读:2369次评论:0条 0人喜欢

Hadoop中的Mapper和Reducer数量设定

在对Mapper调优的过程中，一个经验法则是： map任务最好拥有一分钟以上的运行时间。因为如果任务运行时间过短，将导致在整个作业的执行过程中任务启动所花费的时间过大，从而降低了实际的任务执行效率。对map任务的运行时间影响最大的是Mapper的个数，不过与Reducer不同，Mapper的个数是无法显示指定的。调节Mapper数量的一种方式是设置参数mapred.jobtracker.maxtasks.per.job，但其只能限制每个job中并发运行的map或reduce任务的上限，而当实际运行的map数低于该上限时，该参数将失效。如果想要对Mapper个数进行更加直接有效的控制，需要指定输入数据的分片大小。输入分片(input split)是MapReduce框架为使map任...阅读全文

博文 2020-08-31 02:33:58 Summer is Green

阅读:2368次评论:0条 0人喜欢

SQL四种语言：DDL,DML,DCL,TCL - Comm100 Testers

1.DDL（Data Definition Language）数据库定义语言statements are used to define the database structure or schema. DDL是SQL语言的四大功能之一。用于定义数据库的三级结构，包括外模式、概念模式、内模式及其相互之间的映像，定义数据的完整性、安全控制等约束DDL不需要commit.CREATEALTERDROPTRUNCATECOMMENTRENAME2.DML（Data Manipulation Language）数据操纵语言statements are used for managing data within schema objects. 由DBMS提供，用于让用户或程序员使用，实现对数据库中数据...阅读全文

博文 2020-08-06 12:36:54 博客园

阅读:2360次评论:0条 0人喜欢

【Netty】(8）---理解ChannelPipeline - 雨点的名字

ChannelPipeline ChannelPipeline不是单独存在,它肯定会和Channel、ChannelHandler、ChannelHandlerContext关联在一起,所以有关概念这里一起讲。一、ChannelHandler 1、概念先看图 ChannelHandler下主要是两个子接口 ChannelInboundHandler(入站): 处理输入数据和Channel状态类型改变。适配器: ChannelInboundHandlerAdapter（适配器设计模式）常用的: SimpleChannelInboundHandler ChannelOutboundHandler(出站): 处理输出数据适配器: ChannelOutboundHandlerAdapter...阅读全文

博文 2021-09-02 12:29:43 博客园

阅读:2357次评论:0条 0人喜欢

Spring配置文件头及xsd文件版本 - 时间朋友

通常情况下，namespace对应的URI是一个存放XSD的地址，尽管规范没有这么要求。如果没有提供schemaLocation，那么Spring的XML解析器会从namespace的URI里加载XSD文件。我们可以把配置文件改成这个样子，也是可以正常工作的：[html] view plain copy schemaLocation提供了一个xml name...阅读全文

博文 2021-06-12 12:14:12 博客园

阅读:2324次评论:0条 0人喜欢

TCP UDP包大小分析

1.关于MTU MTU最大传输单元，这个最大传输单元实际上和链路层协议有着密切的关系，EthernetII帧的结构DMAC+SMAC+Type+Data+CRC由于以太网传输电气方面的限制，每个以太网帧都有最小的大小64Bytes最大不能超过1518Bytes，对于小于或者大于这个限制的以太网帧我们都可以视之为错误的数据帧，一般的以太网转发设备会丢弃这些数据帧。由于以太网EthernetII最大的数据帧是1518Bytes这样，刨去以太网帧的帧头（DMAC目的MAC地址48bits=6Bytes + SMAC源MAC地址48bits=6Bytes + Type域2Bytes）14Bytes和帧尾CRC校验部分4Bytes那么剩下承载上层协议的地方也就是Data域最大就只能有1500Byte...阅读全文

博文 2020-07-01 02:19:38 掘金

阅读:2317次评论:0条 0人喜欢

MySQL中IN子查询会导致无法使用索引 - MSSQL123

今天看到一个博客园的一篇关于MySQL的IN子查询优化的案例，一开始感觉有点半信半疑（如果是换做在SQL Server中，这种情况是绝对不可能的，后面会做一个简单的测试。）随后动手按照他说的做了一个表来测试验证，发现MySQL的IN子查询做的不好，确实会导致无法使用索引的情况（IN子查询无法使用所以，场景是MySQL，截止的版本是5.7.18） MySQL的测试环境测试表如下 create table test_table2 ( id int auto_increment primary key, pay_id int, pay_time datetime, other_col varchar(100) ) 建一个存储过程插入测试数据，测试数据的特点是pay_id可重复，这里在存储过程处理...阅读全文

博文 2021-02-24 06:23:47 博客园

阅读:2286次评论:0条 0人喜欢

~/.profile和/etc/profile的区别_u011495642的博客

luotuo44的专栏 05-12 5343 Linux安装软件时，/etc/profile、/etc/bash.bahsrc、~/.profile、~/.bashrc的用途之前安装Linux的一些软件时，总要修改Linux的配置文件。当时也是一知半解。而且，网上有些安装教程，会说，修改配置文件后要重启Linux。但事实上是不需要重启的。 Linux安装时可能要修改的配置文件：/etc/profile、/etc/bashrc(ubuntu没有这个文件，对应地，其有/etc/bash.bashrc文件。我用的是ubuntu系统，所以下面将一律使用... 陈光泉的博客 07-13 324 Centos6 系统配置文件 /etc/profile, ~/.bash_profile 等区别各环境变...阅读全文

博文 2020-07-14 14:00:09 CSDN博客_.profile

阅读:2254次评论:0条 0人喜欢

关于log4j root logger 标签以及additivity 属性_大鑫不列迭的博客

今天和两个同事讨论Log4j，他们都需要解决一个问题，怎么分开输出Logger。这么讲不清楚，举个例子： Java代码 package com.gmail.at.ankyhe.log4jtest; import org.apache.log4j.Logger; public class ClassA { private static Logger logger = Logger.getLogger(ClassA.class.getName()); public ClassA() { logger.info("ENTER ClassA()"); } public void foo() { logger.info("foo()"); bar(); } public void bar() { Lo...阅读全文

博文 2022-04-25 03:30:24 CSDN博客_log4j root

阅读:2248次评论:0条 0人喜欢

tcpdump抓包规则命令大全-kxt314

说是大全其实我列取得只是一些常用的命令与大家分享。下面的例子全是以抓取eth0接口为例，如果不加”-i eth0”是表示抓取所有的接口包括lo。 1、抓取包含10.10.10.122的数据包 # tcpdump -i eth0 -vnn host 10.10.10.122 2、抓取包含10.10.10.0/24网段的数据包# tcpdump -i eth0 -vnn net 10.10.10.0/24 3、抓取包含端口22的数据包# tcpdump -i eth0 -vnn port 22 4、抓取udp协议的数据包# tcpdump -i eth0 -vnn udp 5、抓取icmp协议的数据包# tcpdump -i eth0 -vnn icmp 6、抓取arp协议的数据包# tcpd...阅读全文

博文 2021-05-29 06:44:06 ChinaUnix博客

阅读:2213次评论:0条 0人喜欢

多个单列索引和联合索引的区别详解_数据库_Abysscarry的博客

背景：为了提高数据库效率，建索引是家常便饭；那么当查询条件为2个及以上时，我们是创建多个单列索引还是创建一个联合索引好呢？他们之间的区别是什么？哪个效率高呢？我在这里详细测试分析下。一、联合索引测试注：Mysql版本为 5.7.20 创建测试表(表记录数为63188)： CREATE TABLE `t_mobilesms_11` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `userId` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL DEFAULT '' COMMENT '用户id，创建任务时的userid', `mobile` varchar(24) NOT NULL D...阅读全文

博文 2020-04-21 04:36:55 CSDN博客

阅读:2201次评论:0条 0人喜欢

聊聊MyBatis缓存机制

前言MyBatis是常见的Java数据库访问层框架。在日常工作中，开发人员多数情况下是使用MyBatis的默认缓存配置，但是MyBatis缓存机制有一些不足之处，在使用中容易引起脏数据，形成一些潜在的隐患。个人在业务开发中也处理过一些由于MyBatis缓存引发的开发问题，带着个人的兴趣，希望从应用及源码的角度为读者梳理MyBatis缓存机制。本次分析中涉及到的代码和数据库表均放在GitHub上，地址： mybatis-cache-demo 。目录本文按照以下顺序展开。一级缓存介绍及相关配置。一级缓存工作流程及源码分析。一级缓存总结。二级缓存介绍及相关配置。二级缓存源码分析。二级缓存总结。全文总结。一级缓存一级缓存介绍在应用运行过程中，我们有可能在一次数据库会话中，执行多次查询条件完全相同的S...阅读全文

博文 2020-11-02 07:13:23 美团技术团队

阅读:2197次评论:0条 0人喜欢

linux shell 用sed命令在文本的行尾或行首添加字符 - aaronwxb

昨天写一个脚本花了一天的2/3的时间，而且大部分时间都耗在了sed命令上，今天不总结一下都对不起昨天流逝的时间啊~~~ 用sed命令在行首或行尾添加字符的命令有以下几种：假设处理的文本为test.file 在每行的头添加字符，比如"HEAD"，命令如下： sed 's/^/HEAD&/g' test.file 在每行的行尾添加字符，比如“TAIL”，命令如下： sed 's/$/&TAIL/g' test.file 运行结果如下图：几点说明： 1."^"代表行首，"$"代表行尾 2.'s/$/&TAIL/g'中的字符g代表每行出现的字符全部替换，如果想在特定字符处添加，g就有用了，否则只会替换每行第一个，而不继续往后找了例： 3.如果想导出文件，在命令末尾加"> outfile_nam...阅读全文

博文 2021-06-25 10:44:27 博客园

阅读:2156次评论:0条 0人喜欢

利用转换流将GBK格式文件以UTF-8输出_Java_十里の清风

utf-8格式如何转化为gbk格式 02-27 阅读数 6225 utf-8格式如何转化为gbk格式今天在编码的时候由于存储的数据和取得数据格式不一致，... 博文来自： HY845638534的博客解决中文字符乱码问题，如何将gbk格式转换utf-8格式 04-06 阅读数 2104 中文乱码的原因是因为编码格式是gbk的，而显示的时候是utf-8格式的，所以需要将其utf-8格式，才能正常显示出来。1.gbk生成utf8程序需要经过两次转化。 1.gbk->uni... 博文来自： u012681014的专栏 Java练习>转换流>>将GBK编码的文本文件，转换为UTF-8编码的文本文件 08-13 阅读数 1312 练习：转换文件编码。题目：将GBK编码的文本文件，转换为...阅读全文

博文 2020-04-26 06:30:21 CSDN博客

阅读:2134次评论:0条 0人喜欢

为什么用MQTT不用TCP长连接透传 | 文章

前言在接触到MQTT之后，总是会有疑问，为什么用MQTT不用TCP长连接透传？看起来【TCP长连接+私有协议透传】和【MQTT+业务主题】似乎都能达到同样的目的，甚至用MQTT会使得设备端逻辑实现、APP端逻辑实现、云端架构实现更加复杂。那么为什么物联网还要使用MQTT协议呢？一、MQTT相比于TCP长连接的优势1、协议更标准MQTT是标准的RFC协议，相比于私有协议而言更加标准。好处在于：（1）协议非常完整，能够马上用于生产。各端实现同一套协议之后，就能进行通信；私有协议还需要进行大量的验证，看有无缺陷或欠考虑的地方等。（2）协议的标准化带来大量的开源组件，降低开发难度。随着物联网+5G生态越来越好，开源组件越来越多，可以减少重复编码量。（3）标准协议利于第三方接入。当第三方设备、平台想要...阅读全文

博文 2021-08-26 07:24:00 BEWINDOWEB

阅读:2028次评论:0条 0人喜欢

UDP 单播、广播和多播 - Rimond_Jing

使用UDP协议进行信息的传输之前不需要建议连接。换句话说就是客户端向服务器发送信息，客户端只需要给出服务器的ip地址和端口号，然后将信息封装到一个待发送的报文中并且发送出去。至于服务器端是否存在，或者能否收到该报文，客户端根本不用管。单播用于两个主机之间的端对端通信，广播用于一个主机对整个局域网上所有主机上的数据通信。单播和广播是两个极端，要么对一个主机进行通信，要么对整个局域网上的主机进行通信。实际情况下，经常需要对一组特定的主机进行通信，而不是整个局域网上的所有主机，这就是多播的用途。通常我们讨论的udp的程序都是一对一的单播程序。本章将讨论一对多的服务：广播（broadcast）、多播（multicast）。对于广播，网络中的所有主机都会接收一份数据副本。对于多播，消息只是发送到一...阅读全文

博文 2021-08-26 04:06:01 博客园

阅读:1971次评论:0条 0人喜欢

【指导】sed - GNU vs BSD_ILoveChina的博客

GNU sed 4.5 版参考文档全文翻译各命令和随带20个示例详细解析（一） HZ_Samuel博客 05-03 385 文档记录了一个版本4.5的流编辑器——GNU sed。版权所有© 1998—2018自由软件基金会。根据GNU免费文档许可证、自由软件基金会发布1.3及其后续版本，本文档被允许复制、分发和、或修改；没有不变的部分，没有封面文本，也没有封底文本。许可证副本包含在标题为“GNU免费文档许可证”的部分中。 sed (GNU) C/C++,Win/Linux使用与开发技巧 11-15 1294 simplified "info sed" linux mac下使用sed a\追加文本热门推荐 cbbbc 01-07 1万+ 由于mac系统是原生于bsd系，sed命令和gn...阅读全文

博文 2022-04-02 02:43:51 CSDN博客_gnu和bsd

阅读:1950次评论:0条 0人喜欢

虚拟IP技术 ip地址漂移技术 - myseries

1.虚拟IP 在 TCP/IP 的架构下，所有想上网的电脑，不论是用何种方式连上网路，都必须要有一个唯一的 IP-address。事实上IP地址是主机硬件地址的一种抽象，简单的说，MAC地址是物理地址，IP地址是逻辑地址。虚拟IP，就是一个未分配给真实主机的IP，也就是说对外提供服务器的主机除了有一个真实IP外还有一个虚IP，使用这两个IP中的任意一个都可以连接到这台主机。虚拟IP一般用作达到HA(High Availability)的目的,比如让所有项目中数据库链接一项配置的都是这个虚IP，当主服务器发生故障无法对外提供服务时，动态将这个虚IP切换到备用服务器。 2.虚拟IP原理 ARP是地址解析协议，它的作用很简单，将一个IP地址转换为MAC地址，然后给传输层使用。每台主机中都有一...阅读全文

博文 2022-11-12 08:34:42 博客园

阅读:1911次评论:0条 0人喜欢

刨根问底，Kafka消息中间件到底会不会丢消息

大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的时候充分考虑各种异常，设计一个稳定、高可用的消息系统。认识 Kafka 看一下维基百科的定义 Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发，之后成为 Apache 项目的一部分。Kafka是一个分布式的、可划分的、冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 Kafka 架构 Kafka 的整体架构非常简单，是显式分布式架构，主要由 Producer、Broker（Kafka）和 Consumer 组成。 Kafka架构（精简版） Pr...阅读全文

博文 2022-07-08 07:45:39 爱代码爱编程

阅读:1816次评论:0条 0人喜欢

Maven学习(六) - 插件maven-shade-plugin - 青离的个人空间 - OSCHINA

网上有一些maven-shade-plugin替代maven-assembly-plugin的文章，原因是代maven-assembly-plugin打出的jar包中要么是不能设置Main-Class，要么spring的META-INF/spring.*文件相互覆盖了。对于这两个问题，maven-assembly-plugin在当前的版本(3.1.0)中都可以解决了(方法见https://my.oschina.net/u/2377110/blog/1584205)。实际上这两个插件所针对的用途其实是有差异的，而它们与maven默认的maven-jar-plugin都是打包插件，简单的区别如下： plugin function maven-jar-plugin maven 默认打包插件，用来...阅读全文

博文 2022-07-25 02:17:41 中文开源技术交流社区

阅读:1800次评论:0条 0人喜欢

flink taskmanager&slots&并行度&任务链&task分配详解 - 民宿

TaskManger与Slots Flink中每一个worker(TaskManager)都是一个JVM进程，它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker能接收多少个task，worker通过task slot来进行控制（一个worker至少有一个task slot）。每个task slot表示TaskManager拥有资源的一个固定大小的子集。假如一个TaskManager有三个slot，那么它会将其管理的内存分成三份给各个slot。资源slot化意味着一个subtask将不需要跟来自其他job的subtask竞争被管理的内存，取而代之的是它将拥有一定数量的内存储备。需要注意的是，这里不会涉及到CPU的隔离，slot目前仅仅用来隔离task的受管理的内存。...阅读全文

博文 2022-10-02 13:27:55 博客园

阅读:1789次评论:0条 0人喜欢

Hive中的explode使用全解

本节主要介绍explode和posexplode函数的使用。1、数据介绍主要包括三列，分别是班级、姓名以及成绩，数据表名是default.classinfo。2、单列Explode 首先来看下最基本的，我们如何把student这一列中的数据由一行变成多行。这里需要使用split和explode，并结合lateral view实现。代码如下：select class,student_name from default.classinfo lateral view explode(split(student,',')) t as student_name 结果如下：3、单列Posexplode 接下来，我们想要给每个同学来一个编号，假设编号就按姓名的顺序，此时我们要用到另一个hive函数，叫做...阅读全文

博文 2022-03-27 05:57:59 知乎

阅读:1780次评论:0条 0人喜欢

干货 | Elasticsearch Reindex性能提升10倍+实战_铭毅天下的博客

Elasticsearch 最少必要知识实战教程直播回放 #1、reindex的速率极慢，是否有办法改善？以下问题来自社区：https://elasticsearch.cn/question/3782 问题1：reindex和snapshot的速率极慢，是否有办法改善？ reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级（集群写入性能不存在瓶颈），reindex/snapshot的时候CPU还是IO使用率都很低，是不是集群受什么参数限制了reindex和snapshot的速率？ reindex不管是跨集群还是同集群上都很慢，大约3~5M/s的索引速率，会是什么原因导致的？问题2：数据量几十个G的场景下，elasticsearch rei...阅读全文

博文 2022-04-02 10:12:57 CSDN博客_es reindex速度

阅读:1768次评论:0条 0人喜欢

时序数据库技术体系－时序数据存储模型设计 – 有态度的HBase/Spark/BigData

时序数据库技术体系中一个非常重要的技术点是时序数据模型设计，不同的时序系统有不同的设计模式，不同的设计模式对时序数据的读写性能、数据压缩效率等各个方面都有不同程度的影响。这篇文章笔者将会分别针对OpenTSDB、Druid、InfluxDB以及Beringei这四个时序系统中的时序数据模型设计进行介绍。在详细介绍时序数据模型之前，还是有必要简单回顾一下时序数据的几个基本概念，如下图所示：上图是一个典型的时序数据示意图，由图中可以看出，时序数据由两个维度坐标来表示，横坐标表示时间轴，随着时间的不断流逝，数据也会源源不断地吐出来；和横坐标不同，纵坐标由两种元素构成，分别是数据源和metric，数据源由一系列的标签（tag，也称为维度）唯一表示，图中数据源是一个广告数据源，这个数据源由publ...阅读全文

博文 2022-04-15 07:21:46 hbasefly.com

阅读:1767次评论:0条 0人喜欢

大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的时候充分考虑各种异常，设计一个稳定、高可用的消息系统。认识 Kafka看一下维基百科的定义Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发，之后成为 Apache 项目的一部分。Kafka是一个分布式的、可划分的、冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。Kafka 架构Kafka 的整体架构非常简单，是显式分布式架构，主要由 Producer、Broker（Kafka）和 Consumer 组成。Kafka架构（精简版）Producer（生...阅读全文

博文 2022-07-08 07:45:07 mp.weixin.qq.com

阅读:1749次评论:0条 0人喜欢

Hive典型应用场景之行列转换_小飞鱼_bigdata的博客

在使用Hive处理数据时，经常遇到行列转换的场景，本文将对Hive的行列转换操作做详细的说明。行转列## 1）多行转多列假设数据表 row2col： col1 col2 col3 a c 1 a d 2 a e 3 b c 4 b d 5 b e 6 现在要将其转化为： col1 c d e a 1 2 3 b 4 5 6 此时需要使用到max(case … when … then … else 0 end)，仅限于转化的字段为数值类型，且为正值的情况。 HQL语句为： select col1, max(case col2 when 'c' then col3 else 0 end) as c, max(case col2 when 'd' then col3 else 0 end) a...阅读全文

博文 2022-03-27 05:58:44 CSDN博客_hive 行列互换

阅读:1749次评论:0条 0人喜欢

SQL子查询总结：相关子查询与非相关子查询有什么区别

如果一个select语句能够返回单个值或者一列值，且该select语句嵌套在另一个SQL语句（例如select语句、insert语句、update语句或者delete语句）中，那么该select语句成为“子查询”（也叫内层查询），包含子查询的SQL语句称为“主查询”（也叫外层查询）。为了标记子查询与主查询之间的关系，通常将子查询写在小括号内。子查询一般用在主查询的where子句或having子句中，与比较运算符或者逻辑运算符一起构成where筛选条件或having筛选条件。子查询分为“相关子查询”（Dependent Subquery）与“非相关子查询”。非相关子查询如果子查询返回单个值，则可以讲一个表达式的值与子查询的结果进行比较。例如，检索成绩比学生张三平均分高的所有学生及课程的信息...阅读全文

博文 2022-06-30 02:47:22 知乎

阅读:1731次评论:0条 0人喜欢

ElasticSearch学习笔记之九复杂数据类型和嵌套对象_灵动的艺术的博客

ElasticSearch学习笔记之九复杂数据类型和嵌套对象复杂数据类型空域数组域多层级对象内部对象的映射内部对象的索引内部对象数组嵌套对象嵌套对象映射复杂数据类型除了前面说到的简单数据类型，Elasticsearch还支持JSON 的null ，数组，和对象. 空域字段取值可以为空，当然，数组也可以为空。然而，在 Lucene 中是不能存储 null 值的，所以我们认为存在 null 值的域为空域。下面三种域被认为是空的，它们将不会被索引： "null_value": null, "empty_array": [], "array_with_null_value": [ null ] 数组域很多时候，我们希望 tag 域包含多个标签。我们可以以数组的形式索引标签： { ...阅读全文

博文 2022-10-02 13:22:46 CSDN博客

阅读:1640次评论:0条 0人喜欢

log4j logback logger和root的关系_log4j logger root_西子海清的博客

log4j logback logger和root的关系 Log4j或logback的配置文件中，root和logger是父子的关系。Logger的appender根据参数additivity决定是否要叠加root的appender，logger的级别是其自身定义的级别，和root的级别没什么关系。判断一个类的日志输出情况，首先找到这个类所在的logger（如果特别定义了一个类的logger,那么则为这个定义的logger,没有特别定义则默认为roo... 复制链...阅读全文

博文 2023-09-14 10:29:45 CSDN博客

阅读:1632次评论:0条 0人喜欢

Elasticsearch 聚合数据结果不精确，怎么破？_铭毅天下的博客

1、实战开发遇到聚合问题请教一个问题，ES 在聚合的时候发生了一个奇怪的现象聚合的语句里面size设置为10和大于10导致聚合的数量不一致，这个size不就是返回的条数吗？会影响统计结果吗？dsl语句摘要（手机敲不方便，双引号就不写了）： aggs:{topcount:{terms:{field:xx,size:10}}} 就是这个size，设置10和大于10将会导致聚合结果不一样，难道是es5.x的bug吗？以上是实战中的真实问题，基于这个问题，有了本篇文章。本文探讨的聚合主要指：terms 分桶聚合。下图为分桶 terms 聚合示意图。从一堆多分类的产品中聚合出 TOP 3 的产品分类和数量。TOP3 结果：产品 Y：4 产品 X：3 产品 Z：2 2、前提认知：Elastic...阅读全文

博文 2022-07-12 06:05:41 CSDN博客

阅读:1577次评论:0条 0人喜欢

使用nonce巩固接口签名安全_猿天地的技术博客_51CTO博客

前面我们有讲过如何进行API的安全控制，其中包括数据加密，接口签名等内容。详细可以参考我下面两篇文章：-《前后端API交互如何保证数据安全性》请添加链接描述-《再谈前后端API签名安全？》请添加链接描述在签名部分，通过时间戳的方式来判断当前请求是否有效，目的是为了防止接口被多次使用。但是这样并不能保证每次请求都是一次性的，今天给大家介绍下如何保证请求一次性？首先我们来回顾一些时间戳判断的原理：客户端每次请求时，都需要进行签名操作，签名中会加上signTime参数(当前请求时间戳)。HTTP请求从发出到达服务器的正常时间不会很长，当服务器收到HTTP请求之后，首先进行签名检查，通过之后判断时间戳与当前时间相比较，是否超过了一定的时间，这个时间我们可以自行决定要多长，比如1分钟，2分钟都可以，时...阅读全文

博文 2022-03-23 12:55:02 blog.51cto.com

阅读:1556次评论:0条 0人喜欢

Hbase split的三种方式和split的过程 - albeter

在Hbase中split是一个很重要的功能，Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。table在region中是按照row key来排序的，并且一个row key所对应的行只会存储在一个region中，这一点保证了Hbase的强一致性。在一个region中有一个或多个stroe，每个stroe对应一个column families(列族)。一个store中包含一个memstore 和 0 或多个store files。每个column family 是...阅读全文

博文 2023-09-21 11:48:41 博客园

阅读:1528次评论:0条 0人喜欢

Kafka Producer重试参数retries设置取舍【实战笔记】 - 腾讯云开发者社区

目录1.retries参数说明 2.retries使用建议 3.retries后续发展复制1.retries参数说明参数的设置通常是一种取舍，看下retries参数在版本0.11.3说明：Setting a value greater than zero will cause the client to resend any record whose send fails with a potentially transient error. Note that this retry is no different than if the client resent the record upon receiving the error. Allowing retries without s...阅读全文

博文 2023-02-27 12:11:25 腾讯云

阅读:1527次评论:0条 0人喜欢

Seata 分布式事务 XA 与 AT 全面解析

Seata 分布式事务 XA 与 AT 全面解析 2021-04-23 FUNKYE Seata Seata 目录 1.XA模式是什么？ 1.1什么是XA 1.2什么是Seata的事务模式？ 2那么什么是Seata XA 模式？ 2.1什么是Seata AT(TXC) 模式？ 2.2AT 模式如何做到对业务的无侵入？ AT模式一阶段 2.3 AT 模式如何保证隔离性 AT 模式二阶段提交 AT 模式二阶段回滚 3.为什么支持XA？ 4.为什么Seata要支持XA模式？ AT与XA的关系 Seata AT与XA的优劣总结 Seata 是一款开源的分布式事务解决方案，star高达17300+，社区活跃度极高，致力于在微服务架构下提供高性能和简单易用的分布式事务服务。注：本期分享借鉴于Sea...阅读全文

博文 2022-11-12 17:32:05 objcoding.com

阅读:1497次评论:0条 0人喜欢

idea编译项目很慢

如果你正在使用 IntelliJ IDEA 编译 Java 项目，遇到编译速度缓慢的问题，以下是一些可能的原因和解决方法：内存不足：检查你的电脑内存是否足够支持 IDEA 运行，并确保为 IDEA 分配了足够的内存。你可以编辑 IntelliJ IDEA 安装目录下的 bin 目录下的 idea64.exe.vmoptions 文件，将-Xms和-Xmx参数值增加一些。插件过多：禁用不必要的插件，因为一些插件可能会导致 IDEA 编译速度变慢。外部依赖库：检查你的项目是否引用了大量的外部依赖库，如果是，建议尝试减少依赖库的数量或者更换为较小的依赖库。编译设置：检查你的编译设置是否正确。例如，你可以在“File” -> “Settings” -> “Build, Execution, ...阅读全文

博文 2023-06-07 09:39:11 掘金

阅读:1447次评论:0条 0人喜欢

ElasticSearch备份快照到HDFS

> 编程乐园 > 编程内功 > 架构&设计模式 > ElasticSearch备份快照到HDFS-2.6(CDH5.6.0) ElasticSearch备份快照到HDFS-2.6(CDH5.6.0) 架构&设计模式 water 5年前 (2017-03-29) 3348℃ 0评论 repository-hdfs安装包的下载地址: https://oss.sonatype.org/content/repositories/snapshots/org/elasticsearch/elasticsearch-repository-hdfs/ 背景说明由于业务需要将ES-2.2.1版本升级到ES-2.3.2版本，需要将index迁移过去，查了很多资料，最后决定用es的快照/恢复模块来实现索引迁移。...阅读全文

博文 2022-08-24 07:43:11 2.6(CDH5.6.0) – 学时网

阅读:1445次评论:0条 0人喜欢

分布式链路追踪在字节跳动的实践

综述字节跳动在发展过程中，逐渐形成了十分复杂的超大规模微服务体系，对后端整体的可观测性解决方案提出了极高的要求。为了解决这个问题，基础架构智能运维团队自研链路追踪系统，将海量 Metrics/Trace/Log 数据进行整合与统一，并在此基础上实现了新一代的一站式全链路观测诊断平台，帮助业务解决监控排障、链路梳理、性能分析等问题。本文将会介绍字节跳动链路追踪系统的整体功能和技术架构，以及实践过程中我们的思考与总结。什么是分布式链路追踪(Trace) ？M T L 的关系可观测性的三大基础数据是 Metrics / Log / Trace。说到这三大件，可能大家会想到当需要监控变化趋势和配置告警时就去用 Metrics；当需要细查问题时去查 log；对于微服务数量较多的系统，还得有 Trace...阅读全文

博文 2023-10-12 15:55:45 mp.weixin.qq.com

阅读:1222次评论:0条 0人喜欢

Prometheus 服务的自动发现使用-腾讯云开发者社区

前面我们了解了 Prometheus 中 Relabeling 重新标记的使用，本文我们将学习 Prometheus 中是如何使用服务发现来查找和抓取目标的。我们知道在 Prometheus 配置文件中可以通过一个 static_configs 来配置静态的抓取任务，但是在云环境下，特别是容器环境下，抓取目标地址是经常变动的，所以用静态的方式就不能满足这些场景了。所以我们需要监控系统能够动态感知这个变化，不可能每次变动都去手动重新配置的，为了应对复杂的动态环境，Prometheus 也提供了与基础设施中的服务发现集成的功能。Prometheus 已经支持多种内置的服务发现机制：发现云服务商的 VM 虚拟机Kubernetes 上的自动发现通用的服务查找，例如 DNS、Consul、Zooke...阅读全文

博文 2023-09-20 11:38:32 腾讯云

阅读:1160次评论:0条 0人喜欢

技术大牛成长课,从0到1带你手写一个数据库系统-完结11章

参考地址1：https://pan.baidu.com/s/1N-x48vz9Z0peZdjOU5Gh-g 提取码: nxts 参考地址2：https://share.weiyun.com/Tp6ewDIJ 密码：6crcwd 关于数据库系统的开发一直以来都是一个难点，它的流程复杂，涉及到的技术点众多，特别在部署这块尤为重要，今天就带着大家手把手去实现这样一个数据库系统项目。我将从理论结合实际场景综合性落地，让大家轻松吃透核心技术底层原理。首先是应用场景这块：复用到日常开发场景中，如何运用高级数据结构、算法和设计模式，如何正确面对高并发进行编程，如何进行数据库的优化，如何理解数据库的执行计划分析慢SQL的原因等；其次是原理剖析：深度剖析数据库系统原理，将数据库几十年发展精髓拆解并呈现...阅读全文

博文 2023-11-29 17:32:10 feilipu2023nui

阅读:1147次评论:0条 0人喜欢

logback 配置详解（一）logger与root概念及区别 - liftsail

目录 1、根节点包含的属性 2、根节点的子节点 2.1、设置上下文名称： 2.2、设置loger、root 正文回到顶部 1、根节点包含的属性 scan: 当此属性设置为true时，配置文件如果发生改变，将会被重新加载，默认值为true。 scanPeriod: 设置监测配置文件是否有修改的时间间隔，如果没有给出时间单位，默认单位是毫秒。当scan为true时，此属性生效。默认的时间间隔为1分钟。 debug: 当此属性设置为true时，将打印出logback内部日志信息，实时查看logback运行状态。默认值为false。例如：阅读全文

博文 2023-09-14 10:27:48 博客园

阅读:1145次评论:0条 0人喜欢

Hadoop 安装详细步骤_51CTO博客_hadoop安装详细步骤linux

系统学习大数据技术：大数据高级工程师学习路线写在前面如果你想通过这篇博客在本地成功搭建 Hadoop 集群的话，你需要先跟着视频课程三天入门大数据实操课程在本地搭建集群环境，在这个视频课程中你需要学习的章节是：课程目标 VMWare WorkStation 安装创建虚拟机安装 Centos 7 操作系统 Centos 7 网络配置方式说明 Centos 7 网络配置使用客户端登录操作虚拟机克隆三台虚拟机修改主机名 ip 映射主机名配置无密钥登录虚拟机的文件上传和下载关闭防火墙安装 Java 请在看本篇博客之前务必学习完上面视频课程中章节，如果你能学习完三天入门大数据实操课程所有的章节的话就更好，因为你学完这个课程可以有以下三大收获：搭建一个属于自己的大数据集...阅读全文

博文 2023-02-15 07:02:33 blog.51cto.com

阅读:1143次评论:0条 0人喜欢

[完结19章]SpringBoot开发双11商品服务系统

今天给大家分享一下关于SpringBoot开发双11商品服务系统的整个流程，我将深度还原大厂实习期技术成长全流程，让你收获大厂项目开发全流程与实战经验，具备应对大流量场景问题的解决能力，全面助力提升实习/转正/跳槽表现力与成功率。以下是参考资料下载：网盘地址：https://pan.baidu.com/s/1QNf3FbzlswJd_DU3FC64nw 提取码：q61x 腾讯微云下载地址：https://share.weiyun.com/o6TKslZV 密码：qn8bim Spring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，Spr...阅读全文

博文 2023-11-22 14:46:53 kaidnxhd2023

阅读:1120次评论:0条 0人喜欢

HBase 参数设置参考

HBase 参数设置参考前言HBase 配置参数极其繁多，参数配置可能会影响到 HBase 性能问题，因此得好好总结下。 HBase 调优是个技术活。得结合多年生产经验加测试环境下性能测试得出。 JVM垃圾回收优化本地 memstore 分配缓存优化 Region 拆分优化 Region 合并优化 Region 预先加载优化负载均衡优化启用压缩，推荐snappy 进行预分区，从而避免自动 split，提高 HBase 响应速度避免出现 region 热点现象，启动按照 table 级别进行 balance GCHBase CMS GC 配置参考 RS 参数hbase.server.thread.wakefrequency 该值默认是 10 秒，它影响着 Flush 和 Compac...阅读全文

博文 2023-09-21 14:58:57 lihuimintu

阅读:1063次评论:0条 0人喜欢

HPC云化部署的优势和挑战

本文分享自天翼云开发者社区《HPC云化部署的优势和挑战》作者:土豆炒肉丝HPC云化部署指的是将高性能计算（HPC）工作负载部署在云计算平台上，这种方式带来了一些明显的优势，但同时也面临一些挑战。以下是HPC云化部署的主要优势和挑战：优势：1.灵活性和弹性：云计算平台提供灵活的资源调度和弹性伸缩功能，可以根据需要动态分配计算资源。这使得HPC应用能够更加高效地利用计算资源，根据实际需求进行资源扩展或收缩，从而降低成本。2.成本效益：传统HPC集群的建设和维护需要昂贵的硬件设备和专业技术团队。通过在云平台上进行部署，用户无需投资大量资金购买硬件设备，而是按需付费，只支付实际使用的资源，节省了大量成本。3.全球可访问性：云计算平台的服务通常分布在多个地理位置，用户可以从世界各地的终端设备访问这...阅读全文

博文 2023-07-28 10:05:41 Tianyiyun

阅读:1051次评论:0条 0人喜欢

linux中gz文件怎么解压,Linux解压gz文件的命令使用教程及详解_陳寶平的博客

今天小编给带来一篇linux解压方面的资料 Linux解压gz文件的命令有：gunzip命令、gzip命令、tar命令。下面本篇文章就来带大家了解一下 gz文件是一种压缩文件，以.gz或者.tar.gz(.tgz)为扩展名，在Linux、UNIX和OSX下常见，Linux和OSX都可以直接解压使用这种压缩文件。在Windows下常用压缩软件WinRAR打开gz文件，它相当于常见的RAR和ZIP格式。 .gz文件解压如果是以.gz扩展名结尾的gz文件，可以使用gunzip命令、gzip命令来解压。 gunzip命令作用是解压文件，使用权限是所有用户。例： gunzip FileName.gz gzip命令 gzip命令是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令，既方便又...阅读全文

博文 2023-11-08 17:19:05 CSDN博客

阅读:1048次评论:0条 0人喜欢

java.nio.ByteBuffer用法小结_java bytebuffer用法_水蓝城城主的博客

文章目录简介初始化向ByteBuffer写数据手动写入数据从SocketChannel中读入数据至ByteBuffer 从ByteBuffer中读数据复位position读取数据确保数据长度字节序处理继续写入数据总结简介在Java的Socket编程中，若使用阻塞式（BIO），则往往通过ServerSocket的accept()方法获取到客户端Socket之后，再使用客户端Socket的InputStream和OutputStream进行读写。Socket.getInputstream.read(byte[] b)和Socket.getOutputStream.write(byte[] b)的方法中的参数都是字节数组。这种阻塞式的Socket编程显然已经远远不能满足目前的并发式访问需求...阅读全文

博文 2023-09-13 16:38:22 CSDN博客

阅读:1048次评论:0条 0人喜欢

最新评论