搜索 - java技术圈 - java技术社区

第1章04节 | 常见开源OLAP技术架构对比

1. 什么是OLAP OLAP（On-line Analytical Processing，联机分析处理）是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。可以比较下其与传统的OLTP（On-line Transaction Processing，联机事务处理）的区别来看一下它的特点：OLAP的优势是基于数据仓库面向主题、集成的、保留历史及不可变更的数据存储，以及多维模型多视角多层次的数据组织形式，如果脱离的这两点，OLAP将不复存在，也就没有优势可言。参考：http://webdataanalysis.net/web-data-warehouse/data-cube-and-olap/2. OLAP引擎的常见操作下面所述几种OLAP操作，是针对Kimball的星型模型（Sta...阅读全文

博文 2021-03-01 06:20:51 知乎

阅读:2977次评论:0条 0人喜欢

x

es 6.3的插件xpack内置了sql, 和NPLChina的elasticsearch-sql插件相比,要少很多实用性的功能,但相比有蛮多性能上的优势。今天看看都有哪些sql优化点。 x-pack sql做的sql优化 PruneDuplicatesInGroupBy: 裁剪重复的group by 字段。以sqlselect * from table group by code,code,这里两次group by都是code,在elasticsearch-sql中,会被group by两次重复计算。xpack-sql做了这个优化，然而是一个没用的优化，因为xpack-sql不支持多字段group by，直接报错。 ReplaceDuplicateAggsWithReferences: 对...阅读全文

博文 2020-05-15 08:31:21 pack sql做的sql优化 | 甲鱼的大数据之旅

阅读:2707次评论:0条 0人喜欢

es的_source ,index,store重要字段的理解！！！！！！_健康平安的活着的博客

一._score字段存储的原始数据。_source中的内容就是搜索api返回的内容，如：默认情况下，Elasticsearch里面有2份内容，一份是原始文档，也就是_source字段里的内容，我们在Elasticsearch中搜索文档，查看的文档内容就是_source中的内容。另一份是倒排索引，倒排索引中的数据结构是倒排记录表，记录了词项和文档之间的对应关系。 https://www.cnblogs.com/wangzhuxing/p/9527151.html#_label1_2 二.index字段 index使用倒排索引存储的是，分析器分析完的词和文档的对应关系。如图：文档索引到Elasticsearch的时候，默认情况下是对所有字段创建倒排索引的(动态mapping解析出来为数字类...阅读全文

博文 2022-03-23 12:52:58 CSDN博客__source es

阅读:2348次评论:0条 0人喜欢

JVM参数MetaspaceSize的误解

JDK8 的FullGC 之 metaspace前言：由于最近写的程序在运行一段时间后出现高cpu，然后不可用故进而进行排查，最终定位到由于metaspace引...Michael_xlp阅读 16,563评论 6赞 1...阅读全文

博文 2020-07-28 06:57:08 简书

阅读:2150次评论:0条 0人喜欢

一个有意思的CMS问题

##一次CMS GC问题排查过程（理解原理+读懂GC日志）一次CMS GC问题排查过程（理解原理+读懂GC日志） - iamzhongyong - ITeye技术网站 h...葡萄喃喃呓语阅读 1,089评论 0赞 1...阅读全文

博文 2020-07-28 06:55:44 简书

阅读:2016次评论:0条 0人喜欢

Elasticsearch的mapping设置：enabled, index, doc_values, store, _source到底是什么鬼？

0x00 背景介绍最近尝试用ES + Kibana来快速搭建一个全新的可视化平台，有机会仔细阅读了一下ES的文档，发现mapping里有很多设置选项，初次看时令人眼花缭乱，若设置不当，有可能浪费存储空间，也有可能导致无法使用Aggregations，故在此记录一下重点内容。如有错误，恳请点击这里提issue,我会及时改正。本文参照的版本为 Elasticsearch 5.6 0x01 配置项速查这里列出了各个选项的名称、作用以及注意事项，仅供速查使用。详细解释请阅读下文。配置项作用注意事项默认值 index 是否加入倒排索引关闭后无法对其进行搜索字段仍会存储到_source和doc_values 字段可以被排序和聚合开启 _source 存储post到ES的原始文档会占用很...阅读全文

博文 2022-03-23 12:53:36 IdeaWand

阅读:1787次评论:0条 0人喜欢

Prometheus 数据存储那些事儿

本篇文章使用的是 Prometheus v2.40 源码转载请声明出处哦~，本篇文章发布于luozhiyun的博客：https://www.luozhiyun.com/archives/725 本篇文章主要是整理一下 Prometheus 的时序数据库是怎么存储以及管理数据的，希望这篇文章能给大家带来一定的启发。概述我们先来看看 Prometheus 的整个架构图：对于 Prometheus Server 来说，整个数据处理流程分为三部分：Exporter 指标的收集、Scraper 数据的抓取、TSDB 数据的存储及查询；Exporter 其实不同的服务有不同的收集实现，类似 Mysqld-exporter、node exporter 等我们这里不做过多的解读，大家基本只需要知道它...阅读全文

博文 2023-11-02 18:29:42 luozhiyun`s Blog

阅读:1057次评论:0条 0人喜欢

Lucene-03

基本概念在深入解读Lucene之前，先了解下Lucene的几个基本概念，以及这几个概念背后隐藏的一些东西。 Index（索引）类似数据库的表的概念，但是与传统表的概念会有很大的不同。传统关系型数据库或者NoSQL数据库的表，在创建时至少要定义表的Scheme，定义表的主键或列等，会有一些明确定义的约束。而Lucene的Index，则完全没有约束。 Lucene的Index可以理解为一个文档收纳箱，你可以往内部塞入新的文档，或者从里面拿出文档，但如果你要修改里面的某个文档，则必须先拿出来修改后再塞回去。这个收纳箱可以塞入各种类型的文档，文档里的内容可以任意定义，Lucene都能对其进行索引。 Document（文档）类似数据库内的行或者文档数据库内的文档的概念，一个Index内会包含...阅读全文

博文 2023-05-15 10:53:10 基本组件概念介绍 | Echo Blog

阅读:911次评论:0条 0人喜欢

分布式时序数据库 - LinDB

背景饿了么对时序数据库的需求主要来自各监控系统，主要用于存储监控指标。原来使用graphite，后来慢慢有对指标有多维的需求(主要体现在对一个指标加多个Tag，来组成Series，然后对Tag进行Filter和Group进行计算)，这时graphite基本很难满足需求。业界现在用的比较多的主要有如下几类TSDB：InfluxDB：很多公司都在用，包括饿了么有部分监控系统也是用InfluxDB。优点，支持多维和多字段，存储也根据TSDB的特点做了优化。但开源的部分不支持，很多公司自己做集群化，但大多基于指标名来，这样会有单指的热点问题。现在饿了么也是类似的做法，但热点问题很严重，大的指标已经用了最好的服务器，但是查询性能还是不够理想，如果做成按Series Sharding那成本还是有一...阅读全文

博文 2023-04-19 07:41:25 知乎

阅读:836次评论:0条 0人喜欢

实战Flink+Doris实时数仓

![1.png](http://static.itsharecircle.com/240304/0bee3e847130667ea81a698fb428806a.png) 一、什么是Doris Doris 是一个 MPP 的 OLAP 系统，主要整合了 Google Mesa（数据模型），Apache Impala（MPP Query Engine) 和 Apache ORCFile (存储格式，编码和压缩) 的技术。二、Doris得作用 1、对数据分析、统计 2、报表 3、多维分析 4、Doris 是从百度内部自主研发并贡献到 Apache 开源社区的 ROLAP 数据库。 5、Doris 整合了 Google Mesa（数据模型），Apache Impala（MPP Query Eng...阅读全文

博文 2024-03-04 09:04:32 gaindiuhgw

阅读:726次评论:0条 0人喜欢

饿了么轻量级分布式时序数据库的设计与探索

饿了么轻量级分布式时序数据库的设计与探索 2018-07-19 10:14 作者介绍黄杰，2015年加入饿了么，现任框架工具部高级开发经理，主要负责饿了么的监控系统及监控系统周边的工具。一、背景饿了么对时序数据库的需求主要来自各监控系统，主要用于存储监控指标。原来使用的是graphite，后来慢慢对指标有了多维的需求，主要体现在对一个指标加多个Tag来组成Series，然后对Tag进行Filter和Group进行计算，这时graphite基本很难满足需求。业界现在用的比较多的主要有如下几类TSDB： InfluxDB：很多公司都在用，包括饿了么有部分监控系统也是用的InfluxDB。其优点在于支持多维和多字段，存储也根据TSDB的特点做了优化，不过开源的部分并不支持。很多公司自己做集...阅读全文

博文 2024-09-06 15:21:49 www.sohu.com

阅读:339次评论:0条 0人喜欢

最新评论