百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)

ztj100 2025-07-03 02:31 6 浏览 0 评论

概述

定义

ClickHouse是俄罗斯的 Yandex 于 2016 年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse可以做用户行为分析,流批一体,其线性扩展和可靠性保障能够原生支持 分片和副本,shard + replication,ClickHouse没有走hadoop生态自己实现分布式存储。

  • OLAP场景的关键特征绝大多数是读请求数据以相当大的批次(> 1000行)更新,而不是单行更新;或者根本没有更新。已添加到数据库的数据不能修改。对于读取,从数据库中提取相当多的行,但只提取列的一小部分。宽表,即每个表包含着大量的列查询相对较少(通常每台服务器每秒查询数百次或更少)对于简单查询,允许延迟大约50毫秒列中的数据相对较小:数字和短字符串(例如,每个URL 60个字节)处理单个查询时需要高吞吐量(每台服务器每秒可达数十亿行)事务不是必须的对数据一致性要求低每个查询有一个大表。除了他以外,其他的都很小。查询结果明显小于源数据。换句话说,数据经过过滤或聚合,因此结果适合于单个服务器的RAM中
  • 很容易可以看出,OLAP场景与其他通常业务场景(例如,OLTP或K/V)有很大的不同, 因此想要使用OLTP或Key-Value数据库去高效的处理分析查询场景,并不是非常完美的适用方案。例如,使用OLAP数据库去处理分析请求通常要优于使用MongoDB或Redis去处理分析请求。
  • 列式数据库更适合OLAP场景的原因针对分析类查询,通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如,如果只需要读取100列中的5列,这将帮助你最少减少20倍的I/O消耗。由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。由于I/O的降低,这将帮助更多的数据被系统缓存。
  • CPU向量引擎:所有的操作都是为向量而不是为单个值编写的。这意味着多个操作之间的不再需要频繁的调用,并且调用的成本基本可以忽略不计。操作代码包含一个优化的内部循环。代码生成:生成一段代码,包含查询中的所有操作。

特性

  • 真正的列式数据库管理系统:ClickHouse不单单是一个数据库, 它是一个数据库管理系统。因为它允许在运行时创建表和数据库、加载数据和运行查询,而无需重新配置或重启服务.
  • 数据压缩:支持通用压缩编解码器之外,ClickHouse还提供针对特定类型数据的专用编解码器。
  • 数据的磁盘存储:ClickHouse被设计用于工作在传统磁盘上的系统,它提供每GB更低的存储成本,但如果可以使用SSD和内存,它也会合理的利用这些资源。
  • 多核心并行处理
  • 多服务器分布式处理
  • 支持SQL
  • 向量引擎
  • 实时的数据更新
  • 索引
  • 适合在线查询
  • 支持近似计算
  • 自适应连接算法
  • 支持数据复制和数据完整性
  • 角色的访问控制
  • 限制没有完整的事务支持。缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据,但这符合 GDPR。稀疏索引使得ClickHouse不适合通过其键检索单行的点查询。

性能

  • 单个大查询吞吐量:如果数据被放置在page cache中,则一个不太复杂的查询在单个服务器上大约能够以2-10GB/s(未压缩)的速度进行处理。
  • 处理短查询的延迟时间:如果一个查询使用主键并且没有太多行(几十万)进行处理,并且没有查询太多的列,那么在数据被page cache缓存的情况下,它的延迟应该小于50毫秒。
  • 处理大量短查询的吞吐量:在相同的情况下,ClickHouse可以在单个服务器上每秒处理数百个查询。
  • 写入速度大约为50到200MB/s。如果您写入的数据每行为1Kb,那么写入的速度为50,000到200,000行每秒。

为什么ClickHouse这么快?

  • 面向列的存储:源数据通常包含数百甚至数千列,而报表可以只使用其中的少数列。系统需要避免读取不必要的列,否则最昂贵的磁盘读取操作将被浪费。
  • 索引:ClickHouse将数据结构保存在内存中,不仅允许读取已使用的列,还允许读取这些列的必要行范围。
  • 数据压缩:将同一列的不同值存储在一起通常会带来更好的压缩比(与面向行的系统相比),因为在实际数据中,列的相邻行通常具有相同或不那么多的不同值。除了通用压缩,ClickHouse还支持专门的编解码器,可以使数据更加紧凑。
  • 向量化查询执行:ClickHouse不仅在列中存储数据,还在列中处理数据。它可以提高CPU缓存利用率,并允许使用SIMD CPU指令。
  • 可伸缩性:ClickHouse可以利用所有可用的CPU核和磁盘执行单个查询。不仅在单个服务器上,而且在集群的所有CPU核和磁盘上也是如此。

安装部署

系统要求

ClickHouse可以在任何具有x86_64,AArch64或PowerPC64LE CPU架构的Linux,FreeBSD或Mac OS X上运行。

官方预构建的二进制文件通常针对x86_64进行编译,并利用SSE 4.2指令集,因此,除非另有说明,支持它的CPU使用将成为额外的系统需求。下面是检查当前CPU是否支持SSE 4.2的命令:

$ grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

要在不支持SSE 4.2或AArch64,PowerPC64LE架构的处理器上运行ClickHouse,您应该通过适当的配置调整从源代码构建ClickHouse。

可用安装包

  • DEB安装包
  • RPM安装包
  • Tgz安装包
  • Docker安装包
  • 其他环境安装包
  • 使用源码安装

安装包列表:

  • clickhouse-common-static — ClickHouse编译的二进制文件。
  • clickhouse-server — 创建clickhouse-server软连接,并安装默认配置服务
  • clickhouse-client — 创建clickhouse-client客户端工具软连接,并安装客户端配置文件。
  • clickhouse-common-static-dbg — 带有调试信息的ClickHouse二进制文件。

单机RPM包安装

单机部署比较简单,执行完下面四条命令就可以通过clickhouse-client来操作了

yum install -y yum-utils
yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.repo
yum install -y clickhouse-server clickhouse-client
/etc/init.d/clickhouse-server start

集群部署

ClickHouse集群是一个同质集群,操作步骤如下

  • 分别在ckserver1(192.168.5.52)、ckserver2(192.168.5.53)、huawei27(192.168.12.27)这三台上按照上面的单机部署前面3行命令安装ClickHouse服务端。需提前准备Zookeeper,这样使用的是提前建好的3台Zookeeper集群(Zookeeper部署可以查看之前的文章)。
  • 在配置文件中设置集群配置。主要配置zookeeper、remote_servers和macros节点数据,而macros数据在每个节点分别配置,ckserver1配置为01,ckserver2配置02,huawei27配置为03,在下面示例为配置一个3个分片和3个副本的集群。
    <zookeeper>
        <node>
            <host>huawei27</host>
            <port>2181</port>
        </node>
        <node>
            <host>huawei28</host>
            <port>2181</port>
        </node>
        <node>
            <host>huawei29</host>
            <port>2181</port>
        </node>
    </zookeeper>


    <remote_servers>
        <perftest_3shards_3replicas>
            <shard>
                <replica>
                    <host>ckserver1</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>ckserver2</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>huawei27</host>
                    <port>9000</port>
                 </replica>
            </shard>
            <shard>
                <replica>
                    <host>ckserver1</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>ckserver2</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>huawei27</host>
                    <port>9000</port>
                 </replica>
            </shard>
            <shard>
                <replica>
                    <host>ckserver1</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>ckserver2</host>
                    <port>9000</port>
                 </replica>
                 <replica>
                    <host>huawei27</host>
                    <port>9000</port>
                 </replica>
            </shard>
        </perftest_3shards_3replicas>
    </remote_servers>

    <macros>
        <shard>01</shard>
        <replica>01</replica>
    </macros>

修改完配置后分别在三台上执行
/etc/init.d/clickhouse-server start,查询集群信息如下

接口

  • ClickHouse提供了一个原生命令行客户端clickhouse-client客户端支持命令行
  • --host, -h -– 服务端的host名称, 默认是localhost。您可以选择使用host名称或者IPv4或IPv6地址。
  • --port – 连接的端口,默认值:9000。注意HTTP接口以及TCP原生接口使用的是不同端口。
  • --user, -u – 用户名。 默认值:default。
  • --password – 密码。 默认值:空字符串。
  • --query, -q – 使用非交互模式查询。
  • --database, -d – 默认当前操作的数据库. 默认值:服务端默认的配置(默认是default)。
  • --multiline, -m – 如果指定,允许多行语句查询(Enter仅代表换行,不代表查询语句完结)。
  • --multiquery, -n – 如果指定, 允许处理用;号分隔的多个查询,只在非交互模式下生效。--format, -f – 使用指定的默认格式输出结果。
  • --vertical, -E – 如果指定,默认情况下使用垂直格式输出结果。这与–format=Vertical相同。在这种格式中,每个值都在单独的行上打印,这种方式对显示宽表很有帮助。
  • --time, -t – 如果指定,非交互模式下会打印查询执行的时间到stderr中。
  • --stacktrace – 如果指定,如果出现异常,会打印堆栈跟踪信息。
  • --config-file – 配置文件的名称。
  • --secure – 如果指定,将通过安全连接连接到服务器。
  • --history_file — 存放命令历史的文件的路径。
  • --param_<name> — 查询参数配置。
  • HTTP客户端:HTTP接口允许您在任何编程语言的任何平台上使用ClickHouse,HTTP接口比原生接口受到更多的限制,但它具有更好的兼容性。默认情况下,clickhouse-server会在8123端口上监控HTTP请求(这可以在配置中修改)。如果你发送了一个未携带任何参数的GET /请求,它会返回一个字符串 <>
  • MySQL接口:ClickHouse支持MySQL wire通讯协议。
  • JDBC驱动官网驱动第三方驱动:
  • ClickHouse-Native-JDBC
  • clickhouse4j
  • ODBC驱动
  • C++客户端库
  • 第三方工具客户端开发库,支持多种语言如Python、Java、Go、Php、NodeJs、Swift、Ruby、R、Scala、C#、Kotlin等等
  • 第三方集成库关系数据库:MySQL、MSSQL、PostgreSQL
  • 消息队列:Kafka
  • 流处理:Flink
  • 对象存储:S3
  • 容器编排:Kubernetes
  • 监控:Grafana、Prometheus、Zabbix
  • 第三方代理
  • chproxy
  • KittenHouse
  • ClickHouse-Bulk
  • 第三方开发的可视化界面
  • 开源
  • TabixHouseOps
  • 灯塔
  • DBeaver
  • clickhouse-cli
  • clickhouse-flamegraph
  • DBM
  • 商业Holistics
  • DataGrip

创建数据库

默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。创建一个测试数据库

CREATE DATABASE test ENGINE = Atomic;
use test;

创建数据表

# -m支持多行输入
clickhouse-client -m

使用最常见的MergeTree表引擎创建一张用户信息表user_info

CREATE TABLE user_info
(
    id INT,
    name String,
    age Int8,
    sex Int8,
    career INT,
    birthday Date
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(birthday)
ORDER BY (career, birthday);
# user_info插入两行数据
insert into user_info values(100,'张三',27,1,1000,'1998-05-21'),(101,'李婷',28,2,1001,'2000-07-25');
# 查询user_info数据
select * from user_info;

至此,ClickHouse的环境已经完全准备就绪,下一篇我们先通过一个案例需求学习ClickHouse使用,然后再层层深入。

如果本文对你有帮助,别忘记给我个3连 ,点赞,转发,评论,

咱们下期见。

相关推荐

人生苦短,我要在VSCode里面用Python

轻沉发自浅度寺量子位出品|公众号QbitAI在程序员圈子里,VisualStudioCode(以下简称VSCode)可以说是目前最火的代码编辑器之一了。它是微软出品的一款可扩展的轻量...

亲测可用:Pycharm2019.3专业版永久激活教程

概述随着2020年的到来,又有一批Pycharm的激活码到期了,各位同仁估计也是在到处搜索激活方案,在这里,笔者为大家收录了一个永久激活的方案,亲测可用,欢迎下载尝试:免责声明本项目只做个人学习研究之...

Python新手入门很简单(python教程入门)

我之前学习python走过很多的歧途,自学永远都是瞎猫碰死耗子一样,毫无头绪。后来心里一直都有一个做头条知识分享的梦,希望自己能够帮助曾经类似自己的人,于是我来了,每天更新5篇Python文章,喜欢的...

Pycharm的设置和基本使用(pycharm运行设置)

这篇文章,主要是针对刚开始学习python语言,不怎么会使用pycharm的童鞋们;我来带领大家详细了解下pycharm页面及常用的一些功能,让大家能通过此篇文章能快速的开始编写python代码。一...

依旧是25年最拔尖的PyTorch实用教程!堪比付费级内容!

我真的想知道作者到底咋把PyTorch教程整得这么牛的啊?明明在内容上已经足以成为付费教材了,但作者偏要免费开源给大家学习!...

手把手教你 在Pytorch框架上部署和测试关键点人脸检测项目DBFace

这期教向大家介绍仅仅1.3M的轻量级高精度的关键点人脸检测模型DBFace,并手把手教你如何在自己的电脑端进行部署和测试运行,运行时bug解决。01.前言前段时间DBFace人脸检测库横空出世,...

进入Python的世界02外篇-Pycharm配置Pyqt6

为什么这样配置,要开发带UI的python也只能这样了,安装过程如下:一安装工具打开终端:pipinstallPyQt6PyQt6-tools二打开设置并汉化点击plugin,安装汉化插件,...

vs code如何配置使用Anaconda(vscode调用anaconda库)

上一篇文章中(Anaconda使用完全指南),我们能介绍了Anaconda的安装和使用,以及如何在pycharm中配置Anaconda。本篇,将继续介绍在vscode中配置conda...

pycharm中conda解释器无法配置(pycharm配置anaconda解释器)

之前用的好好的pycharm正常配置解释器突然不能用了?可以显示有这个环境然后确认后可以conda正在配置解释器,但是进度条结束后还是不成功!!试过了pycharm重启,pycharm重装,anaco...

Volta:跨平台开发者的福音,统一前端js工具链从未如此简单!

我们都知道现在已经进入了Rust时代,不仅很多终端常用的工具都被rust重写了,而且现在很多前端工具也开始被Rust接手了,这不,现在就出现了一款JS工具管理工具,有了它,你可以管理多版本的js工具,...

开发者的福音,ElectronEgg: 新一代桌面应用开发框架

今天给大家介绍一个开源项目electron-egg。如果你是一个JS的前端开发人员,以前面对这项任务桌面应用开发在时,可能会感到无从下手,甚至觉得这是一项困难的挑战。ElectronEgg的出现,它能...

超强经得起考验的低代码开发平台Frappe

#挑战30天在头条写日记#开始进行管理软件的开发来讲,如果从头做起不是不可以,但选择一款免费的且经得起时间考验的低代码开发平台是非常有必要的,将大幅提升代码的质量、加快开发的效率、以及提高程序的扩展性...

一文带你搞懂Vue3 底层源码(vue3核心源码解析)

作者:妹红大大转发链接:https://mp.weixin.qq.com/s/D_PRIMAD6i225Pn-a_lzPA前言vue3出来有一段时间了。今天正式开始记录一下梗vue3.0.0-be...

Windows 11 + WSL2 打造轻量级 Linux 本地开发环境实战教程

一、前言...

基于小程序 DSL(微信、支付宝)的,可扩展的多端研发框架

Mor(发音为/mr/,类似more),是饿了么开发的一款基于小程序DSL的,可扩展的多端研发框架,使用小程序原生DSL构建,使用者只需书写一套(微信或支付宝)小程序,就可以通过Mor...

取消回复欢迎 发表评论: