PostgreSQL 基础

表格属性

一般在 PostgreSQL 中以表格形式存储的数据，表格具有一定的属性维持其结构化：

表名：数据库中表名是唯一的
列 column：表中一个字段，且界定了该列的数据类型（该列的每一行的数据的类型需要相同）
行 row：每条数据按行存储
主键 primary key：表中每行数据的唯一标识，如订单 id，员工 id

语句 WHERE 和语句 HAVING 相似，都是对数据进行条件过滤，但是语句 WHERE 语句只能对分组前的字段进行分组（由于语句 WHERE 作用与分组前）；而语句 HAVING 更「强大」，它不仅可以对「原始」字段进行筛选，还可以对分组后构成的新字段进行过滤（由于语句 HAVING 主要用于过滤分组）:thumbsup: 推荐在分组中都使用语句 HAVING 进行数据项的过滤

sql

-- 按照 classno 字段对表格 student 数据进行分组，并汇总各班的学生数量（汇总结果作为表格的新的字段）
SELECT classno, COUNT(studentname) FROM student GROUP BY classno;

-- 按照 classno 对表格 student 数据进行分组，并汇总各班的学生数量，汇总结果以（默认）降序排列展示
SELECT classno, COUNT(studentname) FROM student GROUP BY classno ORDER BY classno;

-- 使用 WHERE 过滤数据再进行分组
SELECT classno,COUNT(studentname) FROM student
    WHERE classno > 2
    GROUP BY classno; -- WHERE 作用与分组前，这里先筛选 classno>2 的数据，再分组
    -- 注意，这里如果书写：WHERE COUNT(studentname) > 1 就会报错

-- 使用 HAVING 过滤分组
SELECT classno,COUNT(studentname) FROM student
    GROUP BY classno
    HAVING COUNT(studentname) > 1; -- HAVING 主要用于过滤分组，且是在分组后进行过滤
    -- 所以一般对于分组的条件过滤都用 HAVING

数据连接

数据连接是基于特定字段将两个表格的数据进行匹配连接，即列的整合。

可以使用语句 WHERE进行简单连接

sql

-- 通过 WHERE 构建匹配逻辑
SELECT * FROM company3, department WHERE company3.no = department.id;

一般使用语句 JOIN 实现多种连接方式：

INNER JOIN 内连接（交集）
LEFT OUTER JOIN 左连接（基于左表）
RIGHT OUTER JOIN 右连接（基于右表）
FULL OUTER JOIN 全连接（并集）
CROSS JOIN 交叉连接

以下演示连接方式时使用的两个表格

sql

-- 表格 employees
CREATE TABLE employees(
    id int PRIMARY KEY,
    name text,
    age int CHECK(age > 0),
    address text,
    salary numeric CHECK(salary > 0)
    );

INSERT INTO employees VALUES
    (1, '王大', 25, 'beijing', 10000),
    (2, '张三', 25, 'beijing', 10000),
    (3, '李四', 21, 'beijing', 15000),
    (4, '李二', 28, 'shenzhen', 10000),
    (5, '王五', 24, 'shanghai', 20000),
    (6, '杨三', 19, 'shanghai', 15000),
    (7, '张四', 22, 'shenzhen', 20000),
    (8, '杨四', 20, 'beijing', 10000);

-- 表格 department
CREATE TABLE department(id int,dept text,fac_id int);

INSERT INTO department VALUES
    (1, 'IT', 1),
    (2, 'Engineering', 2),
    (3, 'HR', 7),
    (10, 'Market', 10);

bash

# 两个表格的数据

# 表格 employees
 id | name | age | address  | salary
----+------+-----+----------+--------
  1 | 王大 |  25 | beijing  |  10000
  2 | 张三 |  25 | beijing  |  10000
  3 | 李四 |  21 | beijing  |  15000
  4 | 李二 |  28 | shenzhen |  10000
  5 | 王五 |  24 | shanghai |  20000
  6 | 杨三 |  19 | shanghai |  15000
  7 | 张四 |  22 | shenzhen |  20000
  8 | 杨四 |  20 | beijing  |  10000
(8 行记录)

# 表格 deparment
 id |    dept     | fac_id
----+-------------+--------
  1 | IT          |      1
  2 | Engineering |      2
  3 | HR          |      7
 10 | Market      |     10
(4 行记录)

Tip

除了可以连接两个表，技术上可以实现连接任意数量的表格，只需要将组合后得到的新的表格再与其他表格进行组合就可以（或者使用嵌套方式）。

sql

-- 创建表格3
-- 表格 education
CREATE TABLE education(name text, edu text);
INSERT INTO education VALUES
    ('王大', '本科'),
    ('张三', '本科'),
    ('李四', '硕士'),
    ('李二', '本科'),
    ('王五', 'PHD'),
    ('杨三', '硕士'),
    ('张四', 'PHD'),
    ('杨四', '本科');

SELECT employees.id, employees.name, education.edu, employees.salary, department.dept
    FROM (employees INNER JOIN education ON employees.name = education.name) -- 注意嵌套写法
    FULL OUTER JOIN department ON employees.id = department.id;

🔨 执行结果

bash

 id | name | edu  | salary |    dept
----+------+------+--------+-------------
  1 | 王大 | 本科 |  10000 | IT
  2 | 张三 | 本科 |  10000 | Engineering
  3 | 李四 | 硕士 |  15000 | HR
    |      |      |        | Market
  6 | 杨三 | 硕士 |  15000 |
  5 | 王五 | PHD  |  20000 |
  8 | 杨四 | 本科 |  10000 |
  7 | 张四 | PHD  |  20000 |
  4 | 李二 | 本科 |  10000 |
(9 行记录)

Tip

连接时可以使用逻辑运算符 AND 或 OR 基于多个字段设置连接条件。

sql

SELECT employees.id, employees.name, department.dept
    FROM employees INNER JOIN department
    ON employees.id = department.id
    AND employees.id = department.fac_id;

🔨 执行结果

bash

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  2 | 张三 | Engineering
(2 行记录)

INNER JOIN

一般将两个表格「连接」使用 INNER JOIN 内连接的方式，即只取指定字段中有相同值的数据项组合成一张表格，相当于取表格的交集数据。

sql

-- 基于两个表格的 id 字段连接表格，取两个字段中值相同的数据项（交集）组成新的表格
-- 显示连接后表格的字段 employees.id, employees.name, department.dept
SELECT employees.id, employees.name, department.dept
    -- 连接左表为 employees，右表为 department
    FROM employees INNER JOIN department
    -- 连接基于两个表格的 id 字段
    ON employees.id = department.id;

🔨 执行结果

bash

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  2 | 张三 | Engineering
  3 | 李四 | HR
(3 行记录)

FULL OUTER JOIN

如果需要保留两个表格完整的数据可以使用 FULL OUTER JOIN 全连接，即指定字段中有相同值的数据项组合，未匹配的数据组合时产生的缺失值的单元格用 NULL 填充成一张表格，相当于取表格的并集数据。

sql

SELECT employees.id, employees.name, department.dept
    FROM employees FULL OUTER JOIN department
    ON employees.id = department.id;

🔨 执行结果

sql

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  2 | 张三 | Engineering
  3 | 李四 | HR
    |      | Market
  5 | 王五 |
  8 | 杨四 |
  6 | 杨三 |
  4 | 李二 |
  7 | 张四 |
(9 行记录)

LEFT OUTER JOIN

左连接 LEFT OUTER JOIN 是基于左表（即使用语句 FROM 指定的表格）的外连接，即保留左表的所有数据项，从右表中寻找相应的字段值匹配的数据项进行组合，如果左表中未能匹配的数据项在合并表中产生了缺失值单元格使用 NULL 填充。

sql

SELECT employees.id,employees.name,department.dept
    FROM employees LEFT OUTER JOIN department
    ON employees.id = department.id;

🔨 执行结果

bash

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  2 | 张三 | Engineering
  3 | 李四 | HR
  5 | 王五 |
  8 | 杨四 |
  6 | 杨三 |
  4 | 李二 |
  7 | 张四 |
(8 行记录)

RIGHT OUTER JOIN

右连接 RIGHT OUTER JOIN 作用与左连接一样，但是它是基于右表（即使用语句 JOIN 指定的表格）的外连接，即保留右表的所有数据项，从左表中寻找相应的字段值匹配的数据项进行组合，如果右表中未能匹配的数据项在合并表中产生了缺失值单元格使用 NULL 填充。

sql

SELECT employees.id, employees.name, department.dept
    FROM employees LEFT OUTER JOIN department
    ON employees.id = department.id;

🔨 执行结果

bash

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  2 | 张三 | Engineering
  3 | 李四 | HR
    |      | Market
(4 行记录)

CROSS JOIN

交叉连接 CROSS JOIN 通过笛卡尔积的方式组合两个表格，即检索出/组合得到的行的数目为第一个表（左表）中的行数乘以第二个表（右表）中的行数，相当于将左表的每个数据项都按照右表复制一份。

sql

SELECT employees.id, employees.name, department.dept
    FROM employees CROSS JOIN department
    ORDER BY employees.id;

🔨 执行结果

bash

 id | name |    dept
----+------+-------------
  1 | 王大 | IT
  1 | 王大 | Engineering
  1 | 王大 | HR
  1 | 王大 | Market
  2 | 张三 | IT
  2 | 张三 | Engineering
  2 | 张三 | HR
  2 | 张三 | Market
  3 | 李四 | IT
  3 | 李四 | Engineering
  3 | 李四 | HR
  3 | 李四 | Market
  4 | 李二 | IT
  4 | 李二 | Engineering
  4 | 李二 | HR
  4 | 李二 | Market
  5 | 王五 | IT
  5 | 王五 | Engineering
  5 | 王五 | HR
  5 | 王五 | Market
  6 | 杨三 | IT
  6 | 杨三 | Engineering
  6 | 杨三 | HR
  6 | 杨三 | Market
  7 | 张四 | IT
  7 | 张四 | Engineering
  7 | 张四 | HR
  7 | 张四 | Market
  8 | 杨四 | IT
  8 | 杨四 | Engineering
  8 | 杨四 | HR
  8 | 杨四 | Market
(32 行记录)

数据合并

使用语句 UNION 进行数据合并。数据合并是指表格的数据进行「叠加」合并，即行的整合，因此需要合并的两个表格具有相同的列结构，即列数相同（列名可以不同，会基于第一个表格的列名为准）。

sql

-- 组合两个或多个 SELECT 语句的结果，而不返回任何重复的行
SELECT column1 [, column2 ] FROM table1 [, table2 ] [WHERE condition]
UNION
SELECT column1 [, column2 ] FROM table1 [, table2 ] [WHERE condition]

以下演示数据合并使用的表格

bash

# 表格 t1
 id | value1
----+--------
  1 | a
  2 | b
  3 | c
(3 行记录)

# 表格 t2，有一条数据项与表格 t1 相同
 id | value2
----+--------
  1 | a
  4 | A
  5 | B
  6 | C
(4 行记录)

sql

-- 合并表格 t1 和 表格 t2，即将两个表格按行与行整合
SELECT * FROM t1
UNION
SELECT * FROM t2;

🔨 执行结果

bash

# 返回的组合表去除了重复数据
# 因此字段 value1 中值为 a 的数据项只有一个
 id | value1
----+--------
  6 | C
  2 | b
  5 | B
  3 | c
  1 | a
  4 | A
(6 行记录)

Tip

数据合并时默认去除重复数据，如果希望保留所有数据（包括重复项）可以设置关键字 ALL

sql

SELECT * FROM t1
UNION ALL
SELECT * FROM t2;

🔨 执行结果

bash

 id | value1
----+--------
  1 | a
  2 | b
  3 | c
  1 | a
  4 | A
  5 | B
  6 | C
(7 行记录)

别名

使用语句 AS 可以创建表别名或字段别名，表别名一般使用单个小写字母，使得在其他语句中调用表格的字段时可以编写更少的代码，提高编程效率；字段别名可以作为显示结果中的表头名称，使输出的表格更具语义方便理解。

sql

-- 列/字段别名
-- alias_name: 它指定分配给列的临时名称
SELECT column_name AS alias_name FROM table_name [conditions...];

-- 表别名
-- alias_name：它指定分配给表的临时名称
SELECT column1, column2.... FROM table_name AS alias_name [conditions...];

Tip

一般可以省略语句 AS，直接在表/字段名称后设置别名，并用空格分隔。

动态表复制

使用语句 SELECT 查询获得的表格是临时创建的，并未保存在数据库中。如果需要保存查询获得的数据，可以使用语句 CREATE TABLE ... AS 结合查询语句 SELECT动态地基于查询结果创建表格。

sql

CREATE TABLE new_table_name AS
    SELECT column_name FROM table_name [conditions...];

Warning

基于查询结果「复制」得到的动态表并不会拷贝原始表格具有的约束、注释和序列，它只是复制数据。如果拷贝表格的约束可以使用语句 LIKE，但它只是基于特定原始表格创建一个具有相同约束（结构）的空表格，并没有拷贝数据

sql

CREATE TABLE new_table_name (LIKE table_name);

临时表格

可能原始数据构成表格并不适用于直接进行数据分析，需要使用包含语句 WITH 的表达式 CTE，common table expression 创建临时公用表/通用表。

sql

-- 每个 CTE 都需要设置别名 name_for_summary_data（它们通过别名来被使用）。
WITH name_for_summary_data AS (
   SELECT column_name FROM table_name [codition...])

SELECT columns
FROM name_for_summary_data [codition...]

Warning

需要在查询的开头定义所有的 CTE，然后在脚本其他地方就可以多次复用这些临时表格。

sql

-- 先筛选出 companyname 为 c1 数据并构建临时表 t
-- 临时表 t 并不会存储于数据库中
WITH t AS (
    SELECT companyname, city, client FROM w1
    WHERE companyname = 'c1')

-- 再基于临时表 t 进行数据处理
SELECT SUM(client) FROM t; -- 等价于 SELECT SUM(client) FROM w1 WHERE companyname = 'c1';

可以将临时表格作为数据「中转站」对表格数据进行拆分

sql

WITH t AS (
    DELETE FROM w1 WHERE client < 2000   -- 将表格 w1 中客户数小于 200 的数据项删除
    RETURNING * )                        -- 并使用 RETURNING 子句返回数据，存放在临时表格 t 中

-- 创建空表 w2 用于接收临时表格的数据
-- 其结构需要与 w1 相同
CREATE TAbLE w2(id int PRIMARY KEY, companyname text, city text, client int);

-- 将临时表格的数据插入新建的表格 w2 中
-- 实现了按条件将数据从表格 w1 移动到表格 w2 中
INSERT INTO w2(SELECT * FROM t);

PostgreSQL 基础

PostgreSQL 基础

表格属性

常用语句

数据定义语言

CREATE DATABASE

DROP DATABASE

ALTER DATABASE

CREATE TABLE

DROP TABLE

ALTER TABLE

数据操纵语言

SELECT

INSERT

DELETE

UPDATE

数据运算

算术运算符

比较运算符

数字处理函数

字符串操作

数据类型转换

条件过滤

数据分组

数据连接

INNER JOIN

FULL OUTER JOIN

LEFT OUTER JOIN

RIGHT OUTER JOIN

CROSS JOIN

数据合并

别名

动态表复制

临时表格