更新時間:2021-02-12 14:00:00 來源:動力節點 瀏覽5188次
MySQL是目前最流行的關系型數據庫之一,而關系數據庫將數據保存在不同的表中,而不是將所有數據放在一個大倉庫內,這樣就增加了速度并提高了靈活性。我們知道在MySQL數據庫中DISTINCT可以去掉重復數據,而GROUP BY在分組后也會去掉重復數據,那這兩個關鍵字在去掉重復數據時的效率,究竟誰會更高一點?本文我們就來比較一些distinct和group by的性能。
一、測試過程:
準備一張測試表
??CREATE TABLE `test_test` (
?????`id` int(11) NOT NULL auto_increment,
??????`num` int(11) NOT NULL default '0',
??????PRIMARY KEY ?(`id`)
?????) ENGINE=MyISAM ?DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;
建個儲存過程向表中插入10W條數據
???create procedure p_test(pa int(11))
?????begin
??????declare max_num int(11) default 100000;
??????declare i int default 0;
?????declare rand_num int;
??????select count(id) into max_num from test_test;
?????while i < pa do
??????????????if max_num < 100000 then
??????????????????????select cast(rand()*100 as unsigned) into rand_num;
??????????????????????insert into test_test(num)values(rand_num);
??????????????end if;
??????????????set i = i +1;
??????end while;
?????end
調用存儲過程插入數據
call p_test(100000);
開始測試:(不加索引)
?select distinct num from test_test;
????select num from test_test group by num;
????[SQL] select distinct num from test_test;
????受影響的行: 0
????時間: 0.078ms
????[SQL] ?
???select num from test_test group by num;
???受影響的行: 0
????時間: 0.031ms
二、num字段上創建索引
ALTER TABLE `test_test` ADD INDEX `num_index` (`num`) ;
再次查詢
select distinct num from test_test;
????select num from test_test group by num;
????[SQL] select distinct num from test_test;
???受影響的行: 0
????時間: 0.000ms
????[SQL] ?
????select num from test_test group by num;
????受影響的行: 0
????時間: 0.000ms
這時候我們發現時間太小了 0.000秒都無法精確了。
我們轉到命令行下 測試
?mysql> set profiling=1;
????mysql> select distinct(num) from test_test;
????mysql> select num from test_test group by num;
????mysql> show profiles;
????+----------+------------+----------------------------------------+
????| Query_ID | Duration ??| Query ?????????????????????????????????|
????+----------+------------+----------------------------------------+
????| ???????1 | 0.00072550 | select distinct(num) from test_test ???|
????| ???????2 | 0.00071650 | select num from test_test group by num |
???+----------+------------+----------------------------------------+
?
加了索引之后 distinct 比沒加索引的 distinct 快了 107倍。
加了索引之后 group by 比沒加索引的 group by 快了 43倍。
再來對比 :distinct 和 group by
不管是加不加索引 group by 都比 distinct 快。因此使用的時候建議選 group by。
默認情況下,distinct會被hive翻譯成一個全局唯一reduce任務來做去重操作,因而并行度為1。而group by則會被hive翻譯成分組聚合運算,會有多個reduce任務并行處理,每個reduce對收到的一部分數據組,進行每組聚合(去重)
通過上述兩個實驗,我們可以得出這樣一條結論:在重復量比較高的表中,使用DISTINCT可以有效提高查詢效率,而在重復量比較低的表中,使用DISTINCT會嚴重降低查詢效率。所以并不是所有的DISTINCT都是降低效率的,當然你得提前判斷數據的重復量。想要獲取更多的MySQL知識,請到本站的MySQL教程觀看最新的MySQL學習資料,開啟全新的MySQL學習之旅。
0基礎 0學費 15天面授
有基礎 直達就業
業余時間 高薪轉行
工作1~3年,加薪神器
工作3~5年,晉升架構
提交申請后,顧問老師會電話與您溝通安排學習