分组后统计查询
创始人
2024-02-23 07:20:27
0

【问题】

I am trying to select top values in a column based on the variable/field in another column. it is a very large tab delimited file.

Input:

Names col2 col3 col4 
A    A1   def  10 
A    A1   BBB  10 
A    A1   CED  10 
A    A1   fff  7.5 
B    B1   def  7.5 
B    B1   dff  5.5 
B    B1   fff  4.5 
C    C1   ggg  6.5 
C    C3   iii  6.5 
C    C2   hhh  5.0 
C    C4   toi  6.5 
D    D1   xyz  10.0 
D    D2   ikj  7.5 
D    D3   abc  7.5 
...  

Output

Names col2 col3 col4  
A    A1   def  10  
A    A1   BBB  10  
A    A1   CED  10  
B    B1   def  7.5  
C    C1   ggg  6.5  
C    C3   iii  6.5  
C    C4   toi  6.5  
D    D1   xyz  10.0  

Basically, I want all the rows with values 10 and the top values for each of the names in column1. Any inputs to solve this by perl, awk or sed are well appreciated.
Thanks.

【回答】

分组后查询再合并是典型的结构化计算,用Shell实现会相对复杂,用SPL会方便些:

A
1=file("file.txt").import@t()
2=A1.group(Names)
3=A2.((a=~.max(col4),~.select(col4==a|| col4==10)))
4=A3.union()

A1:读取文件file.txt中的内容。

A2:按Names分组。

A3:A2.(…)表示对A2中的每个成员依次计算,(a=~.max(col4),~.select(col4==a|| col4==10)) 表示依次计算括号内的表达式,并返回最后一个表达式的结果。其中a=~.max(col4)表示将每组数据中col4的最大值返回给变量a,~.select(col4==a|| col4==10)表示选择每组中clo4等于a或者10的记录,~.select(col4==a|| col4==10)就是括号运算符要返回的结果。

A4:合并A3。

SPL也可以命令行方式在unix/linux下执行。

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...