多发发一些有意思的题做做呀！[+sed/awk/regex练习]

_Wanghui_ · 发表于 2006-3-1 22:58:12

一个字: 好贴!

yongjian · 发表于 2006-3-2 02:15:14

Awk vs SQL (Using awk to process Database Tables)

There are two tables. The first table is like:

KeyID Last Name First Name SSN Phone Number Address Emergency Contact Relationship
-----------------------------------------------------------------------------------------------------------------------
1 Doe John 12345678 111-222-3456 127 Main st. John tyler Sister
2 Mercurio Dan 11223456 222-202-4566 Tower Stu 510
3 Tobin Bruce 12334556 Kevin King Friend

复制代码

The second table is like:

Name Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
------------------------------------------------------------------------------------------------------------------
John Doe $51.95 $20.03 $11.8 $10.05 $3.2 $120.98 $538.39 $538.39 $20.03 $10.05
Dan Mercurio $2.03 $5.27 $4.26 $42.10 $10.05 $227.30 $10.05 $12.98 $2.03
Bruce Tobin $4.98 $3.05 $31.2 $2.04 $2.04 $55.98 $1.08 $20.8 $250.98

复制代码

这两张表是某家医院数据库中对每个病人每年的医疗花销的记录，现在要打进出来一张汇总表格式如下：

Name SSN Phone Number Emergency Contact Avg
------------------------------------------------------------------------------
John Doe 12345678 111-222-3456 John tyler $110.45
Dan Mercurio 11223456 222-202-4566 N/A $26.34
Bruce Tobin 12334556 N/A Kevin King $31.01

复制代码

要求：
1. 用gawk来做（sed好象也做不了，呵呵）
2. Avg的计算结果保留两位小数，四舍五入。
附：各个单元格的数值长度定义
keyID: 8
Last Name: 10
First Name: 10
SSN: 8
Phone Number: 12
Address: 100
Emergency Contact: 20
Relationship: 20
Name: 20
Month: 10
Avg: 10

shizi4838 · 发表于 2006-3-2 10:41:51

我写了个很笨的程序，因为我刚刚接触shell，里面的好多命令还不熟悉，呵呵，下面的程序还有个要求无法满足，输出结果中各个命令和解释之间没有1行空格分开，希望大家能帮忙改进一下。

more change.sh
#!/bin/bash
sed 's/^ *//g' second >sort
a=`more sort |wc -l`
b=1
j=1
for((i=1; i<=$a; i++))
do
sed -n ''$i'p' sort> sort1
string=`sed 's/^$//g' sort1`
if [ -z "$string" ];
then
b=`expr $i - 1`
sed -n ''$b'p' sort> sort1
string=`sed 's/^$//g' sort1`
if [ ! -z "$string" ];
then
c=`sed -n ''$i'p' sort`
echo "" >> file$j
echo -n $c >> file$j
j=`expr $j + 1`
fi
else
c=`sed -n ''$i'p' sort`
echo -n $c >> file$j
fi
done
rm sort*
sed -n 's/.*/&:/p' first> third
a=`more first |wc -l`
for((i=$a; i>=1; i--))
do
sed ''$i' r file'$i'' third > trans
cp trans third
done
rm file*
rm trans
rm first1
more third

复制代码

./change.sh

复制代码

johnny_jiang · 发表于 2006-3-2 11:52:37

假设第一个table的文件名为userinfo,第二个table的文件名为account

# search.a
{
if ($0!~/\w/) next # exclude non-content line
sum=0
count=0
contact=""
while (getline name < "account") {
if (match(name,$3" "$2)) {
split(name,a,"$")
for (i in a) {
if (a[i]!~/[a-zA-Z]/) { sum=sum+a[i]; count+=1 }
}
break
}
}
close("account")
if ($5 && $5!~/[a-zA-Z]/) {
phone=$5
for (i=6;i<NF;i++) contact=(contact?contact" ":"")$i
} else {
phone="N/A"
for (i=5;i<NF;i++) contact=(contact?contact" ":"")$i
}
print $3" "$2"\t"$4"\t"(phone == "N/A"?phone"\t\t":phone"\t")(contact?contact"\t":"N/A\t\t")sprintf("%.2f",sum/count)
}

复制代码

bash# awk 'BEGIN { FS="[0-9]+ [a-zA-Z]* [a-zA-Z.]*" } { print $1,$2 }' userinfo | awk -f search.a

复制代码

小弟程序先通过把地址栏作为FS,取出需要使用的部分,放弃地址栏的内容.接着把相关内容在进行处理.小弟的程序有以下弊端:

1.如果地址栏的地址格式不固定,那就会产生错误
2.如果有一个人的名字全是用数字表示(我想不太可能吧)就会有错误输出
3.最后print出来的格式只是适用针对当前这个实际的例子

总结:小弟这个程序通用性不强 ---> 小弟水平不够

yongjian · 发表于 2006-3-2 12:12:38

以地址栏作为FS是基本上取巧的方法，实际上地址是不一样的，所以实用性大打折扣。但作出这样的已经很不错了。

johnny_jiang · 发表于 2006-3-2 12:45:23

1.有个问题想请教yongjian兄.在awk中,如果有个数组,内容如下

a[1]=1
a[2]=2
a[3]=3
...
a[7]=7

for (i in a) print i

为什么i总是从4开始,结果变成了
4
5
6
7
1
2
3

2.那个TEXTDOMAIN内置变量有点不太理解怎么使用的?:ask

dunerunner · 发表于 2006-3-2 13:50:10

你那不是shell吧？

johnny_jiang · 发表于 2006-3-2 14:22:28

Post by dunerunner
你那不是shell吧？

不是,是awk,shell的for不是这样写的

shizi4838 · 发表于 2006-3-2 17:11:33

Post by johnny_jiang
1.有个问题想请教yongjian兄.在awk中,如果有个数组,内容如下

a[1]=1
a[2]=2
a[3]=3
...
a[7]=7

for (i in a) print i

为什么i总是从4开始,结果变成了
4
5
6
7
1
2
3

2.那个TEXTDOMAIN内置变量有点不太理解怎么使用的?:ask

我也遇到了同样的问题.

shizi4838 · 发表于 2006-3-2 17:40:48

我查了点资料,资料上说这是awk的一个缺点,当 awk 在数组下标之间轮转时，它不会依照任何特定的顺序。也就是说使用for (i in a) print i时,输出的结果是没有什么规律的,即便是从4开始的结论也应该是错误的,它只是用i把a中的值轮转一遍.

		自动登录	找回密码
密码			注册

多发发一些有意思的题做做呀！[+sed/awk/regex练习]

小弟先来试一试

浏览过的版块