Linux中简单的文本处理
tr命令
-
tr
命令可以用来删除一段文本中的某些文字,或者将其替换。 -
使用方法:
1
tr [option]...SET1 [SET2]
-
其中常用选项有:
选项 | 说明 |
---|---|
-d |
删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配 |
-s |
去除set1指定的在输入文本中连续并重复的字符 |
-
比如,删除“hello shiyanlou”字段中的所有o、l、h:
1
echo 'hello shiyanlou' | tr -d 'olh'
-
再比如,将"hello" 中的“ll”,去重为一个“l”:
1
echo 'hello' | tr -s 'l'
-
将输入文本,全部转换为大写或小写输出:
1
echo 'input some text here' | tr '[:lower:]' '[:upper:]'
或者:
1
echo 'input some text here' | tr '[a-z]' '[A-Z]'
col命令
- col命令可以将tab字符换成对等数量的空格键,或者反转这个操作,使用方式为
col [option]
,常见选项有:
选项 | 说明 |
---|---|
-x |
将Tab 转换为空格 |
-h |
将空格转换为Tab (默认选项) |
-
比如,查看
/etc/protocols
中的不可见字符,可以看到很多^I
,这其实就是 Tab 转义成可见字符的符号:1
cat -A /etc/protocols
-
使用
col -x
将/etc/protocols
中的 Tab 转换为空格,然后再使用cat
查看,发现^I
不见了:1
cat /etc/protocols | col -x | cat -A
join命令
-
join
命令用于将两个文件中包含相同内容的那一行合并在一起,使用方法:1
join [option]... file1 file2
-
常用选项有:
选项 | 说明 |
---|---|
-t |
指定分隔符,默认为空格 |
-i |
忽略大小写的差异 |
-1 |
指明第一个文件要用哪个字段来对比,默认对比第一个字段 |
-2 |
指明第二个文件要用哪个字段来对比,默认对比第一个字段 |
-
首先在用户家目录下创建两个文件,然后进行合并:
1
2
3
4cd ~
echo '1 hello' > file1
echo '1 shiyanlou' > file2
join file1 file2 -
将
/etc/passwd
与/etc/shadow
两个文件合并,指定以’:'作为分隔符:1
sudo join -t':' /etc/passwd /etc/shadow
paste命令
paste
与join
类似,是在不对比数据的情况下,简单地将多个文件合并起来,并以Tab隔开,格式为paste [option] file...
,常用选项有:
选项 | 说明 |
---|---|
-d |
指定合并的分隔符,默认为Tab |
-s |
不合并到一行,每个文件为一行 |
-
先创建三个文件,分别存入不同内容:
1
2
3echo hello > file1
echo shiyanlou > file2
echo www.shiyanlou.com > file3使用
:
作为分隔符进行合并:1
paste -d ':' file1 file2 file3
将三个文件内容进行简单合并,每个文件占一行:
1
paste -s file1 file2 file3
实战训练
在文件打包与解压缩中提到 Windows/dos 与 Linux/UNIX 文本文件一些特殊字符
不一致
如断行符 Windows 为 CR+LF(
\r\n
),Linux/UNIX 为 LF(\n
)。使用cat -A 文本
可以看到文本中包含的不可见特殊字符。Linux 的\n
表现出来就是一个$
,而 Windows/dos的表现为^M$
,可以直接使用dos2unix
和unix2dos
工具在两种格式之间进行转换,使用file
命令可以查看文件的具体类型。不过现在希望在不使用上述两个转换工具的情况下,使用前面学过的命令手动完成 dos 文本格式到 UNIX 文本格式的转换。
-
Windows的回车符仅比Linux/Unix下多出一个
\r
那么将Windows文本中的\r
全部删除即可实现:1
tr -d '\r' < dos_file.txt > unix_file.txt
其中:
-
< dos_file.txt
: 从名为dos_file.txt
的文件读取输入。 -
> unix_file.txt
: 将输出写入名为unix_file.txt
的文件。
-