转载:Bash命令行处理流程详解

1381阅读 0评论2011-10-10 
分类:

                               +-------------+           单引号
|------------------------->| |--------------------------|
| ----------------------->| 1.分隔成记号|---- ---------------| |
| | ------------------->| | 双引号 | |
| | | +-------------+ | |
| | | || | |
| | |读取下一个命令 \/ | |
| | | +-------------------------------------------+ | |
| | | | 2. | | |
| | ------| 检验第一个记号 | | |
| | |开放的关键字 其他关键字 | | |
| | | 非关键字 | | |
| | +-------------------------------------------+ | |
| | || | |
| | \/ | |
| | +-----------------------------+ | |
| | 扩展别名 | 3. 检验第一个记号 | | |
| |------------| 别名 | | |
| | 不是别名 | | |
| +-----------------------------+ | |
| || | |
| \/ | |
| +--------------+ | |
| | 4.大括号扩展 | | |
| +--------------+ | |
| || | |
| \/ | |
| +--------------+ | |
| | 5.~符号扩展 | | |
| +--------------+ | |
| || | |
| \/ | |
| +--------------+ 双引号 | |
| | 6.参数扩展 |<-----------------| |
| +--------------+ |
| || |
| \/ |
| +------------------------------+ |
| | 7.命令替换(嵌套命令行处理) | |
| +------------------------------+ |
| || |
| \/ |
| +--------------+ 双引号 |
| | 8.算术扩展 |------------------| |
| +--------------+ | |
| || | |
| \/ | |
| +--------------+ | |
| | 9.单词分割 | | |
| +--------------+ | |
| || | |
| \/ | |
| +--------------+ | |
| | 10.路径名扩展| | |
| +--------------+ | |
| || | |
| \/ | |
| +----------------------------------------+ | |
| | 11.命令查寻:函数,内置命令,可执行文件|<---|-----|
| +----------------------------------------+
| ||
| \/
|将参数带入下一个命令 +-------------+
|----------eval--------------| 12.运行命令 |
+-------------+


Shell从标准输入或脚本中读取的每行称为一个管道行,它包含一个或多个由0个或多个管道字符(|)分隔的命令。对每一个管道行,进行12个步骤的处理。
结合上面的插图,这里给出命令行的12个步骤。

1. 将命令行分成由 元字符(meta character) 分隔的 记号(token)
元字符包括 SPACE, TAB, NEWLINE, ; , (, ), <, >, |, &
记号 的类型包括 单词,关键字,I/O重定向符和分号。

2.检测每个命令的第一个记号,看是否为不带引号或反斜线的关键字。如果是一个 开放的关键字,如if和其他控制结构起始字符串,function,{或(,则命令实际上为一复合命令。shell在内部对复合命令进行处理,读取下一个命 令,并重复这一过程。如果关键字不是复合命令起始字符串,而是如then等一个控制结构中间出现的关键字,则给出语法错误信号。

3.依据别名列表检查每个命令的第一个关键字。如果找到相应匹配,则替换其别名定义,并退回第一步;否则进入第4步。

4.执行大括号扩展,例如a{b,c}变成ab ac

5.如果~位于单词开头,用$HOME替换~。使用usr的主目录替换~user。

6.对任何以符号$开头的表达式执行参数(变量)替换

7.对形如$(string)或者`string` 的表达式进行命令替换
这里是嵌套的命令行处理。

8.计算形式为$((string))的算术表达式

9.把行的参数替换,命令替换和算术替换 的结果部分再次分成单词,这次它使用$IFS中的字符做分割符而不是步骤1的元字符集。

10.对出现*, ?, [ ]对执行路径名扩展,也称为通配符扩展

11. 按命令优先级表(跳过别名),进行命令查寻
   先作为一个特殊的内建命令,接着是作为函数,然后作为一般的内建命令,最后作为查找$PATH找到的第一个文件。

12.设置完I/O重定向和其他操作后执行该命令。

接下来我们根据一个例子走一下详细流程:
$mkdir /tmp/x
$cd /tmp/x
$touch f1 f2
$f=f y="a b"
$echo ~+/${f}[12] $y $(echo cmd subset) $((3+2)) > out
最后一句命令执行步骤如下:
1.命令一开始会根据shell语法分割token。 其中I/O重定向也被识别并存储供第12步使用。

   echo ~+/${f}[12] $y $(echo cmd subset) $((3+2))
   |-1--| |------2-----| |3| |----------4----------| |---5----|


2.检查第一个单词(这里是echo)是否为关键字,例如if、for等。在这里不是,所以命令行不变继续处理。
3.检查第一个单词(这里是echo)是否为别名,在这里不是,命令行不变,继续处理。
4.扫描所有单词是否需要大括号扩展,这里没有大括号,命令行不变,继续处理。
5.扫描所有单词是否需要波浪号扩展,在本例中,~+为bash的扩展,等同与$PWD,token 2被修改。

   echo /tmp/x/${f}[12] $y $(echo cmd subset) $((3+2))
   |-1--| |--------2-------| |3 | |---------4-----------| |----5----|


6.执行变量替换,token 2 和 token 3都被修改。
   echo /tmp/x/f[12] a b $(echo cmd subset) $((3+2))
   |-1--| |------2-----| |-3-| |--------4-----------| |---5----|

7.执行命令替换,注意这里的命令替换可递归引用列表里的所有步骤,此例中token 4 被修改。
   echo /tmp/x/f[12]  a b  cmd subset $((3+2))
   |-1--| |------2------| |-3-| |-----4-----| |--5----|

8.执行算术替换,token 5 被修改。
   echo /tmp/x/f[12]  a b cmd subset 5
   |-1--| |------2-----| |-3-| |-----4-----| |5|

9.将变量替换、命令替换、算数替换 所产生的结果再根据$IFS字符进行分割。
   echo /tmp/x/f[12] a b  cmd subset  5
   |-1--| |------2-----| |3|4| |-5--| |--6---| |7|

10.通配符展开,token 2 变成了token2 和 token 3.
   echo /tmp/x/f1 /tmp/x/f1 a  b  cmd subset 5
   |-1--| |----2----| |----3----| |4|5| |-6-| |--7---| |8|

11.寻找echo命令,bash里的echo为内建命令。
12.执行重定向操作,然后调用echo。

个人仍然困惑的地方:
1.第一步分割token后,若一个token在接下来的某一个步骤中经过修改变了样,这个变了样的结果是否还会被其接下来的一个步骤修改?
  比如说如下命令:
  $a="\$((3+2"
  $b="))"
  $echo $a$b
执行结果为$((3+2)) ,也就是说第六步执行变量替换后的结果$((3+2))在第八步时不会再进行算术替换。
  $echo $(echo $a$b)
执行结果也为$((3+2)),这说明第七步进行命令替换后的结果$((3+2))在第八步时也不会在进行算术替换。

  又比如下面命令:
  $a=*
  $echo $a
该命令的执行结果会列出当前目录下所有文件名,这说明第六步执行变量替换后的结果在第10步的通配符展开中又进行了展开。

我个人的结论是:在1-8步中,第 i 步骤处理后得出的结果不会再被 i+1到8 步中的过程处理,
第九步进行重新划分后,前面的结果可以再被通配符匹配处理。


 
关于引用
1. 单引号跳过了前10个步骤,不能在单引号里放单引号
2. 双引号跳过了步骤1~5,步骤9~10,也就是说,只处理6~8个步骤。
也就是说,双引号忽略了管道字符,别名,~替换,通配符扩展,和通过分隔符分裂成单词。
双引号里的单引号没有作用,但双引号允许参数替换,命令替换和算术表达式求值。可以在双引号里包含双引号,方式是加上转义符"\",还必须转义$, `, \。

  $hello=A B C      D  #(C和D之间有多个空格)
  $echo $hello         #输出为A B C D
  $echo "$hello"       #输出为A B C      D,这是因为双引号跳过了第9步  

摘自man bash 的一段话来解释双引号:
    Enclosing characters in double quotes preserves the literal value of all characters within the  quotes,  with  the exception  of  $,  `,  \,  and, when history expansion is enabled, !.  The characters $ and ` retain their special
meaning within double quotes.  The backslash retains its special meaning only when followed by one of the  following  characters: $, `, ", \, or .  A double quote may be quoted within double quotes by preceding it with a backslash.  If enabled, history expansion will be performed unless an !  appearing in double quotes  is  escaped using a backslash.  The backslash preceding the !  is not removed.

下面man bash的一段话来解释命令替换$()和``
    When  the old-style backquote form of substitution is used, backslash retains its literal meaning except when followed by $, `, or \.  The first backquote not preceded by a backslash terminates the command  substitution.   When using the $(command) form, all characters between the parentheses make up the command; none are treated specially.



要思考的问题:
1.echo `echo \\\z` 的输出 和 echo `echo \\\\z` 的输出。

2.
在bash中:
$echo "\\"
输出:\

$A='\\'
$echo "$A"
输出:\\
解释原因。

原因:这与bash命令行处理的顺序有关。bash中对引用(单双引号和\)的处理在对参数扩展(展开变量)之前,所以将$A的值代入命令行之后bash就不再解释转义或称作逃逸字符。有时为了让shell再次进行命令行的一系列处理,需要使用eval。

其实有两种方法让输出结果为\:
方法一、echo -e "$A"
方法二、eval echo "$A"
其中方法一是通过改变echo命令的执行方式达到结果,
方法二是通过改变shell处理来达到结果。

3.echo `echo \\` 与 echo $(echo \\)的输出分别是什么?解释原因。
原因: ``里面的\是一个特殊字符,可以用它来引用特殊的字符(当然包括它自身\),而$()里面的\只是普通字符。
echo `echo \\`命令,里层的echo \\得到的结果\,于是外层命令为echo \,输出结果就为空了。
echo $(echo \\)命令,里层的\不再作为特殊字符,其输出就是\\,于是外层命令为echo \\,输出结果就为\了。

上一篇:10个管理工作时间的小技巧
下一篇:C语言中的for循环