提问人:Moritz Roessler 提问时间:7/21/2014 最后编辑:CommunityMoritz Roessler 更新时间:8/1/2014 访问量:2403
以编程方式重命名函数
Programmatically rename functions
问:
我目前正在编写一个 ECMAScipt5 编译器,该编译器在解析树上执行各种给定的优化/转换,并编译回 ECMAScipt5。
其中一项功能是重命名 EnvironmentRecord 中的 Binding。
这种转换可以自动执行,例如作为旨在减小代码大小的优化的一部分,其中每个变量(不在全局范围内)将被赋予下一个最短的可用名称,或者通过引入新范围的语句后面的注释手动执行。
但是,我必须将(自动)过程限制为仅变量声明。
请看这两个例子。第一个是编译的,指定为转换,第二个使用[Minify]
[Directives, PrettyPrint]
语法: Compiler.fromSource (src).compile ([/*转换数组*/]);
var bar,foo;
(function exampleMin () {
var bar="foo",
foo="bar";
function fooBar () {
return foo + bar;
}
})
编译为
var bar,foo;function exampleMin(){var A="foo",B="bar";function fooBar(){return B+A}}
和
var bar,foo;
(function exampleMin () {
@Rename bar:A
@Rename foo:B
@Rename fooBar:C
var bar="foo",
foo="bar";
function fooBar () {
return foo + bar;
}
})
编译为
var bar,foo;
function exampleMin(){
var A="foo",B="bar";
function C(){
return B+A;
}
};
这导致了有问题的部分,功能......请考虑以下几点
if (fooBar.name === 'fooBar') {
//...
}
现在,如果此语句包含在 .用户定义的重命名会将代码转换为语义不同的代码。这绝不能通过自动执行的转换来实现。exampleMin
虽然我盲目地假设用户定义的函数重命名不会以某种方式改变语义,但如果是这种情况,我想发出警告。但是我不知道如何确定以编程方式重命名函数是否安全。
这让我归结为以下问题:
- 重命名函数时,除了访问函数名称之外,还必须考虑什么?
- 必须执行哪些分析才能将函数标记为安全可优化或不可优化。有可能吗?
- 我宁愿将函数排除在重命名之外,还是尝试更改另一面,例如与函数名称的比较。(如果可以证明它没有副作用)
- 在这种特定情况下,语义的改变是可以容忍的吗(GCC似乎是这么认为的),如果我作为交换,提供一个注释?
@do-not-optimize
更新 1.
我得出的结论是,仅通过静态分析可能无法进行这种分析
请考虑以下代码。
function foo () {}
function bar () {}
var fns = [bar,foo];
if (fns [0].name === 'bar') fns [0] ();
fns.unshift (foo);
if (fns [1].name === 'bar') fns [1] ();
我无法想象一旦将函数添加到数组中,如何在不执行代码的情况下将引用追溯到其来源。也许我需要某种形式的抽象解释1?
更新2
与此同时,在阅读@Genes答案后,我意识到还有其他几件事可能没有坏处。首先,一些旁注:
- 显然,我不是在编写编译器,而是在编写预处理器,因为它输出源代码而不是机器代码。
- 鉴于只有绑定标识符的静态访问,我对如何处理这个问题有一个很好的主意。
- 每个环境记录中的每个 Binding 当前都包含其所有静态引用的列表(我显然无法添加动态引用)
我目前正在进行 SSA[2] 转换。所以我还没有实现任何 DataFlow 分析。但那是计划中的。
因此,为了简单起见,我们假设满足以下先决条件。
AST 和 CFG 采用静态单次赋值形式。
已为 CFG4 中的每个节点计算了 GEN 和 KILL 集
已计算到达定义4 / IN 和 OUT 集。
已计算 DEF / USE 对
流相关边已添加到 CFG 中
因此,第一个示例的控制流图可能如下所示。
- 黑色非虚线表示控制流边缘。
- 黑色虚线连接表示数据流依赖项
- 蓝色双箭头线表示呼叫站点。
- 蓝色虚线表示过程间依赖关系。但是,我不确定我是否应该在每个 CFG 之前的每个节点之间建立直接连接
鉴于此,我可以简单地执行以下操作。
对于每个即将重命名的函数:
- 访问其声明 CFG 节点
- 对于每个流依赖关系边缘,请访问目标节点
- 如果该节点是条件 goto 语句,并且函数引用是属性访问器的 LHS,其中 RHS 为“name”。
- 将函数标记为受污染
唯一的问题是我看不出如何计算(甚至是近似的)函数的非静态引用的信息。
因此,如果该分析无法帮助查找对函数的所有引用,我也可以使用前面提到的引用列表,环境记录中的每个 Binding 都包含这些引用。 由于函数具有声明性环境记录和对象环境记录。我可以简单地看一下其对象环境“name”绑定的引用计数。
作为参考,下面是当前执行重命名的实际代码
var boundIdentifiers = this.environment.record.bindings, //`this` refers to an AST node representing a FunctionDeclaration or a FunctionExpression
nextName,
identifier,
binding;
for (identifier in boundIdentifiers) {
binding = boundIdentifiers [identifier];
if (binding.uses < 2 && !binding.FunctionExpression) {
compiler.pushWarning (binding.references [0].line, binding.references [0].column,'Declared function ' + identifier + ' is never called.') //False positive if the functions reference is obtained dynamically
}
if (boundIdentifiers [identifier].FunctionDeclaration || boundIdentifiers [identifier].FunctionExpression) {
continue; //Skip function declarations and expressions, since their name property could be accessed
}
do {
nextName = nextVar ();
} while (
Object.hasOwnProperty.call (boundIdentifiers,nextVar) //There could exist a `hasOwnProperty` binding.
); //ther could a with the name that already exists in the scope. So make sure we have assign a free name.
this.environment.record.setBindingName (identifier, nextName);
}
因此,总体问题归结为捕获非静态引用
需要涉及哪些分析技术和先前的优化才能捕获至少一些(因为不可能捕获所有)非静态引用。
我修改了问题以适应更新。因此,上述问题仍然适用
[1]静态程序分析技术综述 (CH: 2) [2]静态单作业书 [4]软件的表示和分析
正如注释中@didierc提到的,使用括号表示法的属性访问也会出现同样的问题。因此,只能手动重命名对象环境记录的绑定。
答:
我认为您需要破坏属性以返回原始名称而不是新名称。别的什么都行不通。.name
考虑将所有 .name 替换为 ._name(),并构造一个 ref->name 的查找表。
评论
foo['name']
a=[foo],p=name;a[0][p]==='foo'&&a[0]()
假设你不能像 H @Phil所说的那样“破坏”解释器,如果可能的话,这是一个有效的解决方案......
编译器处理此类情况的正常方式称为数据流分析。这相当于代码遍历,计算以某种方式描述程序结构的值。在所有有趣的情况下,这些值都是求证估计值。
最普遍的保守假设是,对哪个分支将执行一无所知,循环迭代的次数也是未知的,并且对函数调用在副作用方面可能做什么一无所知。复杂的过程间数据流分析允许删除最后一个。例如,LLVM 能够做到这一点,但许多其他编译系统却不能。if
对于这个问题,一个特殊的保守假设是,如果对一个值使用了类似的内省,那么它就是“被污染的”。它无法重命名。数据流分析将允许您找到受污染名称的保守列表。.name
对于这个问题,可能最适用的数据流分析是定义使用分析,以构造附加到每个“定义”的“使用链”。在 javascript 中,定义等同于赋值和函数命名。如果你的分析足够复杂,可以查看哈希内部,那么添加键值对就是一个定义。
分析结果将是一个列表,该列表附加到每个定义中建立的值的每个“使用”中。保守的假设意味着该列表可能包括从未实际发生的用途。
关于数据流分析的文献数量巨大。但是,开始学习它的一个很好的方法是旧的标准“龙书”,Aho Sethi 和 Ullman,编译器设计。
加法
非常动态语言的问题在于,准确的数据流分析是困难的。评论中的示例:
var n='name';
function foo () {};
if (foo[n] === 'foo') doSth ()
是典型的。愚蠢的保守假设是,在任何索引操作中,可能是 。所以不能重命名。您必须通过使数据流分析更详细(更少估计)来克服愚蠢假设的局限性。a[s]
s
'name'
a
一个框架是抽象解释:实际上,用抽象值域来运行程序,替换真实数据,再次对 s 和循环做出保守的假设。如果抽象域具有某些属性,则保证有限长度执行以计算每个变量的最终值。不断折叠是一种抽象解释的简单形式。if
在您的示例中,抽象值域必须至少包含类似以下内容的内容
{ unassigned, constant string, unknown }
在实践中,您还需要常量数、函数和其他值。抽象解释术语会说“底部”而不是“未分配”,以及“顶部”而不是“未知”。null
这一切都是旧东西。因此,从60年代开始,就有大量关于它的正式文献,当时人们对优化Lisp编译器非常感兴趣。如果您可以访问,请搜索 ACM 存档。
评论
.name
var n='name';function foo () {}; if (foo[n] === 'foo') doSth ()
foo
问题不在于重命名函数不安全,问题在于依赖于函数的“name”属性的代码是不安全的,无论您正在考虑重命名什么。
请注意,函数对象的“name”属性未在 ecma 标准中定义,并且某些浏览器没有实现它。在 JavaScript 中,函数可以是无名的,也可以有多个名称,因此在代码中依赖特定于浏览器的名称属性是问题所在,而不是重命名函数的概念。
评论
(function() { function hello(name) { alert('Hello, ' + name); } if (hello.name === "hello") hello(hello.name); })();
toString
foo['bar']();