C++虚函数表解析(转)update

update: 今天花了一下午仔细看了这篇文章,却怎么也琢磨不透,因为当中的说法前后存在一些矛盾,后来脑子快崩溃的时候,做了一个大胆的假设: 也许里面有些地方说错了。

果然,当我回头看这篇文章下面的评论的时候,才知道,作者确实某些地方说错了。。。但是,回过头来评价这篇文章,真的是一绝的好文,堪称一绝是无可厚非的。

现在我将其中的错误作出相应的修改,以及矛盾的说明,并以红色字说明。

original:

C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,RTTI技术,虚函数技术,要么是试图做到在编译时决议,要么试图做到运行时决议。

关于虚函数的使用方法,我在这里不做过多的阐述。大家可以看看相关的C++的书籍。在这篇文章中,我只想从虚函数的实现机制上面为大家 一个清晰的剖析。

当然,相同的文章在网上也出现过一些了,但我总感觉这些文章不是很容易阅读,大段大段的代码,没有图片,没有详细的说明,没有比较,没有举一反三。不利于学习和阅读,所以这是我想写下这篇文章的原因。也希望大家多给我提意见。

言归正传,让我们一起进入虚函数的世界。

虚函数表

对C++ 了解的人都应该知道虚函数(Virtual Function)是通过一张虚函数表(Virtual Table)来实现的。简称为V-Table。 在这个表中,主是要一个类的虚函数的地址表,这张表解决了继承、覆盖的问题,保证其容真实反应实际的函数。这样,在有虚函数的类的实例中这个表被分配在了 这个实例的内存中(应该更正为 一个类的虚函数表是静态的,也就是说对这个类的每个实例,他的虚函数表的是固定的,不会为每个实例生成一个相应的虚函数表。),所以,当我们用父类的指针来操作一个子类的时候,这张虚函数表就显得由为重要了,它就像一个地图一样,指明了实际所应该调用的函数。

这里我们着重看一下这张虚函数表。在C++的标准规格说明书中说到,编译器必需要保证虚函数表的指针(这里明明说对象实例的最前面的位置存的是虚函数表的指针,注意,不是虚函数表,而是指向虚函数表的指针,然后再看下面的例子上的代码)存在于对象实例中最前面的位置(这是为了保证正确取到虚函数的偏移量)。 这意味着我们通过对象实例的地址得到这张虚函数表(这话没错,不过,通过对象实例的地址一次是取不到的,需要两次),然后就可以遍历其中函数指针,并调用相应的函数。

听我扯了那么多,我可以感觉出来你现在可能比以前更加晕头转向了。 没关系,下面就是实际的例子,相信聪明的你一看就明白了。

假设我们有这样的一个类:

class Base {

public:

virtual void f() { cout << “Base::f” << endl; }

virtual void g() { cout << “Base::g” << endl; }

virtual void h() { cout << “Base::h” << endl; }

};

按照上面的说法,我们可以通过Base的实例来得到虚函数表。 下面是实际例程:

typedef void(*Fun)(void);

Base b;

Fun pFun = NULL;

cout << “虚函数表地址:” << (int*)(&b) << endl;  //这只是对象实例的地址,而非虚函数表的地址,*(int*)(&b)才是指向虚函数表的指针,也就是虚函数表的地址,这与最前面的括号里面的注明相呼应。

cout << “虚函数表 — 第一个函数地址:” << (int*)*(int*)(&b) << endl;  //而这个才是虚函数表的地址,虚函数表的第一个函数地址(函数指针)应该是*(int*)*(int*)(&b),这样下面的函数指针赋值才说得通:pFun = (Fun)*((int*)*(int*)(&b)); ,不然下面的“

(Fun)*((int*)*(int*)(&b)+0); // Base::f()

(Fun)*((int*)*(int*)(&b)+1); // Base::g()

(Fun)*((int*)*(int*)(&b)+2); // Base::h()

的+0, +1, +2这样的函数指针偏移方式也说不通了。

// Invoke the first virtual function

pFun = (Fun)*((int*)*(int*)(&b));

pFun();

实际运行经果如下:(Windows XP+VS2003, Linux 2.6.22 + GCC 4.1.3)

虚函数表地址:0012FED4

虚函数表 — 第一个函数地址:0044F148

Base::f

通过这个示例,我们可以看到,我们可以通过强行把&b转成int *,取得虚函数表的地址,然后,再次取址就可以得到第一个虚函数的地址了,也就是Base::f(),这在上面的程序中得到了验证(把int* 强制转成了函数指针)。通过这个示例,我们就可以知道如果要调用Base::g()和Base::h(),其代码如下:

(Fun)*((int*)*(int*)(&b)+0); // Base::f()

(Fun)*((int*)*(int*)(&b)+1); // Base::g()

(Fun)*((int*)*(int*)(&b)+2); // Base::h()

这个时候你应该懂了吧。什么?还是有点晕。也是,这样的代码看着太乱了。没问题,让我画个图解释一下。如下所示:

注意:在上面这个图中,我在虚函数表的最后多加了一个结点,这是虚函数表的结束结点,就像字符串的结束符“\0”一样,其标志了虚函数表的结束。这个结束标志的值在不同的编译器下是不同的。在WinXP+VS2003下,这个值是NULL。而在Ubuntu 7.10 + Linux 2.6.22 + GCC 4.1.3下,这个值是如果1,表示还有下一个虚函数表,如果值是0,表示是最后一个虚函数表。

下面,我将分别说明“无覆盖”和“有覆盖”时的虚函数表的样子。没有覆盖父类的虚函数是毫无意义的。我之所以要讲述没有覆盖的情况,主要目的是为了给一个对比。在比较之下,我们可以更加清楚地知道其内部的具体实现。

一般继承(无虚函数覆盖)

下面,再让我们来看看继承时的虚函数表是什么样的。假设有如下所示的一个继承关系:

请注意,在这个继承关系中,子类没有重载任何父类的函数。那么,在派生类的实例中,其虚函数表如下所示:

对于实例:Derive d; 的虚函数表如下:

我们可以看到下面几点:

1)虚函数按照其声明顺序放于表中。

2)父类的虚函数在子类的虚函数前面。

我相信聪明的你一定可以参考前面的那个程序,来编写一段程序来验证。

一般继承(有虚函数覆盖)

覆盖父类的虚函数是很显然的事情,不然,虚函数就变得毫无意义。下面,我们来看一下,如果子类中有虚函数重载了父类的虚函数,会是一个什么样子?假设,我们有下面这样的一个继承关系。

为了让大家看到被继承过后的效果,在这个类的设计中,我只覆盖了父类的一个函数:f()。那么,对于派生类的实例,其虚函数表会是下面的一个样子:

我们从表中可以看到下面几点,

1)覆盖的f()函数被放到了虚表中原来父类虚函数的位置。

2)没有被覆盖的函数依旧。

这样,我们就可以看到对于下面这样的程序,

Base *b = new Derive();

b->f();

由b所指的内存中的虚函数表的f()的位置已经被Derive::f()函数地址所取代,于是在实际调用发生时,是Derive::f()被调用了。这就实现了多态。

多重继承(无虚函数覆盖)

下面,再让我们来看看多重继承中的情况,假设有下面这样一个类的继承关系。注意:子类并没有覆盖父类的函数。

对于子类实例中的虚函数表,是下面这个样子:

我们可以看到:

1) 每个父类都有自己的虚表。

2) 子类的成员函数被放到了第一个父类的表中。(所谓的第一个父类是按照声明顺序来判断的)

这样做就是为了解决不同的父类类型的指针指向同一个子类实例,而能够调用到实际的函数。

多重继承(有虚函数覆盖)

下面我们再来看看,如果发生虚函数覆盖的情况。

下图中,我们在子类中覆盖了父类的f()函数。

下面是对于子类实例中的虚函数表的图:

我们可以看见,三个父类虚函数表中的f()的位置被替换成了子类的函数指针。这样,我们就可以任一静态类型的父类来指向子类,并调用子类的f()了。如:

Derive d;

Base1 *b1 = &d;

Base2 *b2 = &d;

Base3 *b3 = &d;

b1->f(); //Derive::f()

b2->f(); //Derive::f()

b3->f(); //Derive::f()

b1->g(); //Base1::g()

b2->g(); //Base2::g()

b3->g(); //Base3::g()

安全性

每次写C++的文章,总免不了要批判一下C++。这篇文章也不例外。通过上面的讲述,相信我们对虚函数表有一个比较细致的了解了。水可载舟,亦可覆舟。下面,让我们来看看我们可以用虚函数表来干点什么坏事吧。

一、通过父类型的指针访问子类自己的虚函数

我们知道,子类没有重载父类的虚函数是一件毫无意义的事情。因为多态也是要基于函数重载的。虽然在上面的图中我们可以看到Base1的虚表中有Derive的虚函数,但我们根本不可能使用下面的语句来调用子类的自有虚函数:

Base1 *b1 = new Derive();

b1->f1(); //编译出错

任何妄图使用父类指针想调用子类中的未覆盖父类的成员函数的行为都会被编译器视为非法,所以,这样的程序根本无法编译通过。但在运行时,我们可以通过指针的方式访问虚函数表来达到违反C++语义的行为。(关于这方面的尝试,通过阅读后面附录的代码,相信你可以做到这一点)

二、访问non-public的虚函数

另外,如果父类的虚函数是private或是protected的,但这些非public的虚函数同样会存在于虚函数表中,所以,我们同样可以使用访问虚函数表的方式来访问这些non-public的虚函数,这是很容易做到的。

如:

class Base {

private:

virtual void f() { cout << “Base::f” << endl; }

};

class Derive : public Base{

};

typedef void(*Fun)(void);

void main() {

Derive d;

Fun pFun = (Fun)*((int*)*(int*)(&d)+0);

pFun();

}

结束语

C++这门语言是一门Magic的语言,对于程序员来说,我们似乎永远摸不清楚这门语言背着我们在干了什么。需要熟悉这门语言,我们就必需要了解C++里面的那些东西,需要去了解C++中那些危险的东西。不然,这是一种搬起石头砸自己脚的编程语言。

为了说明文章里提到的问题,我在下面附上我的代码,环境是g++ 编译的,编译时要注意多一个参数,

g++ virtual_func.cpp -Wno-pmf-conversions -o virtual_func

代码:


#include<iostream>
#include<stdio.h>
using namespace std;
typedef void(*Fun)(void);
typedef void (*func_type)(void * obj);
class Base {

public:
    virtual void f() { cout << "Base::f" << endl; }

    virtual void g() { cout << "Base::g" << endl; }

    virtual void h() { cout << "Base::h" << endl; }
}; 

int main(int argc, char* argv[])
{
    Base a,b;
    func_type pa,pb;
    pa = &Base::f;
    pb = &Base::f;
    cout << "Addr of b: " << (int*)(&b) << endl;
    cout << "Addr of v-table in b: " << (int*)*(int*)(&b) << endl; //虚函数表的地址。
    cout << "Addr of first virtual func in v-table of b: " << (int*)*(int*)*(int*)(&b) << endl; //第一个虚函数的地址
    cout << "Addr of a: " << (int*)(&a) << endl;
    cout << "Addr of v-table in a: " << (int*)*(int*)(&a) << endl;
    cout << "Addr of first virtual func in v-table of a: " << (int*)*(int*)*(int*)(&a) << endl; //从这里我们可以看到,无论是实例a,还是实例b,他们的虚函数地址是一样的,也就是上面红色字体说的,虚函数表是静态的,不会为每个实例生成一个相应的虚函数表。
   Fun pFun = NULL;
   Fun pFuni = NULL;
   // Invoke the first virtual function
   pFun = (Fun)*((int*)*(int*)(&b));
   cout << "pFun callback: " ;
   pFun();
   cout << endl;
   cout << "Callback of b: " ;
   pa(&b);
   cout << endl;
   cout << "Callback of a: " ;
   pb(&a);
   cout << endl;
   //printf("(int*)*(int*)(&b): 0x%x\n",*(int*)*(int*)(&b));
   printf("pFun: 0x%x\n", pFun); //这行以及下一行其实没多大意义,只是为了证明所有实例的虚函数表地址和虚函数 地址是一样的。
   printf("pb: 0x%x\n", pb);
   printf("pa: 0x%x\n", pa);
   return 0;
 }

运行结果如下:

Addr of b: 0xbfffe088
Addr of v-table in b: 0x8048c98
Addr of first virtual func in v-table of b: 0x8048a8a
Addr of a: 0xbfffe08c
Addr of v-table in a: 0x8048c98
Addr of first virtual func in v-table of a: 0x8048a8a
pFun callback: Base::f

Callback of b: Base::f

Callback of a: Base::f

pFun: 0x8048a8a
pb: 0x8048a8a
pa: 0x8048a8a
29th July 2010 7 Comments Permalink

7 Comments

  1. gangzi says:

    这个文章的确修改的挺好,原来的容易误导人。而你的程序第5行,为什么有一个void *obj的参数?
    typedef void (*func_type)(void * obj);

    这个指针类型将来声明的变量不是带参数的啊。我在VC6下无法通过编译。不知道G++怎么解释的?多谢。

    • 灰灰 says:

      你好,
      我是halfroom。
      你的问题是这样,等会说我的问题。
      您没有看到“环境是g++ 编译的,编译时要注意多一个参数”这句话,要带参数-Wno-pmf-conversions才能编译过。

      Perl code

      g++ virtual_func.cpp -Wno-pmf-conversions -o virtual_func

      至于在C++下面怎么做我就不清楚了,也许您写的那个在VC下是正解。
      然后说我的问题。上面的那种编译方式是我偶然在网上发现的,我这样做只是想通过两种不同的方式得到成员函数的地址。
      然后还有一点是我的错:关于那个编译时使用的参数我也并不清楚是什么意思,所以也没有多添加解释。
      那个编译参数我是从”http://blog.chinaunix.net/u1/33098/showart_704871.html”这看来的,那个博主似乎是想做”c++普通成员函数转换成c函数指针的执行”这样的事情。
      ( ̄▽ ̄”)
      还有就是关于你所改的我为你找到了”http://www.dre.vanderbilt.edu/Doxygen/5.4.8/html/tao /ciao/dance/classProcess__Member__Function__Remote.html”,不好意思,我只找到了英文的。
      还有”pa(&b);”这个是因为pa有一个入参,是void*类型,这里传入一个Base的对象作为入参,这样pa便会知道它要执行的代码的地址是在相应的对象的成员函数地址。

  2. gangzi says:

    error C2440: ‘=’ : cannot convert from ‘void (__thiscall Base::*)(void)’ to ‘void (__cdecl *)(void *)’

    类型根本不匹配啊。怎么能够赋值?一个是thiscall调用方式,一个是cdecl调用方式,怎么能够赋值啊?奇怪了。

  3. gangzi says:

    #include
    #include
    using namespace std;
    typedef void(*Fun)(void);
    class Base;//这里必须先加声明;Base::
    typedef void ( Base::*func_type)(); //此处必须加类名,否则该函数指针无法指向成员函数,性质不同。void * obj

    class Base {

    public:
    virtual void f() { cout << "Base::f" << endl; }

    virtual void g() { cout << "Base::g" << endl; }

    virtual void h() { cout << "Base::h" << endl; }
    };

    int main(int argc, char* argv[])
    {
    Base a,b;
    func_type pa,pb;
    pa = &Base::f;

    pb = &Base::f;
    cout << "Addr of b: " << (int*)(&b) << endl;
    cout << "Addr of v-table in b: " << (int*)*(int*)(&b) << endl; //虚函数表的地址。
    cout << "Addr of first virtual func in v-table of b: " << (int*)*(int*)*(int*)(&b) << endl; //第一个虚函数的地址
    cout << "Addr of a: " << (int*)(&a) << endl;
    cout << "Addr of v-table in a: " << (int*)*(int*)(&a) << endl;
    cout << "Addr of first virtual func in v-table of a: " << (int*)*(int*)*(int*)(&a) << endl; //从这里我们可以看到,无论是实例a,还是实例b,他们的虚函数地址是一样的,也就是上面红色字体说的,虚函数表是静态的,不会为每个实例生成一个相应的虚函数表。
    Fun pFun = NULL;
    Fun pFuni = NULL;
    // Invoke the first virtual function
    pFun = (Fun)*((int*)*(int*)(&b));
    cout << "pFun callback: " ;
    pFun();
    cout << endl;
    cout << "Callback of b: " ;
    (a.*pa)(); //我在VC6下的修改成这样的可以。是不是不支持回调函数形式呢?
    cout << endl;
    cout << "Callback of a: " ;
    (b.*pb)();
    cout << endl;
    //printf("(int*)*(int*)(&b): 0x%x\n",*(int*)*(int*)(&b));&a&b
    printf("pFun: 0x%x\n", pFun); //这行以及下一行其实没多大意义,只是为了证明所有实例的虚函数表地址和虚函数 地址是一样的。
    printf("pb: 0x%x\n", pb);
    printf("pa: 0x%x\n", pa);
    return 0;
    }

  4. z_yixiang@hotmail.com says:

    关于g++的那个参数,我找到了这个http://gcc.gnu.org/onlinedocs/gcc-3.0.4/gcc_6.html

    第6.7节:
    6.7 Extracting the function pointer from a bound pointer to member function

    In C++, pointer to member functions (PMFs) are implemented using a wide pointer of sorts to handle all the possible call mechanisms; the PMF needs to store information about how to adjust the `this’ pointer, and if the function pointed to is virtual, where to find the vtable, and where in the vtable to look for the member function. If you are using PMFs in an inner loop, you should really reconsider that decision. If that is not an option, you can extract the pointer to the function that would be called for a given object/PMF pair and call it directly inside the inner loop, to save a bit of time.

    Note that you will still be paying the penalty for the call through a function pointer; on most modern architectures, such a call defeats the branch prediction features of the CPU. This is also true of normal virtual function calls.

    The syntax for this extension is

    extern A a;
    extern int (A::*fp)();
    typedef int (*fptr)(A *);

    fptr p = (fptr)(a.*fp);

    For PMF constants (i.e. expressions of the form `&Klasse::Member’), no object is needed to obtain the address of the function. They can be converted to function pointers directly:

    fptr p1 = (fptr)(&A::foo);

    You must specify `-Wno-pmf-conversions’ to use this extension.

  5. z_yixiang@hotmail.com says:

    这篇文章,转了~

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Statistical data collected by Statpress SEOlution (blogcraft).