光线追踪:多线程 - Eureka的博客

总体思路

原来是单线程：

1
for (int j = 0; j < image_height; j++) {
2
    for (int i = 0; i < image_width; i++) {
3
        ...
4
        write_color(std::cout, ...);
5
    }
6
}

多线程后变成：

先创建一个 framebuffer 保存整张图片的颜色。
多个线程同时工作。
每个线程通过原子计数器领取下一行 j。
线程只写自己那一行对应的 framebuffer 区域。
所有线程结束后，主线程再按从上到下、从左到右的顺序输出 PPM。
用 std::chrono 统计渲染时间。

第 1 步：添加头文件

在 camera.h 顶部加：

1
#include <atomic>
2
#include <chrono>
3
#include <thread>

原因：

atomic：安全地分配扫描线。
thread：创建工作线程。
chrono：统计渲染耗时。

第 2 步：不要让线程直接写 std::cout

PPM 图片要求像素顺序严格一致。多个线程如果同时 write_color(std::cout, ...)，输出顺序会乱，图片就坏了。

所以先在 render() 里创建缓冲区：

1
std::vector<color> framebuffer(image_width * image_height);

第 j 行第 i 列像素的位置是：

1
framebuffer[j * image_width + i]

第 3 步：创建行任务计数器

1
std::atomic<int> next_row{0};
2
std::atomic<int> rows_done{0};

next_row 表示下一条还没被领取的扫描线。

每个线程执行：

1
int j = next_row.fetch_add(1);

这样多个线程不会拿到同一行。

第 4 步：写工作线程函数

在 render() 里定义一个 lambda：

1
auto render_row = [this, &world, &framebuffer, &next_row, &rows_done]() {
2
    while (true) {
3
        int j = next_row.fetch_add(1);
4

5
        if (j >= image_height) {
6
            break;
7
        }
8

9
        for (int i = 0; i < image_width; i++) {
10
            color pixel_color(0, 0, 0);
11

12
            for (int sample = 0; sample < samples_per_pixel; sample++) {
13
                ray r = get_ray(i, j);
14
                pixel_color += ray_color(r, max_depth, world);
15
            }
16

17
            framebuffer[j * image_width + i] = pixel_samples_scale * pixel_color;
18
        }
19

20
        auto done = rows_done.fetch_add(1) + 1;
21
        std::clog << "\r剩余扫描线: " << (image_height - done) << ' ' << std::flush;
22
    }
23
};

这里每个线程会不断领取一行、渲染一行，直到所有行都被领完。

第 5 步：创建线程

1
auto worker_count = std::thread::hardware_concurrency();
2

3
if (worker_count == 0) {
4
    worker_count = 4;
5
}

然后启动线程：

1
std::vector<std::thread> workers;
2
workers.reserve(worker_count);
3

4
for (unsigned int t = 0; t < worker_count; t++) {
5
    workers.emplace_back(render_row);
6
}

第 6 步：等待线程结束

1
for (auto& worker : workers) {
2
    worker.join();
3
}

join() 的意思是：主线程等这些渲染线程全部完成。

第 7 步：统一输出图片

线程全部结束后，再由主线程输出：

1
std::cout << "P3\n" << image_width << ' ' << image_height << "\n255\n";
2

3
for (int j = 0; j < image_height; j++) {
4
    for (int i = 0; i < image_width; i++) {
5
        write_color(std::cout, framebuffer[j * image_width + i]);
6
    }
7
}

这样输出顺序仍然和单线程一样。

第 8 步：统计渲染时间

在 render() 开始附近加：

1
auto render_start = std::chrono::steady_clock::now();

在输出完成后加：

1
auto render_end = std::chrono::steady_clock::now();
2
std::chrono::duration<double> render_time = render_end - render_start;
3

4
std::clog << "渲染时间: " << render_time.count() << " 秒\n";

用 std::clog 是因为图片数据走 std::cout，日志走 std::clog，两者不会混在一起。

第 9 步：修复随机数线程安全问题

原来的：

1
inline double random_double() {
2
    return std::rand() / (RAND_MAX + 1.0);
3
}

std::rand() 在多线程里不适合共享使用。可以在 rtweekend.h 改成：

1
#include <random>

然后：

1
inline double random_double() {
2
    static thread_local std::mt19937 generator(std::random_device{}());
3
    static thread_local std::uniform_real_distribution<double> distribution(0.0, 1.0);
4
    return distribution(generator);
5
}

thread_local 表示每个线程都有自己的随机数生成器，互不干扰。

最终结构就是：

1
void render(const hittable& world) {
2
    initialize();
3

4
    auto render_start = std::chrono::steady_clock::now();
5

6
    std::vector<color> framebuffer(image_width * image_height);
7
    std::atomic<int> next_row{0};
8
    std::atomic<int> rows_done{0};
9

10
    auto render_row = ...;
11

12
    create threads;
13
    join threads;
14

15
    output ppm header;
16
    output framebuffer;
17

18
    print render time;
19
}