Spaces:

derful
/

MinerU

Runtime error

App Files Files Community

MinerU / magic_pdf /layout /layout_sort.py

derful

Upload folder using huggingface_hub

240e0a0 verified 8 months ago

raw

history blame contribute delete

33.5 kB

	"""
	对pdf上的box进行layout识别，并对内部组成的box进行排序
	"""

	from loguru import logger
	from magic_pdf.layout.bbox_sort import CONTENT_IDX, CONTENT_TYPE_IDX, X0_EXT_IDX, X0_IDX, X1_EXT_IDX, X1_IDX, Y0_EXT_IDX, Y0_IDX, Y1_EXT_IDX, Y1_IDX, paper_bbox_sort
	from magic_pdf.layout.layout_det_utils import find_all_left_bbox_direct, find_all_right_bbox_direct, find_bottom_bbox_direct_from_left_edge, find_bottom_bbox_direct_from_right_edge, find_top_bbox_direct_from_left_edge, find_top_bbox_direct_from_right_edge, find_all_top_bbox_direct, find_all_bottom_bbox_direct, get_left_edge_bboxes, get_right_edge_bboxes
	from magic_pdf.libs.boxbase import get_bbox_in_boundry


	LAYOUT_V = "V"
	LAYOUT_H = "H"
	LAYOUT_UNPROC = "U"
	LAYOUT_BAD = "B"

	def _is_single_line_text(bbox):
	"""
	检查bbox里面的文字是否只有一行
	"""
	return True # TODO
	box_type = bbox[CONTENT_TYPE_IDX]
	if box_type != 'text':
	return False
	paras = bbox[CONTENT_IDX]["paras"]
	text_content = ""
	for para_id, para in paras.items(): # 拼装内部的段落文本
	is_title = para['is_title']
	if is_title!=0:
	text_content += f"## {para['text']}"
	else:
	text_content += para["text"]
	text_content += "\n\n"

	return bbox[CONTENT_TYPE_IDX] == 'text' and len(text_content.split("\n\n")) <= 1


	def _horizontal_split(bboxes:list, boundry:tuple, avg_font_size=20)-> list:
	"""
	对bboxes进行水平切割
	方法是：找到左侧和右侧都没有被直接遮挡的box，然后进行扩展，之后进行切割
	return:
	返回几个大的Layout区域 [[x0, y0, x1, y1, "h\|u\|v"], ], h代表水平，u代表未探测的，v代表垂直布局
	"""
	sorted_layout_blocks = [] # 这是要最终返回的值

	bound_x0, bound_y0, bound_x1, bound_y1 = boundry
	all_bboxes = get_bbox_in_boundry(bboxes, boundry)
	#all_bboxes = paper_bbox_sort(all_bboxes, abs(bound_x1-bound_x0), abs(bound_y1-bound_x0)) # 大致拍下序, 这个是基于直接遮挡的。
	"""
	首先在水平方向上扩展独占一行的bbox

	"""
	last_h_split_line_y1 = bound_y0 #记录下上次的水平分割线
	for i, bbox in enumerate(all_bboxes):
	left_nearest_bbox = find_all_left_bbox_direct(bbox, all_bboxes) # 非扩展线
	right_nearest_bbox = find_all_right_bbox_direct(bbox, all_bboxes)
	if left_nearest_bbox is None and right_nearest_bbox is None: # 独占一行
	"""
	然而，如果只是孤立的一行文字，那么就还要满足以下几个条件才可以：
	1. bbox和中心线相交。或者
	2. 上方或者下方也存在同类水平的独占一行的bbox。或者
	3. TODO 加强条件：这个bbox上方和下方是同一列column，那么就不能算作独占一行
	"""
	# 先检查这个bbox里是否只包含一行文字
	is_single_line = _is_single_line_text(bbox)
	"""
	这里有个点需要注意，当页面内容不是居中的时候，第一次调用传递的是page的boundry，这个时候mid_x就不是中心线了.
	所以这里计算出最紧致的boundry，然后再计算mid_x
	"""
	boundry_real_x0, boundry_real_x1 = min([bbox[X0_IDX] for bbox in all_bboxes]), max([bbox[X1_IDX] for bbox in all_bboxes])
	mid_x = (boundry_real_x0+boundry_real_x1)/2
	# 检查这个box是否内容在中心线有交
	# 必须跨过去2个字符的宽度
	is_cross_boundry_mid_line = min(mid_x-bbox[X0_IDX], bbox[X1_IDX]-mid_x) > avg_font_size*2
	"""
	检查条件2
	"""
	is_belong_to_col = False
	"""
	检查是否能被上方col吸收，方法是：
	1. 上方非空且不是独占一行的，并且
	2. 从上个水平分割的最大y=y1开始到当前bbox,最左侧的bbox的[min_x0, max_x1],能够覆盖当前box的[x0, x1]
	"""
	"""
	以迭代的方式向上找，查找范围是[bound_x0, last_h_sp, bound_x1, bbox[Y0_IDX]]
	"""
	#先确定上方的y0, y0
	b_y0, b_y1 = last_h_split_line_y1, bbox[Y0_IDX]
	#然后从box开始逐个向上找到所有与box在x上有交集的box
	box_to_check = [bound_x0, b_y0, bound_x1, b_y1]
	bbox_in_bound_check = get_bbox_in_boundry(all_bboxes, box_to_check)

	bboxes_on_top = []
	virtual_box = bbox
	while True:
	b_on_top = find_all_top_bbox_direct(virtual_box, bbox_in_bound_check)
	if b_on_top is not None:
	bboxes_on_top.append(b_on_top)
	virtual_box = [min([virtual_box[X0_IDX], b_on_top[X0_IDX]]), min(virtual_box[Y0_IDX], b_on_top[Y0_IDX]), max([virtual_box[X1_IDX], b_on_top[X1_IDX]]), b_y1]
	else:
	break

	# 随后确定这些box的最小x0, 最大x1
	if len(bboxes_on_top)>0 and len(bboxes_on_top) != len(bbox_in_bound_check):# virtual_box可能会膨胀到占满整个区域，这实际上就不能属于一个col了。
	min_x0, max_x1 = virtual_box[X0_IDX], virtual_box[X1_IDX]
	# 然后采用一种比较粗糙的方法，看min_x0，max_x1是否与位于[bound_x0, last_h_sp, bound_x1, bbox[Y0_IDX]]之间的box有相交

	if not any([b[X0_IDX] <= min_x0-1 <= b[X1_IDX] or b[X0_IDX] <= max_x1+1 <= b[X1_IDX] for b in bbox_in_bound_check]):
	# 其上，下都不能被扩展成行，暂时只检查一下上方 TODO
	top_nearest_bbox = find_all_top_bbox_direct(bbox, bboxes)
	bottom_nearest_bbox = find_all_bottom_bbox_direct(bbox, bboxes)
	if not any([
	top_nearest_bbox is not None and (find_all_left_bbox_direct(top_nearest_bbox, bboxes) is None and find_all_right_bbox_direct(top_nearest_bbox, bboxes) is None),
	bottom_nearest_bbox is not None and (find_all_left_bbox_direct(bottom_nearest_bbox, bboxes) is None and find_all_right_bbox_direct(bottom_nearest_bbox, bboxes) is None),
	top_nearest_bbox is None or bottom_nearest_bbox is None
	]):
	is_belong_to_col = True

	# 检查是否能被下方col吸收 TODO

	"""
	这里为什么没有is_cross_boundry_mid_line的条件呢？
	确实有些杂志左右两栏宽度不是对称的。
	"""
	if not is_belong_to_col or is_cross_boundry_mid_line:
	bbox[X0_EXT_IDX] = bound_x0
	bbox[Y0_EXT_IDX] = bbox[Y0_IDX]
	bbox[X1_EXT_IDX] = bound_x1
	bbox[Y1_EXT_IDX] = bbox[Y1_IDX]
	last_h_split_line_y1 = bbox[Y1_IDX] # 更新这条线
	else:
	continue
	"""
	此时独占一行的被成功扩展到指定的边界上，这个时候利用边界条件合并连续的bbox，成为一个group
	然后合并所有连续水平方向的bbox.
	"""
	all_bboxes.sort(key=lambda x: x[Y0_IDX])
	h_bboxes = []
	h_bbox_group = []

	for bbox in all_bboxes:
	if bbox[X0_EXT_IDX] == bound_x0 and bbox[X1_EXT_IDX] == bound_x1:
	h_bbox_group.append(bbox)
	else:
	if len(h_bbox_group)>0:
	h_bboxes.append(h_bbox_group)
	h_bbox_group = []
	# 最后一个group
	if len(h_bbox_group)>0:
	h_bboxes.append(h_bbox_group)

	"""
	现在h_bboxes里面是所有的group了，每个group都是一个list
	对h_bboxes里的每个group进行计算放回到sorted_layouts里
	"""
	h_layouts = []
	for gp in h_bboxes:
	gp.sort(key=lambda x: x[Y0_IDX])
	# 然后计算这个group的layout_bbox，也就是最小的x0,y0, 最大的x1,y1
	x0, y0, x1, y1 = gp[0][X0_EXT_IDX], gp[0][Y0_EXT_IDX], gp[-1][X1_EXT_IDX], gp[-1][Y1_EXT_IDX]
	h_layouts.append([x0, y0, x1, y1, LAYOUT_H]) # 水平的布局

	"""
	接下来利用这些连续的水平bbox的layout_bbox的y0, y1，从水平上切分开其余的为几个部分
	"""
	h_split_lines = [bound_y0]
	for gp in h_bboxes: # gp是一个list[bbox_list]
	y0, y1 = gp[0][1], gp[-1][3]
	h_split_lines.append(y0)
	h_split_lines.append(y1)
	h_split_lines.append(bound_y1)

	unsplited_bboxes = []
	for i in range(0, len(h_split_lines), 2):
	start_y0, start_y1 = h_split_lines[i:i+2]
	# 然后找出[start_y0, start_y1]之间的其他bbox，这些组成一个未分割板块
	bboxes_in_block = [bbox for bbox in all_bboxes if bbox[Y0_IDX]>=start_y0 and bbox[Y1_IDX]<=start_y1]
	unsplited_bboxes.append(bboxes_in_block)
	# 接着把未处理的加入到h_layouts里
	for bboxes_in_block in unsplited_bboxes:
	if len(bboxes_in_block) == 0:
	continue
	x0, y0, x1, y1 = bound_x0, min([bbox[Y0_IDX] for bbox in bboxes_in_block]), bound_x1, max([bbox[Y1_IDX] for bbox in bboxes_in_block])
	h_layouts.append([x0, y0, x1, y1, LAYOUT_UNPROC])

	h_layouts.sort(key=lambda x: x[1]) # 按照y0排序, 也就是从上到下的顺序

	"""
	转换成如下格式返回
	"""
	for layout in h_layouts:
	sorted_layout_blocks.append({
	"layout_bbox": layout[:4],
	"layout_label":layout[4],
	"sub_layout":[],
	})
	return sorted_layout_blocks

	###############################################################################################
	#
	# 垂直方向的处理
	#
	#
	###############################################################################################
	def _vertical_align_split_v1(bboxes:list, boundry:tuple)-> list:
	"""
	计算垂直方向上的对齐，并分割bboxes成layout。负责对一列多行的进行列维度分割。
	如果不能完全分割，剩余部分作为layout_lable为u的layout返回
	-----------------------
	\| \| \|
	\| \| \|
	\| \| \|
	\| \| \|
	-------------------------
	此函数会将：以上布局将会切分出来2列
	"""
	sorted_layout_blocks = [] # 这是要最终返回的值
	new_boundry = [boundry[0], boundry[1], boundry[2], boundry[3]]

	v_blocks = []
	"""
	先从左到右切分
	"""
	while True:
	all_bboxes = get_bbox_in_boundry(bboxes, new_boundry)
	left_edge_bboxes = get_left_edge_bboxes(all_bboxes)
	if len(left_edge_bboxes) == 0:
	break
	right_split_line_x1 = max([bbox[X1_IDX] for bbox in left_edge_bboxes])+1
	# 然后检查这条线能不与其他bbox的左边界相交或者重合
	if any([bbox[X0_IDX] <= right_split_line_x1 <= bbox[X1_IDX] for bbox in all_bboxes]):
	# 垂直切分线与某些box发生相交，说明无法完全垂直方向切分。
	break
	else: # 说明成功分割出一列
	# 找到左侧边界最靠左的bbox作为layout的x0
	layout_x0 = min([bbox[X0_IDX] for bbox in left_edge_bboxes]) # 这里主要是为了画出来有一定间距
	v_blocks.append([layout_x0, new_boundry[1], right_split_line_x1, new_boundry[3], LAYOUT_V])
	new_boundry[0] = right_split_line_x1 # 更新边界

	"""
	再从右到左切，此时如果还是无法完全切分，那么剩余部分作为layout_lable为u的layout返回
	"""
	unsplited_block = []
	while True:
	all_bboxes = get_bbox_in_boundry(bboxes, new_boundry)
	right_edge_bboxes = get_right_edge_bboxes(all_bboxes)
	if len(right_edge_bboxes) == 0:
	break
	left_split_line_x0 = min([bbox[X0_IDX] for bbox in right_edge_bboxes])-1
	# 然后检查这条线能不与其他bbox的左边界相交或者重合
	if any([bbox[X0_IDX] <= left_split_line_x0 <= bbox[X1_IDX] for bbox in all_bboxes]):
	# 这里是余下的
	unsplited_block.append([new_boundry[0], new_boundry[1], new_boundry[2], new_boundry[3], LAYOUT_UNPROC])
	break
	else:
	# 找到右侧边界最靠右的bbox作为layout的x1
	layout_x1 = max([bbox[X1_IDX] for bbox in right_edge_bboxes])
	v_blocks.append([left_split_line_x0, new_boundry[1], layout_x1, new_boundry[3], LAYOUT_V])
	new_boundry[2] = left_split_line_x0 # 更新右边界

	"""
	最后拼装成layout格式返回
	"""
	for block in v_blocks:
	sorted_layout_blocks.append({
	"layout_bbox": block[:4],
	"layout_label":block[4],
	"sub_layout":[],
	})
	for block in unsplited_block:
	sorted_layout_blocks.append({
	"layout_bbox": block[:4],
	"layout_label":block[4],
	"sub_layout":[],
	})

	# 按照x0排序
	sorted_layout_blocks.sort(key=lambda x: x['layout_bbox'][0])
	return sorted_layout_blocks

	def _vertical_align_split_v2(bboxes:list, boundry:tuple)-> list:
	"""
	改进的 _vertical_align_split算法，原算法会因为第二列的box由于左侧没有遮挡被认为是左侧的一部分，导致整个layout多列被识别为一列。
	利用从左上角的box开始向下看的方法，不断扩展w_x0, w_x1，直到不能继续向下扩展，或者到达边界下边界。
	"""
	sorted_layout_blocks = [] # 这是要最终返回的值
	new_boundry = [boundry[0], boundry[1], boundry[2], boundry[3]]
	bad_boxes = [] # 被割中的box
	v_blocks = []
	while True:
	all_bboxes = get_bbox_in_boundry(bboxes, new_boundry)
	if len(all_bboxes) == 0:
	break
	left_top_box = min(all_bboxes, key=lambda x: (x[X0_IDX],x[Y0_IDX]))# 这里应该加强，检查一下必须是在第一列的 TODO
	start_box = [left_top_box[X0_IDX], left_top_box[Y0_IDX], left_top_box[X1_IDX], left_top_box[Y1_IDX]]
	w_x0, w_x1 = left_top_box[X0_IDX], left_top_box[X1_IDX]
	"""
	然后沿着这个box线向下找最近的那个box, 然后扩展w_x0, w_x1
	扩展之后，宽度会增加，随后用x=w_x1来检测在边界内是否有box与相交，如果相交，那么就说明不能再扩展了。
	当不能扩展的时候就要看是否到达下边界：
	1. 达到，那么更新左边界继续分下一个列
	2. 没有达到，那么此时开始从右侧切分进入下面的循环里
	"""
	while left_top_box is not None: # 向下去找
	virtual_box = [w_x0, left_top_box[Y0_IDX], w_x1, left_top_box[Y1_IDX]]
	left_top_box = find_bottom_bbox_direct_from_left_edge(virtual_box, all_bboxes)
	if left_top_box:
	w_x0, w_x1 = min(virtual_box[X0_IDX], left_top_box[X0_IDX]), max([virtual_box[X1_IDX], left_top_box[X1_IDX]])
	# 万一这个初始的box在column中间，那么还要向上看
	start_box = [w_x0, start_box[Y0_IDX], w_x1, start_box[Y1_IDX]] # 扩展一下宽度更鲁棒
	left_top_box = find_top_bbox_direct_from_left_edge(start_box, all_bboxes)
	while left_top_box is not None: # 向上去找
	virtual_box = [w_x0, left_top_box[Y0_IDX], w_x1, left_top_box[Y1_IDX]]
	left_top_box = find_top_bbox_direct_from_left_edge(virtual_box, all_bboxes)
	if left_top_box:
	w_x0, w_x1 = min(virtual_box[X0_IDX], left_top_box[X0_IDX]), max([virtual_box[X1_IDX], left_top_box[X1_IDX]])

	# 检查相交
	if any([bbox[X0_IDX] <= w_x1+1 <= bbox[X1_IDX] for bbox in all_bboxes]):
	for b in all_bboxes:
	if b[X0_IDX] <= w_x1+1 <= b[X1_IDX]:
	bad_boxes.append([b[X0_IDX], b[Y0_IDX], b[X1_IDX], b[Y1_IDX]])
	break
	else: # 说明成功分割出一列
	v_blocks.append([w_x0, new_boundry[1], w_x1, new_boundry[3], LAYOUT_V])
	new_boundry[0] = w_x1 # 更新边界

	"""
	接着开始从右上角的box扫描
	"""
	w_x0 , w_x1 = 0, 0
	unsplited_block = []
	while True:
	all_bboxes = get_bbox_in_boundry(bboxes, new_boundry)
	if len(all_bboxes) == 0:
	break
	# 先找到X1最大的
	bbox_list_sorted = sorted(all_bboxes, key=lambda bbox: bbox[X1_IDX], reverse=True)
	# Then, find the boxes with the smallest Y0 value
	bigest_x1 = bbox_list_sorted[0][X1_IDX]
	boxes_with_bigest_x1 = [bbox for bbox in bbox_list_sorted if bbox[X1_IDX] == bigest_x1] # 也就是最靠右的那些
	right_top_box = min(boxes_with_bigest_x1, key=lambda bbox: bbox[Y0_IDX]) # y0最小的那个
	start_box = [right_top_box[X0_IDX], right_top_box[Y0_IDX], right_top_box[X1_IDX], right_top_box[Y1_IDX]]
	w_x0, w_x1 = right_top_box[X0_IDX], right_top_box[X1_IDX]

	while right_top_box is not None:
	virtual_box = [w_x0, right_top_box[Y0_IDX], w_x1, right_top_box[Y1_IDX]]
	right_top_box = find_bottom_bbox_direct_from_right_edge(virtual_box, all_bboxes)
	if right_top_box:
	w_x0, w_x1 = min([w_x0, right_top_box[X0_IDX]]), max([w_x1, right_top_box[X1_IDX]])
	# 在向上扫描
	start_box = [w_x0, start_box[Y0_IDX], w_x1, start_box[Y1_IDX]] # 扩展一下宽度更鲁棒
	right_top_box = find_top_bbox_direct_from_right_edge(start_box, all_bboxes)
	while right_top_box is not None:
	virtual_box = [w_x0, right_top_box[Y0_IDX], w_x1, right_top_box[Y1_IDX]]
	right_top_box = find_top_bbox_direct_from_right_edge(virtual_box, all_bboxes)
	if right_top_box:
	w_x0, w_x1 = min([w_x0, right_top_box[X0_IDX]]), max([w_x1, right_top_box[X1_IDX]])

	# 检查是否与其他box相交，垂直切分线与某些box发生相交，说明无法完全垂直方向切分。
	if any([bbox[X0_IDX] <= w_x0-1 <= bbox[X1_IDX] for bbox in all_bboxes]):
	unsplited_block.append([new_boundry[0], new_boundry[1], new_boundry[2], new_boundry[3], LAYOUT_UNPROC])
	for b in all_bboxes:
	if b[X0_IDX] <= w_x0-1 <= b[X1_IDX]:
	bad_boxes.append([b[X0_IDX], b[Y0_IDX], b[X1_IDX], b[Y1_IDX]])
	break
	else: # 说明成功分割出一列
	v_blocks.append([w_x0, new_boundry[1], w_x1, new_boundry[3], LAYOUT_V])
	new_boundry[2] = w_x0

	"""转换数据结构"""
	for block in v_blocks:
	sorted_layout_blocks.append({
	"layout_bbox": block[:4],
	"layout_label":block[4],
	"sub_layout":[],
	})

	for block in unsplited_block:
	sorted_layout_blocks.append({
	"layout_bbox": block[:4],
	"layout_label":block[4],
	"sub_layout":[],
	"bad_boxes": bad_boxes # 记录下来，这个box是被割中的
	})


	# 按照x0排序
	sorted_layout_blocks.sort(key=lambda x: x['layout_bbox'][0])
	return sorted_layout_blocks




	def _try_horizontal_mult_column_split(bboxes:list, boundry:tuple)-> list:
	"""
	尝试水平切分，如果切分不动，那就当一个BAD_LAYOUT返回
	------------------
	\| \| \|
	------------------
	\| \| \| \| <- 这里是此函数要切分的场景
	------------------
	\| \| \|
	\| \| \|
	"""
	pass




	def _vertical_split(bboxes:list, boundry:tuple)-> list:
	"""
	从垂直方向进行切割，分block
	这个版本里，如果垂直切分不动，那就当一个BAD_LAYOUT返回

	--------------------------
	\| \| \|
	\| \| \|
	\| \|
	这种列是此函数要切分的 -> \| \|
	\| \|
	\| \| \|
	\| \| \|
	-------------------------
	"""
	sorted_layout_blocks = [] # 这是要最终返回的值

	bound_x0, bound_y0, bound_x1, bound_y1 = boundry
	all_bboxes = get_bbox_in_boundry(bboxes, boundry)
	"""
	all_bboxes = fix_vertical_bbox_pos(all_bboxes) # 垂直方向解覆盖
	all_bboxes = fix_hor_bbox_pos(all_bboxes) # 水平解覆盖

	这两行代码目前先不执行，因为公式检测，表格检测还不是很成熟，导致非常多的textblock参与了运算，时间消耗太大。
	这两行代码的作用是：
	如果遇到互相重叠的bbox, 那么会把面积较小的box进行压缩，从而避免重叠。对布局切分来说带来正反馈。
	"""

	#all_bboxes = paper_bbox_sort(all_bboxes, abs(bound_x1-bound_x0), abs(bound_y1-bound_x0)) # 大致拍下序, 这个是基于直接遮挡的。
	"""
	首先在垂直方向上扩展独占一行的bbox

	"""
	for bbox in all_bboxes:
	top_nearest_bbox = find_all_top_bbox_direct(bbox, all_bboxes) # 非扩展线
	bottom_nearest_bbox = find_all_bottom_bbox_direct(bbox, all_bboxes)
	if top_nearest_bbox is None and bottom_nearest_bbox is None and not any([b[X0_IDX]<bbox[X1_IDX]<b[X1_IDX] or b[X0_IDX]<bbox[X0_IDX]<b[X1_IDX] for b in all_bboxes]): # 独占一列, 且不和其他重叠
	bbox[X0_EXT_IDX] = bbox[X0_IDX]
	bbox[Y0_EXT_IDX] = bound_y0
	bbox[X1_EXT_IDX] = bbox[X1_IDX]
	bbox[Y1_EXT_IDX] = bound_y1

	"""
	此时独占一列的被成功扩展到指定的边界上，这个时候利用边界条件合并连续的bbox，成为一个group
	然后合并所有连续垂直方向的bbox.
	"""
	all_bboxes.sort(key=lambda x: x[X0_IDX])
	# fix: 这里水平方向的列不要合并成一个行，因为需要保证返回给下游的最小block，总是可以无脑从上到下阅读文字。
	v_bboxes = []
	for box in all_bboxes:
	if box[Y0_EXT_IDX] == bound_y0 and box[Y1_EXT_IDX] == bound_y1:
	v_bboxes.append(box)

	"""
	现在v_bboxes里面是所有的group了，每个group都是一个list
	对v_bboxes里的每个group进行计算放回到sorted_layouts里
	"""
	v_layouts = []
	for vbox in v_bboxes:
	#gp.sort(key=lambda x: x[X0_IDX])
	# 然后计算这个group的layout_bbox，也就是最小的x0,y0, 最大的x1,y1
	x0, y0, x1, y1 = vbox[X0_EXT_IDX], vbox[Y0_EXT_IDX], vbox[X1_EXT_IDX], vbox[Y1_EXT_IDX]
	v_layouts.append([x0, y0, x1, y1, LAYOUT_V]) # 垂直的布局

	"""
	接下来利用这些连续的垂直bbox的layout_bbox的x0, x1，从垂直上切分开其余的为几个部分
	"""
	v_split_lines = [bound_x0]
	for gp in v_bboxes:
	x0, x1 = gp[X0_IDX], gp[X1_IDX]
	v_split_lines.append(x0)
	v_split_lines.append(x1)
	v_split_lines.append(bound_x1)

	unsplited_bboxes = []
	for i in range(0, len(v_split_lines), 2):
	start_x0, start_x1 = v_split_lines[i:i+2]
	# 然后找出[start_x0, start_x1]之间的其他bbox，这些组成一个未分割板块
	bboxes_in_block = [bbox for bbox in all_bboxes if bbox[X0_IDX]>=start_x0 and bbox[X1_IDX]<=start_x1]
	unsplited_bboxes.append(bboxes_in_block)
	# 接着把未处理的加入到v_layouts里
	for bboxes_in_block in unsplited_bboxes:
	if len(bboxes_in_block) == 0:
	continue
	x0, y0, x1, y1 = min([bbox[X0_IDX] for bbox in bboxes_in_block]), bound_y0, max([bbox[X1_IDX] for bbox in bboxes_in_block]), bound_y1
	v_layouts.append([x0, y0, x1, y1, LAYOUT_UNPROC]) # 说明这篇区域未能够分析出可靠的版面

	v_layouts.sort(key=lambda x: x[0]) # 按照x0排序, 也就是从左到右的顺序

	for layout in v_layouts:
	sorted_layout_blocks.append({
	"layout_bbox": layout[:4],
	"layout_label":layout[4],
	"sub_layout":[],
	})

	"""
	至此，垂直方向切成了2种类型，其一是独占一列的，其二是未处理的。
	下面对这些未处理的进行垂直方向切分，这个切分要切出来类似“吕”这种类型的垂直方向的布局
	"""
	for i, layout in enumerate(sorted_layout_blocks):
	if layout['layout_label'] == LAYOUT_UNPROC:
	x0, y0, x1, y1 = layout['layout_bbox']
	v_split_layouts = _vertical_align_split_v2(bboxes, [x0, y0, x1, y1])
	sorted_layout_blocks[i] = {
	"layout_bbox": [x0, y0, x1, y1],
	"layout_label": LAYOUT_H,
	"sub_layout": v_split_layouts
	}
	layout['layout_label'] = LAYOUT_H # 被垂线切分成了水平布局

	return sorted_layout_blocks


	def split_layout(bboxes:list, boundry:tuple, page_num:int)-> list:
	"""
	把bboxes切割成layout
	return:
	[
	{
	"layout_bbox": [x0, y0, x1, y1],
	"layout_label":"u\|v\|h\|b", 未处理\|垂直\|水平\|BAD_LAYOUT
	"sub_layout": [] #每个元素都是[x0, y0, x1, y1, block_content, idx_x, idx_y, content_type, ext_x0, ext_y0, ext_x1, ext_y1], 并且顺序就是阅读顺序
	}
	]
	example:
	[
	{
	"layout_bbox": [0, 0, 100, 100],
	"layout_label":"u\|v\|h\|b",
	"sub_layout":[

	]
	},
	{
	"layout_bbox": [0, 0, 100, 100],
	"layout_label":"u\|v\|h\|b",
	"sub_layout":[
	{
	"layout_bbox": [0, 0, 100, 100],
	"layout_label":"u\|v\|h\|b",
	"content_bboxes":[
	[],
	[],
	[]
	]
	},
	{
	"layout_bbox": [0, 0, 100, 100],
	"layout_label":"u\|v\|h\|b",
	"sub_layout":[

	]
	}
	}
	]
	"""
	sorted_layouts = [] # 最终返回的结果

	boundry_x0, boundry_y0, boundry_x1, boundry_y1 = boundry
	if len(bboxes) <=1:
	return [
	{
	"layout_bbox": [boundry_x0, boundry_y0, boundry_x1, boundry_y1],
	"layout_label": LAYOUT_V,
	"sub_layout":[]
	}
	]

	"""
	接下来按照先水平后垂直的顺序进行切分
	"""
	bboxes = paper_bbox_sort(bboxes, boundry_x1-boundry_x0, boundry_y1-boundry_y0)
	sorted_layouts = _horizontal_split(bboxes, boundry) # 通过水平分割出来的layout
	for i, layout in enumerate(sorted_layouts):
	x0, y0, x1, y1 = layout['layout_bbox']
	layout_type = layout['layout_label']
	if layout_type == LAYOUT_UNPROC: # 说明是非独占单行的，这些需要垂直切分
	v_split_layouts = _vertical_split(bboxes, [x0, y0, x1, y1])

	"""
	最后这里有个逻辑问题：如果这个函数只分离出来了一个column layout，那么这个layout分割肯定超出了算法能力范围。因为我们假定的是传进来的
	box已经把行全部剥离了，所以这里必须十多个列才可以。如果只剥离出来一个layout，并且是多个box，那么就说明这个layout是无法分割的，标记为LAYOUT_UNPROC
	"""
	layout_label = LAYOUT_V
	if len(v_split_layouts) == 1:
	if len(v_split_layouts[0]['sub_layout']) == 0:
	layout_label = LAYOUT_UNPROC
	#logger.warning(f"WARNING: pageno={page_num}, 无法分割的layout: ", v_split_layouts)

	"""
	组合起来最终的layout
	"""
	sorted_layouts[i] = {
	"layout_bbox": [x0, y0, x1, y1],
	"layout_label": layout_label,
	"sub_layout": v_split_layouts
	}
	layout['layout_label'] = LAYOUT_H

	"""
	水平和垂直方向都切分完毕了。此时还有一些未处理的，这些未处理的可能是因为水平和垂直方向都无法切分。
	这些最后调用_try_horizontal_mult_block_split做一次水平多个block的联合切分，如果也不能切分最终就当做BAD_LAYOUT返回
	"""
	# TODO

	return sorted_layouts


	def get_bboxes_layout(all_boxes:list, boundry:tuple, page_id:int):
	"""
	对利用layout排序之后的box，进行排序
	return:
	[
	{
	"layout_bbox": [x0, y0, x1, y1],
	"layout_label":"u\|v\|h\|b", 未处理\|垂直\|水平\|BAD_LAYOUT
	}，
	]
	"""
	def _preorder_traversal(layout):
	"""
	对sorted_layouts的叶子节点，也就是len(sub_layout)==0的节点进行排序。排序按照前序遍历的顺序，也就是从上到下，从左到右的顺序
	"""
	sorted_layout_blocks = []
	for layout in layout:
	sub_layout = layout['sub_layout']
	if len(sub_layout) == 0:
	sorted_layout_blocks.append(layout)
	else:
	s = _preorder_traversal(sub_layout)
	sorted_layout_blocks.extend(s)
	return sorted_layout_blocks
	# -------------------------------------------------------------------------------------------------------------------------
	sorted_layouts = split_layout(all_boxes, boundry, page_id)# 先切分成layout，得到一个Tree
	total_sorted_layout_blocks = _preorder_traversal(sorted_layouts)
	return total_sorted_layout_blocks, sorted_layouts


	def get_columns_cnt_of_layout(layout_tree):
	"""
	获取一个layout的宽度
	"""
	max_width_list = [0] # 初始化一个元素，防止max,min函数报错

	for items in layout_tree: # 针对每一层（横切）计算列数，横着的算一列
	layout_type = items['layout_label']
	sub_layouts = items['sub_layout']
	if len(sub_layouts)==0:
	max_width_list.append(1)
	else:
	if layout_type == LAYOUT_H:
	max_width_list.append(1)
	else:
	width = 0
	for l in sub_layouts:
	if len(l['sub_layout']) == 0:
	width += 1
	else:
	for lay in l['sub_layout']:
	width += get_columns_cnt_of_layout([lay])
	max_width_list.append(width)

	return max(max_width_list)



	def sort_with_layout(bboxes:list, page_width, page_height) -> (list,list):
	"""
	输入是一个bbox的list.
	获取到输入之后，先进行layout切分，然后对这些bbox进行排序。返回排序后的bboxes
	"""

	new_bboxes = []
	for box in bboxes:
	# new_bboxes.append([box[0], box[1], box[2], box[3], None, None, None, 'text', None, None, None, None])
	new_bboxes.append([box[0], box[1], box[2], box[3], None, None, None, 'text', None, None, None, None, box[4]])

	layout_bboxes, _ = get_bboxes_layout(new_bboxes, [0, 0, page_width, page_height], 0)
	if any([lay['layout_label']==LAYOUT_UNPROC for lay in layout_bboxes]):
	logger.warning(f"drop this pdf, reason: 复杂版面")
	return None,None

	sorted_bboxes = []
	# 利用layout bbox每次框定一些box，然后排序
	for layout in layout_bboxes:
	lbox = layout['layout_bbox']
	bbox_in_layout = get_bbox_in_boundry(new_bboxes, lbox)
	sorted_bbox = paper_bbox_sort(bbox_in_layout, lbox[2]-lbox[0], lbox[3]-lbox[1])
	sorted_bboxes.extend(sorted_bbox)

	return sorted_bboxes, layout_bboxes


	def sort_text_block(text_block, layout_bboxes):
	"""
	对一页的text_block进行排序
	"""
	sorted_text_bbox = []
	all_text_bbox = []
	# 做一个box=>text的映射
	box_to_text = {}
	for blk in text_block:
	box = blk['bbox']
	box_to_text[(box[0], box[1], box[2], box[3])] = blk
	all_text_bbox.append(box)

	# text_blocks_to_sort = []
	# for box in box_to_text.keys():
	# text_blocks_to_sort.append([box[0], box[1], box[2], box[3], None, None, None, 'text', None, None, None, None])

	# 按照layout_bboxes的顺序，对text_block进行排序
	for layout in layout_bboxes:
	layout_box = layout['layout_bbox']
	text_bbox_in_layout = get_bbox_in_boundry(all_text_bbox, [layout_box[0]-1, layout_box[1]-1, layout_box[2]+1, layout_box[3]+1])
	#sorted_bbox = paper_bbox_sort(text_bbox_in_layout, layout_box[2]-layout_box[0], layout_box[3]-layout_box[1])
	text_bbox_in_layout.sort(key = lambda x: x[1]) # 一个layout内部的box，按照y0自上而下排序
	#sorted_bbox = [[b] for b in text_blocks_to_sort]
	for sb in text_bbox_in_layout:
	sorted_text_bbox.append(box_to_text[(sb[0], sb[1], sb[2], sb[3])])

	return sorted_text_bbox