Blame - src/kernel/linux/v4.14/fs/btrfs/file.c - T103

blob: 725544ec9c842c4bfa598cea06cf05d25026b556 [file] [log] [blame]

rjw	1f88458	2022-01-06 17:20:42 +0800	[diff] [blame^]	1	/*
				2	* Copyright (C) 2007 Oracle. All rights reserved.
				3	*
				4	* This program is free software; you can redistribute it and/or
				5	* modify it under the terms of the GNU General Public
				6	* License v2 as published by the Free Software Foundation.
				7	*
				8	* This program is distributed in the hope that it will be useful,
				9	* but WITHOUT ANY WARRANTY; without even the implied warranty of
				10	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
				11	* General Public License for more details.
				12	*
				13	* You should have received a copy of the GNU General Public
				14	* License along with this program; if not, write to the
				15	* Free Software Foundation, Inc., 59 Temple Place - Suite 330,
				16	* Boston, MA 021110-1307, USA.
				17	*/
				18
				19	#include <linux/fs.h>
				20	#include <linux/pagemap.h>
				21	#include <linux/highmem.h>
				22	#include <linux/time.h>
				23	#include <linux/init.h>
				24	#include <linux/string.h>
				25	#include <linux/backing-dev.h>
				26	#include <linux/mpage.h>
				27	#include <linux/falloc.h>
				28	#include <linux/swap.h>
				29	#include <linux/writeback.h>
				30	#include <linux/compat.h>
				31	#include <linux/slab.h>
				32	#include <linux/btrfs.h>
				33	#include <linux/uio.h>
				34	#include "ctree.h"
				35	#include "disk-io.h"
				36	#include "transaction.h"
				37	#include "btrfs_inode.h"
				38	#include "print-tree.h"
				39	#include "tree-log.h"
				40	#include "locking.h"
				41	#include "volumes.h"
				42	#include "qgroup.h"
				43	#include "compression.h"
				44
				45	static struct kmem_cache *btrfs_inode_defrag_cachep;
				46	/*
				47	* when auto defrag is enabled we
				48	* queue up these defrag structs to remember which
				49	* inodes need defragging passes
				50	*/
				51	struct inode_defrag {
				52	struct rb_node rb_node;
				53	/* objectid */
				54	u64 ino;
				55	/*
				56	* transid where the defrag was added, we search for
				57	* extents newer than this
				58	*/
				59	u64 transid;
				60
				61	/* root objectid */
				62	u64 root;
				63
				64	/* last offset we were able to defrag */
				65	u64 last_offset;
				66
				67	/* if we've wrapped around back to zero once already */
				68	int cycled;
				69	};
				70
				71	static int __compare_inode_defrag(struct inode_defrag *defrag1,
				72	struct inode_defrag *defrag2)
				73	{
				74	if (defrag1->root > defrag2->root)
				75	return 1;
				76	else if (defrag1->root < defrag2->root)
				77	return -1;
				78	else if (defrag1->ino > defrag2->ino)
				79	return 1;
				80	else if (defrag1->ino < defrag2->ino)
				81	return -1;
				82	else
				83	return 0;
				84	}
				85
				86	/* pop a record for an inode into the defrag tree. The lock
				87	* must be held already
				88	*
				89	* If you're inserting a record for an older transid than an
				90	* existing record, the transid already in the tree is lowered
				91	*
				92	* If an existing record is found the defrag item you
				93	* pass in is freed
				94	*/
				95	static int __btrfs_add_inode_defrag(struct btrfs_inode *inode,
				96	struct inode_defrag *defrag)
				97	{
				98	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				99	struct inode_defrag *entry;
				100	struct rb_node **p;
				101	struct rb_node *parent = NULL;
				102	int ret;
				103
				104	p = &fs_info->defrag_inodes.rb_node;
				105	while (*p) {
				106	parent = *p;
				107	entry = rb_entry(parent, struct inode_defrag, rb_node);
				108
				109	ret = __compare_inode_defrag(defrag, entry);
				110	if (ret < 0)
				111	p = &parent->rb_left;
				112	else if (ret > 0)
				113	p = &parent->rb_right;
				114	else {
				115	/* if we're reinserting an entry for
				116	* an old defrag run, make sure to
				117	* lower the transid of our existing record
				118	*/
				119	if (defrag->transid < entry->transid)
				120	entry->transid = defrag->transid;
				121	if (defrag->last_offset > entry->last_offset)
				122	entry->last_offset = defrag->last_offset;
				123	return -EEXIST;
				124	}
				125	}
				126	set_bit(BTRFS_INODE_IN_DEFRAG, &inode->runtime_flags);
				127	rb_link_node(&defrag->rb_node, parent, p);
				128	rb_insert_color(&defrag->rb_node, &fs_info->defrag_inodes);
				129	return 0;
				130	}
				131
				132	static inline int __need_auto_defrag(struct btrfs_fs_info *fs_info)
				133	{
				134	if (!btrfs_test_opt(fs_info, AUTO_DEFRAG))
				135	return 0;
				136
				137	if (btrfs_fs_closing(fs_info))
				138	return 0;
				139
				140	return 1;
				141	}
				142
				143	/*
				144	* insert a defrag record for this inode if auto defrag is
				145	* enabled
				146	*/
				147	int btrfs_add_inode_defrag(struct btrfs_trans_handle *trans,
				148	struct btrfs_inode *inode)
				149	{
				150	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				151	struct btrfs_root *root = inode->root;
				152	struct inode_defrag *defrag;
				153	u64 transid;
				154	int ret;
				155
				156	if (!__need_auto_defrag(fs_info))
				157	return 0;
				158
				159	if (test_bit(BTRFS_INODE_IN_DEFRAG, &inode->runtime_flags))
				160	return 0;
				161
				162	if (trans)
				163	transid = trans->transid;
				164	else
				165	transid = inode->root->last_trans;
				166
				167	defrag = kmem_cache_zalloc(btrfs_inode_defrag_cachep, GFP_NOFS);
				168	if (!defrag)
				169	return -ENOMEM;
				170
				171	defrag->ino = btrfs_ino(inode);
				172	defrag->transid = transid;
				173	defrag->root = root->root_key.objectid;
				174
				175	spin_lock(&fs_info->defrag_inodes_lock);
				176	if (!test_bit(BTRFS_INODE_IN_DEFRAG, &inode->runtime_flags)) {
				177	/*
				178	* If we set IN_DEFRAG flag and evict the inode from memory,
				179	* and then re-read this inode, this new inode doesn't have
				180	* IN_DEFRAG flag. At the case, we may find the existed defrag.
				181	*/
				182	ret = __btrfs_add_inode_defrag(inode, defrag);
				183	if (ret)
				184	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				185	} else {
				186	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				187	}
				188	spin_unlock(&fs_info->defrag_inodes_lock);
				189	return 0;
				190	}
				191
				192	/*
				193	* Requeue the defrag object. If there is a defrag object that points to
				194	* the same inode in the tree, we will merge them together (by
				195	* __btrfs_add_inode_defrag()) and free the one that we want to requeue.
				196	*/
				197	static void btrfs_requeue_inode_defrag(struct btrfs_inode *inode,
				198	struct inode_defrag *defrag)
				199	{
				200	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				201	int ret;
				202
				203	if (!__need_auto_defrag(fs_info))
				204	goto out;
				205
				206	/*
				207	* Here we don't check the IN_DEFRAG flag, because we need merge
				208	* them together.
				209	*/
				210	spin_lock(&fs_info->defrag_inodes_lock);
				211	ret = __btrfs_add_inode_defrag(inode, defrag);
				212	spin_unlock(&fs_info->defrag_inodes_lock);
				213	if (ret)
				214	goto out;
				215	return;
				216	out:
				217	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				218	}
				219
				220	/*
				221	* pick the defragable inode that we want, if it doesn't exist, we will get
				222	* the next one.
				223	*/
				224	static struct inode_defrag *
				225	btrfs_pick_defrag_inode(struct btrfs_fs_info *fs_info, u64 root, u64 ino)
				226	{
				227	struct inode_defrag *entry = NULL;
				228	struct inode_defrag tmp;
				229	struct rb_node *p;
				230	struct rb_node *parent = NULL;
				231	int ret;
				232
				233	tmp.ino = ino;
				234	tmp.root = root;
				235
				236	spin_lock(&fs_info->defrag_inodes_lock);
				237	p = fs_info->defrag_inodes.rb_node;
				238	while (p) {
				239	parent = p;
				240	entry = rb_entry(parent, struct inode_defrag, rb_node);
				241
				242	ret = __compare_inode_defrag(&tmp, entry);
				243	if (ret < 0)
				244	p = parent->rb_left;
				245	else if (ret > 0)
				246	p = parent->rb_right;
				247	else
				248	goto out;
				249	}
				250
				251	if (parent && __compare_inode_defrag(&tmp, entry) > 0) {
				252	parent = rb_next(parent);
				253	if (parent)
				254	entry = rb_entry(parent, struct inode_defrag, rb_node);
				255	else
				256	entry = NULL;
				257	}
				258	out:
				259	if (entry)
				260	rb_erase(parent, &fs_info->defrag_inodes);
				261	spin_unlock(&fs_info->defrag_inodes_lock);
				262	return entry;
				263	}
				264
				265	void btrfs_cleanup_defrag_inodes(struct btrfs_fs_info *fs_info)
				266	{
				267	struct inode_defrag *defrag;
				268	struct rb_node *node;
				269
				270	spin_lock(&fs_info->defrag_inodes_lock);
				271	node = rb_first(&fs_info->defrag_inodes);
				272	while (node) {
				273	rb_erase(node, &fs_info->defrag_inodes);
				274	defrag = rb_entry(node, struct inode_defrag, rb_node);
				275	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				276
				277	cond_resched_lock(&fs_info->defrag_inodes_lock);
				278
				279	node = rb_first(&fs_info->defrag_inodes);
				280	}
				281	spin_unlock(&fs_info->defrag_inodes_lock);
				282	}
				283
				284	#define BTRFS_DEFRAG_BATCH 1024
				285
				286	static int __btrfs_run_defrag_inode(struct btrfs_fs_info *fs_info,
				287	struct inode_defrag *defrag)
				288	{
				289	struct btrfs_root *inode_root;
				290	struct inode *inode;
				291	struct btrfs_key key;
				292	struct btrfs_ioctl_defrag_range_args range;
				293	int num_defrag;
				294	int index;
				295	int ret;
				296
				297	/* get the inode */
				298	key.objectid = defrag->root;
				299	key.type = BTRFS_ROOT_ITEM_KEY;
				300	key.offset = (u64)-1;
				301
				302	index = srcu_read_lock(&fs_info->subvol_srcu);
				303
				304	inode_root = btrfs_read_fs_root_no_name(fs_info, &key);
				305	if (IS_ERR(inode_root)) {
				306	ret = PTR_ERR(inode_root);
				307	goto cleanup;
				308	}
				309
				310	key.objectid = defrag->ino;
				311	key.type = BTRFS_INODE_ITEM_KEY;
				312	key.offset = 0;
				313	inode = btrfs_iget(fs_info->sb, &key, inode_root, NULL);
				314	if (IS_ERR(inode)) {
				315	ret = PTR_ERR(inode);
				316	goto cleanup;
				317	}
				318	srcu_read_unlock(&fs_info->subvol_srcu, index);
				319
				320	/* do a chunk of defrag */
				321	clear_bit(BTRFS_INODE_IN_DEFRAG, &BTRFS_I(inode)->runtime_flags);
				322	memset(&range, 0, sizeof(range));
				323	range.len = (u64)-1;
				324	range.start = defrag->last_offset;
				325
				326	sb_start_write(fs_info->sb);
				327	num_defrag = btrfs_defrag_file(inode, NULL, &range, defrag->transid,
				328	BTRFS_DEFRAG_BATCH);
				329	sb_end_write(fs_info->sb);
				330	/*
				331	* if we filled the whole defrag batch, there
				332	* must be more work to do. Queue this defrag
				333	* again
				334	*/
				335	if (num_defrag == BTRFS_DEFRAG_BATCH) {
				336	defrag->last_offset = range.start;
				337	btrfs_requeue_inode_defrag(BTRFS_I(inode), defrag);
				338	} else if (defrag->last_offset && !defrag->cycled) {
				339	/*
				340	* we didn't fill our defrag batch, but
				341	* we didn't start at zero. Make sure we loop
				342	* around to the start of the file.
				343	*/
				344	defrag->last_offset = 0;
				345	defrag->cycled = 1;
				346	btrfs_requeue_inode_defrag(BTRFS_I(inode), defrag);
				347	} else {
				348	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				349	}
				350
				351	iput(inode);
				352	return 0;
				353	cleanup:
				354	srcu_read_unlock(&fs_info->subvol_srcu, index);
				355	kmem_cache_free(btrfs_inode_defrag_cachep, defrag);
				356	return ret;
				357	}
				358
				359	/*
				360	* run through the list of inodes in the FS that need
				361	* defragging
				362	*/
				363	int btrfs_run_defrag_inodes(struct btrfs_fs_info *fs_info)
				364	{
				365	struct inode_defrag *defrag;
				366	u64 first_ino = 0;
				367	u64 root_objectid = 0;
				368
				369	atomic_inc(&fs_info->defrag_running);
				370	while (1) {
				371	/* Pause the auto defragger. */
				372	if (test_bit(BTRFS_FS_STATE_REMOUNTING,
				373	&fs_info->fs_state))
				374	break;
				375
				376	if (!__need_auto_defrag(fs_info))
				377	break;
				378
				379	/* find an inode to defrag */
				380	defrag = btrfs_pick_defrag_inode(fs_info, root_objectid,
				381	first_ino);
				382	if (!defrag) {
				383	if (root_objectid \|\| first_ino) {
				384	root_objectid = 0;
				385	first_ino = 0;
				386	continue;
				387	} else {
				388	break;
				389	}
				390	}
				391
				392	first_ino = defrag->ino + 1;
				393	root_objectid = defrag->root;
				394
				395	__btrfs_run_defrag_inode(fs_info, defrag);
				396	}
				397	atomic_dec(&fs_info->defrag_running);
				398
				399	/*
				400	* during unmount, we use the transaction_wait queue to
				401	* wait for the defragger to stop
				402	*/
				403	wake_up(&fs_info->transaction_wait);
				404	return 0;
				405	}
				406
				407	/* simple helper to fault in pages and copy. This should go away
				408	* and be replaced with calls into generic code.
				409	*/
				410	static noinline int btrfs_copy_from_user(loff_t pos, size_t write_bytes,
				411	struct page **prepared_pages,
				412	struct iov_iter *i)
				413	{
				414	size_t copied = 0;
				415	size_t total_copied = 0;
				416	int pg = 0;
				417	int offset = pos & (PAGE_SIZE - 1);
				418
				419	while (write_bytes > 0) {
				420	size_t count = min_t(size_t,
				421	PAGE_SIZE - offset, write_bytes);
				422	struct page *page = prepared_pages[pg];
				423	/*
				424	* Copy data from userspace to the current page
				425	*/
				426	copied = iov_iter_copy_from_user_atomic(page, i, offset, count);
				427
				428	/* Flush processor's dcache for this page */
				429	flush_dcache_page(page);
				430
				431	/*
				432	* if we get a partial write, we can end up with
				433	* partially up to date pages. These add
				434	* a lot of complexity, so make sure they don't
				435	* happen by forcing this copy to be retried.
				436	*
				437	* The rest of the btrfs_file_write code will fall
				438	* back to page at a time copies after we return 0.
				439	*/
				440	if (!PageUptodate(page) && copied < count)
				441	copied = 0;
				442
				443	iov_iter_advance(i, copied);
				444	write_bytes -= copied;
				445	total_copied += copied;
				446
				447	/* Return to btrfs_file_write_iter to fault page */
				448	if (unlikely(copied == 0))
				449	break;
				450
				451	if (copied < PAGE_SIZE - offset) {
				452	offset += copied;
				453	} else {
				454	pg++;
				455	offset = 0;
				456	}
				457	}
				458	return total_copied;
				459	}
				460
				461	/*
				462	* unlocks pages after btrfs_file_write is done with them
				463	*/
				464	static void btrfs_drop_pages(struct page **pages, size_t num_pages)
				465	{
				466	size_t i;
				467	for (i = 0; i < num_pages; i++) {
				468	/* page checked is some magic around finding pages that
				469	* have been modified without going through btrfs_set_page_dirty
				470	* clear it here. There should be no need to mark the pages
				471	* accessed as prepare_pages should have marked them accessed
				472	* in prepare_pages via find_or_create_page()
				473	*/
				474	ClearPageChecked(pages[i]);
				475	unlock_page(pages[i]);
				476	put_page(pages[i]);
				477	}
				478	}
				479
				480	/*
				481	* after copy_from_user, pages need to be dirtied and we need to make
				482	* sure holes are created between the current EOF and the start of
				483	* any next extents (if required).
				484	*
				485	* this also makes the decision about creating an inline extent vs
				486	* doing real data extents, marking pages dirty and delalloc as required.
				487	*/
				488	int btrfs_dirty_pages(struct inode inode, struct page *pages,
				489	size_t num_pages, loff_t pos, size_t write_bytes,
				490	struct extent_state **cached)
				491	{
				492	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				493	int err = 0;
				494	int i;
				495	u64 num_bytes;
				496	u64 start_pos;
				497	u64 end_of_last_block;
				498	u64 end_pos = pos + write_bytes;
				499	loff_t isize = i_size_read(inode);
				500
				501	start_pos = pos & ~((u64) fs_info->sectorsize - 1);
				502	num_bytes = round_up(write_bytes + pos - start_pos,
				503	fs_info->sectorsize);
				504
				505	end_of_last_block = start_pos + num_bytes - 1;
				506	err = btrfs_set_extent_delalloc(inode, start_pos, end_of_last_block,
				507	cached, 0);
				508	if (err)
				509	return err;
				510
				511	for (i = 0; i < num_pages; i++) {
				512	struct page *p = pages[i];
				513	SetPageUptodate(p);
				514	ClearPageChecked(p);
				515	set_page_dirty(p);
				516	}
				517
				518	/*
				519	* we've only changed i_size in ram, and we haven't updated
				520	* the disk i_size. There is no need to log the inode
				521	* at this time.
				522	*/
				523	if (end_pos > isize)
				524	i_size_write(inode, end_pos);
				525	return 0;
				526	}
				527
				528	/*
				529	* this drops all the extents in the cache that intersect the range
				530	* [start, end]. Existing extents are split as required.
				531	*/
				532	void btrfs_drop_extent_cache(struct btrfs_inode *inode, u64 start, u64 end,
				533	int skip_pinned)
				534	{
				535	struct extent_map *em;
				536	struct extent_map *split = NULL;
				537	struct extent_map *split2 = NULL;
				538	struct extent_map_tree *em_tree = &inode->extent_tree;
				539	u64 len = end - start + 1;
				540	u64 gen;
				541	int ret;
				542	int testend = 1;
				543	unsigned long flags;
				544	int compressed = 0;
				545	bool modified;
				546
				547	WARN_ON(end < start);
				548	if (end == (u64)-1) {
				549	len = (u64)-1;
				550	testend = 0;
				551	}
				552	while (1) {
				553	int no_splits = 0;
				554
				555	modified = false;
				556	if (!split)
				557	split = alloc_extent_map();
				558	if (!split2)
				559	split2 = alloc_extent_map();
				560	if (!split \|\| !split2)
				561	no_splits = 1;
				562
				563	write_lock(&em_tree->lock);
				564	em = lookup_extent_mapping(em_tree, start, len);
				565	if (!em) {
				566	write_unlock(&em_tree->lock);
				567	break;
				568	}
				569	flags = em->flags;
				570	gen = em->generation;
				571	if (skip_pinned && test_bit(EXTENT_FLAG_PINNED, &em->flags)) {
				572	if (testend && em->start + em->len >= start + len) {
				573	free_extent_map(em);
				574	write_unlock(&em_tree->lock);
				575	break;
				576	}
				577	start = em->start + em->len;
				578	if (testend)
				579	len = start + len - (em->start + em->len);
				580	free_extent_map(em);
				581	write_unlock(&em_tree->lock);
				582	continue;
				583	}
				584	compressed = test_bit(EXTENT_FLAG_COMPRESSED, &em->flags);
				585	clear_bit(EXTENT_FLAG_PINNED, &em->flags);
				586	clear_bit(EXTENT_FLAG_LOGGING, &flags);
				587	modified = !list_empty(&em->list);
				588	if (no_splits)
				589	goto next;
				590
				591	if (em->start < start) {
				592	split->start = em->start;
				593	split->len = start - em->start;
				594
				595	if (em->block_start < EXTENT_MAP_LAST_BYTE) {
				596	split->orig_start = em->orig_start;
				597	split->block_start = em->block_start;
				598
				599	if (compressed)
				600	split->block_len = em->block_len;
				601	else
				602	split->block_len = split->len;
				603	split->orig_block_len = max(split->block_len,
				604	em->orig_block_len);
				605	split->ram_bytes = em->ram_bytes;
				606	} else {
				607	split->orig_start = split->start;
				608	split->block_len = 0;
				609	split->block_start = em->block_start;
				610	split->orig_block_len = 0;
				611	split->ram_bytes = split->len;
				612	}
				613
				614	split->generation = gen;
				615	split->bdev = em->bdev;
				616	split->flags = flags;
				617	split->compress_type = em->compress_type;
				618	replace_extent_mapping(em_tree, em, split, modified);
				619	free_extent_map(split);
				620	split = split2;
				621	split2 = NULL;
				622	}
				623	if (testend && em->start + em->len > start + len) {
				624	u64 diff = start + len - em->start;
				625
				626	split->start = start + len;
				627	split->len = em->start + em->len - (start + len);
				628	split->bdev = em->bdev;
				629	split->flags = flags;
				630	split->compress_type = em->compress_type;
				631	split->generation = gen;
				632
				633	if (em->block_start < EXTENT_MAP_LAST_BYTE) {
				634	split->orig_block_len = max(em->block_len,
				635	em->orig_block_len);
				636
				637	split->ram_bytes = em->ram_bytes;
				638	if (compressed) {
				639	split->block_len = em->block_len;
				640	split->block_start = em->block_start;
				641	split->orig_start = em->orig_start;
				642	} else {
				643	split->block_len = split->len;
				644	split->block_start = em->block_start
				645	+ diff;
				646	split->orig_start = em->orig_start;
				647	}
				648	} else {
				649	split->ram_bytes = split->len;
				650	split->orig_start = split->start;
				651	split->block_len = 0;
				652	split->block_start = em->block_start;
				653	split->orig_block_len = 0;
				654	}
				655
				656	if (extent_map_in_tree(em)) {
				657	replace_extent_mapping(em_tree, em, split,
				658	modified);
				659	} else {
				660	ret = add_extent_mapping(em_tree, split,
				661	modified);
				662	ASSERT(ret == 0); /* Logic error */
				663	}
				664	free_extent_map(split);
				665	split = NULL;
				666	}
				667	next:
				668	if (extent_map_in_tree(em))
				669	remove_extent_mapping(em_tree, em);
				670	write_unlock(&em_tree->lock);
				671
				672	/* once for us */
				673	free_extent_map(em);
				674	/* once for the tree*/
				675	free_extent_map(em);
				676	}
				677	if (split)
				678	free_extent_map(split);
				679	if (split2)
				680	free_extent_map(split2);
				681	}
				682
				683	/*
				684	* this is very complex, but the basic idea is to drop all extents
				685	* in the range start - end. hint_block is filled in with a block number
				686	* that would be a good hint to the block allocator for this file.
				687	*
				688	* If an extent intersects the range but is not entirely inside the range
				689	* it is either truncated or split. Anything entirely inside the range
				690	* is deleted from the tree.
				691	*/
				692	int __btrfs_drop_extents(struct btrfs_trans_handle *trans,
				693	struct btrfs_root root, struct inode inode,
				694	struct btrfs_path *path, u64 start, u64 end,
				695	u64 *drop_end, int drop_cache,
				696	int replace_extent,
				697	u32 extent_item_size,
				698	int *key_inserted)
				699	{
				700	struct btrfs_fs_info *fs_info = root->fs_info;
				701	struct extent_buffer *leaf;
				702	struct btrfs_file_extent_item *fi;
				703	struct btrfs_key key;
				704	struct btrfs_key new_key;
				705	u64 ino = btrfs_ino(BTRFS_I(inode));
				706	u64 search_start = start;
				707	u64 disk_bytenr = 0;
				708	u64 num_bytes = 0;
				709	u64 extent_offset = 0;
				710	u64 extent_end = 0;
				711	u64 last_end = start;
				712	int del_nr = 0;
				713	int del_slot = 0;
				714	int extent_type;
				715	int recow;
				716	int ret;
				717	int modify_tree = -1;
				718	int update_refs;
				719	int found = 0;
				720	int leafs_visited = 0;
				721
				722	if (drop_cache)
				723	btrfs_drop_extent_cache(BTRFS_I(inode), start, end - 1, 0);
				724
				725	if (start >= BTRFS_I(inode)->disk_i_size && !replace_extent)
				726	modify_tree = 0;
				727
				728	update_refs = (test_bit(BTRFS_ROOT_REF_COWS, &root->state) \|\|
				729	root == fs_info->tree_root);
				730	while (1) {
				731	recow = 0;
				732	ret = btrfs_lookup_file_extent(trans, root, path, ino,
				733	search_start, modify_tree);
				734	if (ret < 0)
				735	break;
				736	if (ret > 0 && path->slots[0] > 0 && search_start == start) {
				737	leaf = path->nodes[0];
				738	btrfs_item_key_to_cpu(leaf, &key, path->slots[0] - 1);
				739	if (key.objectid == ino &&
				740	key.type == BTRFS_EXTENT_DATA_KEY)
				741	path->slots[0]--;
				742	}
				743	ret = 0;
				744	leafs_visited++;
				745	next_slot:
				746	leaf = path->nodes[0];
				747	if (path->slots[0] >= btrfs_header_nritems(leaf)) {
				748	BUG_ON(del_nr > 0);
				749	ret = btrfs_next_leaf(root, path);
				750	if (ret < 0)
				751	break;
				752	if (ret > 0) {
				753	ret = 0;
				754	break;
				755	}
				756	leafs_visited++;
				757	leaf = path->nodes[0];
				758	recow = 1;
				759	}
				760
				761	btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
				762
				763	if (key.objectid > ino)
				764	break;
				765	if (WARN_ON_ONCE(key.objectid < ino) \|\|
				766	key.type < BTRFS_EXTENT_DATA_KEY) {
				767	ASSERT(del_nr == 0);
				768	path->slots[0]++;
				769	goto next_slot;
				770	}
				771	if (key.type > BTRFS_EXTENT_DATA_KEY \|\| key.offset >= end)
				772	break;
				773
				774	fi = btrfs_item_ptr(leaf, path->slots[0],
				775	struct btrfs_file_extent_item);
				776	extent_type = btrfs_file_extent_type(leaf, fi);
				777
				778	if (extent_type == BTRFS_FILE_EXTENT_REG \|\|
				779	extent_type == BTRFS_FILE_EXTENT_PREALLOC) {
				780	disk_bytenr = btrfs_file_extent_disk_bytenr(leaf, fi);
				781	num_bytes = btrfs_file_extent_disk_num_bytes(leaf, fi);
				782	extent_offset = btrfs_file_extent_offset(leaf, fi);
				783	extent_end = key.offset +
				784	btrfs_file_extent_num_bytes(leaf, fi);
				785	} else if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				786	extent_end = key.offset +
				787	btrfs_file_extent_ram_bytes(leaf, fi);
				788	} else {
				789	/* can't happen */
				790	BUG();
				791	}
				792
				793	/*
				794	* Don't skip extent items representing 0 byte lengths. They
				795	* used to be created (bug) if while punching holes we hit
				796	* -ENOSPC condition. So if we find one here, just ensure we
				797	* delete it, otherwise we would insert a new file extent item
				798	* with the same key (offset) as that 0 bytes length file
				799	* extent item in the call to setup_items_for_insert() later
				800	* in this function.
				801	*/
				802	if (extent_end == key.offset && extent_end >= search_start) {
				803	last_end = extent_end;
				804	goto delete_extent_item;
				805	}
				806
				807	if (extent_end <= search_start) {
				808	path->slots[0]++;
				809	goto next_slot;
				810	}
				811
				812	found = 1;
				813	search_start = max(key.offset, start);
				814	if (recow \|\| !modify_tree) {
				815	modify_tree = -1;
				816	btrfs_release_path(path);
				817	continue;
				818	}
				819
				820	/*
				821	* \| - range to drop - \|
				822	* \| -------- extent -------- \|
				823	*/
				824	if (start > key.offset && end < extent_end) {
				825	BUG_ON(del_nr > 0);
				826	if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				827	ret = -EOPNOTSUPP;
				828	break;
				829	}
				830
				831	memcpy(&new_key, &key, sizeof(new_key));
				832	new_key.offset = start;
				833	ret = btrfs_duplicate_item(trans, root, path,
				834	&new_key);
				835	if (ret == -EAGAIN) {
				836	btrfs_release_path(path);
				837	continue;
				838	}
				839	if (ret < 0)
				840	break;
				841
				842	leaf = path->nodes[0];
				843	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
				844	struct btrfs_file_extent_item);
				845	btrfs_set_file_extent_num_bytes(leaf, fi,
				846	start - key.offset);
				847
				848	fi = btrfs_item_ptr(leaf, path->slots[0],
				849	struct btrfs_file_extent_item);
				850
				851	extent_offset += start - key.offset;
				852	btrfs_set_file_extent_offset(leaf, fi, extent_offset);
				853	btrfs_set_file_extent_num_bytes(leaf, fi,
				854	extent_end - start);
				855	btrfs_mark_buffer_dirty(leaf);
				856
				857	if (update_refs && disk_bytenr > 0) {
				858	ret = btrfs_inc_extent_ref(trans, fs_info,
				859	disk_bytenr, num_bytes, 0,
				860	root->root_key.objectid,
				861	new_key.objectid,
				862	start - extent_offset);
				863	BUG_ON(ret); /* -ENOMEM */
				864	}
				865	key.offset = start;
				866	}
				867	/*
				868	* From here on out we will have actually dropped something, so
				869	* last_end can be updated.
				870	*/
				871	last_end = extent_end;
				872
				873	/*
				874	* \| ---- range to drop ----- \|
				875	* \| -------- extent -------- \|
				876	*/
				877	if (start <= key.offset && end < extent_end) {
				878	if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				879	ret = -EOPNOTSUPP;
				880	break;
				881	}
				882
				883	memcpy(&new_key, &key, sizeof(new_key));
				884	new_key.offset = end;
				885	btrfs_set_item_key_safe(fs_info, path, &new_key);
				886
				887	extent_offset += end - key.offset;
				888	btrfs_set_file_extent_offset(leaf, fi, extent_offset);
				889	btrfs_set_file_extent_num_bytes(leaf, fi,
				890	extent_end - end);
				891	btrfs_mark_buffer_dirty(leaf);
				892	if (update_refs && disk_bytenr > 0)
				893	inode_sub_bytes(inode, end - key.offset);
				894	break;
				895	}
				896
				897	search_start = extent_end;
				898	/*
				899	* \| ---- range to drop ----- \|
				900	* \| -------- extent -------- \|
				901	*/
				902	if (start > key.offset && end >= extent_end) {
				903	BUG_ON(del_nr > 0);
				904	if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				905	ret = -EOPNOTSUPP;
				906	break;
				907	}
				908
				909	btrfs_set_file_extent_num_bytes(leaf, fi,
				910	start - key.offset);
				911	btrfs_mark_buffer_dirty(leaf);
				912	if (update_refs && disk_bytenr > 0)
				913	inode_sub_bytes(inode, extent_end - start);
				914	if (end == extent_end)
				915	break;
				916
				917	path->slots[0]++;
				918	goto next_slot;
				919	}
				920
				921	/*
				922	* \| ---- range to drop ----- \|
				923	* \| ------ extent ------ \|
				924	*/
				925	if (start <= key.offset && end >= extent_end) {
				926	delete_extent_item:
				927	if (del_nr == 0) {
				928	del_slot = path->slots[0];
				929	del_nr = 1;
				930	} else {
				931	BUG_ON(del_slot + del_nr != path->slots[0]);
				932	del_nr++;
				933	}
				934
				935	if (update_refs &&
				936	extent_type == BTRFS_FILE_EXTENT_INLINE) {
				937	inode_sub_bytes(inode,
				938	extent_end - key.offset);
				939	extent_end = ALIGN(extent_end,
				940	fs_info->sectorsize);
				941	} else if (update_refs && disk_bytenr > 0) {
				942	ret = btrfs_free_extent(trans, fs_info,
				943	disk_bytenr, num_bytes, 0,
				944	root->root_key.objectid,
				945	key.objectid, key.offset -
				946	extent_offset);
				947	BUG_ON(ret); /* -ENOMEM */
				948	inode_sub_bytes(inode,
				949	extent_end - key.offset);
				950	}
				951
				952	if (end == extent_end)
				953	break;
				954
				955	if (path->slots[0] + 1 < btrfs_header_nritems(leaf)) {
				956	path->slots[0]++;
				957	goto next_slot;
				958	}
				959
				960	ret = btrfs_del_items(trans, root, path, del_slot,
				961	del_nr);
				962	if (ret) {
				963	btrfs_abort_transaction(trans, ret);
				964	break;
				965	}
				966
				967	del_nr = 0;
				968	del_slot = 0;
				969
				970	btrfs_release_path(path);
				971	continue;
				972	}
				973
				974	BUG_ON(1);
				975	}
				976
				977	if (!ret && del_nr > 0) {
				978	/*
				979	* Set path->slots[0] to first slot, so that after the delete
				980	* if items are move off from our leaf to its immediate left or
				981	* right neighbor leafs, we end up with a correct and adjusted
				982	* path->slots[0] for our insertion (if replace_extent != 0).
				983	*/
				984	path->slots[0] = del_slot;
				985	ret = btrfs_del_items(trans, root, path, del_slot, del_nr);
				986	if (ret)
				987	btrfs_abort_transaction(trans, ret);
				988	}
				989
				990	leaf = path->nodes[0];
				991	/*
				992	* If btrfs_del_items() was called, it might have deleted a leaf, in
				993	* which case it unlocked our path, so check path->locks[0] matches a
				994	* write lock.
				995	*/
				996	if (!ret && replace_extent && leafs_visited == 1 &&
				997	(path->locks[0] == BTRFS_WRITE_LOCK_BLOCKING \|\|
				998	path->locks[0] == BTRFS_WRITE_LOCK) &&
				999	btrfs_leaf_free_space(fs_info, leaf) >=
				1000	sizeof(struct btrfs_item) + extent_item_size) {
				1001
				1002	key.objectid = ino;
				1003	key.type = BTRFS_EXTENT_DATA_KEY;
				1004	key.offset = start;
				1005	if (!del_nr && path->slots[0] < btrfs_header_nritems(leaf)) {
				1006	struct btrfs_key slot_key;
				1007
				1008	btrfs_item_key_to_cpu(leaf, &slot_key, path->slots[0]);
				1009	if (btrfs_comp_cpu_keys(&key, &slot_key) > 0)
				1010	path->slots[0]++;
				1011	}
				1012	setup_items_for_insert(root, path, &key,
				1013	&extent_item_size,
				1014	extent_item_size,
				1015	sizeof(struct btrfs_item) +
				1016	extent_item_size, 1);
				1017	*key_inserted = 1;
				1018	}
				1019
				1020	if (!replace_extent \|\| !(*key_inserted))
				1021	btrfs_release_path(path);
				1022	if (drop_end)
				1023	*drop_end = found ? min(end, last_end) : end;
				1024	return ret;
				1025	}
				1026
				1027	int btrfs_drop_extents(struct btrfs_trans_handle *trans,
				1028	struct btrfs_root root, struct inode inode, u64 start,
				1029	u64 end, int drop_cache)
				1030	{
				1031	struct btrfs_path *path;
				1032	int ret;
				1033
				1034	path = btrfs_alloc_path();
				1035	if (!path)
				1036	return -ENOMEM;
				1037	ret = __btrfs_drop_extents(trans, root, inode, path, start, end, NULL,
				1038	drop_cache, 0, 0, NULL);
				1039	btrfs_free_path(path);
				1040	return ret;
				1041	}
				1042
				1043	static int extent_mergeable(struct extent_buffer *leaf, int slot,
				1044	u64 objectid, u64 bytenr, u64 orig_offset,
				1045	u64 start, u64 end)
				1046	{
				1047	struct btrfs_file_extent_item *fi;
				1048	struct btrfs_key key;
				1049	u64 extent_end;
				1050
				1051	if (slot < 0 \|\| slot >= btrfs_header_nritems(leaf))
				1052	return 0;
				1053
				1054	btrfs_item_key_to_cpu(leaf, &key, slot);
				1055	if (key.objectid != objectid \|\| key.type != BTRFS_EXTENT_DATA_KEY)
				1056	return 0;
				1057
				1058	fi = btrfs_item_ptr(leaf, slot, struct btrfs_file_extent_item);
				1059	if (btrfs_file_extent_type(leaf, fi) != BTRFS_FILE_EXTENT_REG \|\|
				1060	btrfs_file_extent_disk_bytenr(leaf, fi) != bytenr \|\|
				1061	btrfs_file_extent_offset(leaf, fi) != key.offset - orig_offset \|\|
				1062	btrfs_file_extent_compression(leaf, fi) \|\|
				1063	btrfs_file_extent_encryption(leaf, fi) \|\|
				1064	btrfs_file_extent_other_encoding(leaf, fi))
				1065	return 0;
				1066
				1067	extent_end = key.offset + btrfs_file_extent_num_bytes(leaf, fi);
				1068	if ((start && start != key.offset) \|\| (end && end != extent_end))
				1069	return 0;
				1070
				1071	*start = key.offset;
				1072	*end = extent_end;
				1073	return 1;
				1074	}
				1075
				1076	/*
				1077	* Mark extent in the range start - end as written.
				1078	*
				1079	* This changes extent type from 'pre-allocated' to 'regular'. If only
				1080	* part of extent is marked as written, the extent will be split into
				1081	* two or three.
				1082	*/
				1083	int btrfs_mark_extent_written(struct btrfs_trans_handle *trans,
				1084	struct btrfs_inode *inode, u64 start, u64 end)
				1085	{
				1086	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				1087	struct btrfs_root *root = inode->root;
				1088	struct extent_buffer *leaf;
				1089	struct btrfs_path *path;
				1090	struct btrfs_file_extent_item *fi;
				1091	struct btrfs_key key;
				1092	struct btrfs_key new_key;
				1093	u64 bytenr;
				1094	u64 num_bytes;
				1095	u64 extent_end;
				1096	u64 orig_offset;
				1097	u64 other_start;
				1098	u64 other_end;
				1099	u64 split;
				1100	int del_nr = 0;
				1101	int del_slot = 0;
				1102	int recow;
				1103	int ret;
				1104	u64 ino = btrfs_ino(inode);
				1105
				1106	path = btrfs_alloc_path();
				1107	if (!path)
				1108	return -ENOMEM;
				1109	again:
				1110	recow = 0;
				1111	split = start;
				1112	key.objectid = ino;
				1113	key.type = BTRFS_EXTENT_DATA_KEY;
				1114	key.offset = split;
				1115
				1116	ret = btrfs_search_slot(trans, root, &key, path, -1, 1);
				1117	if (ret < 0)
				1118	goto out;
				1119	if (ret > 0 && path->slots[0] > 0)
				1120	path->slots[0]--;
				1121
				1122	leaf = path->nodes[0];
				1123	btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
				1124	if (key.objectid != ino \|\|
				1125	key.type != BTRFS_EXTENT_DATA_KEY) {
				1126	ret = -EINVAL;
				1127	btrfs_abort_transaction(trans, ret);
				1128	goto out;
				1129	}
				1130	fi = btrfs_item_ptr(leaf, path->slots[0],
				1131	struct btrfs_file_extent_item);
				1132	if (btrfs_file_extent_type(leaf, fi) != BTRFS_FILE_EXTENT_PREALLOC) {
				1133	ret = -EINVAL;
				1134	btrfs_abort_transaction(trans, ret);
				1135	goto out;
				1136	}
				1137	extent_end = key.offset + btrfs_file_extent_num_bytes(leaf, fi);
				1138	if (key.offset > start \|\| extent_end < end) {
				1139	ret = -EINVAL;
				1140	btrfs_abort_transaction(trans, ret);
				1141	goto out;
				1142	}
				1143
				1144	bytenr = btrfs_file_extent_disk_bytenr(leaf, fi);
				1145	num_bytes = btrfs_file_extent_disk_num_bytes(leaf, fi);
				1146	orig_offset = key.offset - btrfs_file_extent_offset(leaf, fi);
				1147	memcpy(&new_key, &key, sizeof(new_key));
				1148
				1149	if (start == key.offset && end < extent_end) {
				1150	other_start = 0;
				1151	other_end = start;
				1152	if (extent_mergeable(leaf, path->slots[0] - 1,
				1153	ino, bytenr, orig_offset,
				1154	&other_start, &other_end)) {
				1155	new_key.offset = end;
				1156	btrfs_set_item_key_safe(fs_info, path, &new_key);
				1157	fi = btrfs_item_ptr(leaf, path->slots[0],
				1158	struct btrfs_file_extent_item);
				1159	btrfs_set_file_extent_generation(leaf, fi,
				1160	trans->transid);
				1161	btrfs_set_file_extent_num_bytes(leaf, fi,
				1162	extent_end - end);
				1163	btrfs_set_file_extent_offset(leaf, fi,
				1164	end - orig_offset);
				1165	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
				1166	struct btrfs_file_extent_item);
				1167	btrfs_set_file_extent_generation(leaf, fi,
				1168	trans->transid);
				1169	btrfs_set_file_extent_num_bytes(leaf, fi,
				1170	end - other_start);
				1171	btrfs_mark_buffer_dirty(leaf);
				1172	goto out;
				1173	}
				1174	}
				1175
				1176	if (start > key.offset && end == extent_end) {
				1177	other_start = end;
				1178	other_end = 0;
				1179	if (extent_mergeable(leaf, path->slots[0] + 1,
				1180	ino, bytenr, orig_offset,
				1181	&other_start, &other_end)) {
				1182	fi = btrfs_item_ptr(leaf, path->slots[0],
				1183	struct btrfs_file_extent_item);
				1184	btrfs_set_file_extent_num_bytes(leaf, fi,
				1185	start - key.offset);
				1186	btrfs_set_file_extent_generation(leaf, fi,
				1187	trans->transid);
				1188	path->slots[0]++;
				1189	new_key.offset = start;
				1190	btrfs_set_item_key_safe(fs_info, path, &new_key);
				1191
				1192	fi = btrfs_item_ptr(leaf, path->slots[0],
				1193	struct btrfs_file_extent_item);
				1194	btrfs_set_file_extent_generation(leaf, fi,
				1195	trans->transid);
				1196	btrfs_set_file_extent_num_bytes(leaf, fi,
				1197	other_end - start);
				1198	btrfs_set_file_extent_offset(leaf, fi,
				1199	start - orig_offset);
				1200	btrfs_mark_buffer_dirty(leaf);
				1201	goto out;
				1202	}
				1203	}
				1204
				1205	while (start > key.offset \|\| end < extent_end) {
				1206	if (key.offset == start)
				1207	split = end;
				1208
				1209	new_key.offset = split;
				1210	ret = btrfs_duplicate_item(trans, root, path, &new_key);
				1211	if (ret == -EAGAIN) {
				1212	btrfs_release_path(path);
				1213	goto again;
				1214	}
				1215	if (ret < 0) {
				1216	btrfs_abort_transaction(trans, ret);
				1217	goto out;
				1218	}
				1219
				1220	leaf = path->nodes[0];
				1221	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
				1222	struct btrfs_file_extent_item);
				1223	btrfs_set_file_extent_generation(leaf, fi, trans->transid);
				1224	btrfs_set_file_extent_num_bytes(leaf, fi,
				1225	split - key.offset);
				1226
				1227	fi = btrfs_item_ptr(leaf, path->slots[0],
				1228	struct btrfs_file_extent_item);
				1229
				1230	btrfs_set_file_extent_generation(leaf, fi, trans->transid);
				1231	btrfs_set_file_extent_offset(leaf, fi, split - orig_offset);
				1232	btrfs_set_file_extent_num_bytes(leaf, fi,
				1233	extent_end - split);
				1234	btrfs_mark_buffer_dirty(leaf);
				1235
				1236	ret = btrfs_inc_extent_ref(trans, fs_info, bytenr, num_bytes,
				1237	0, root->root_key.objectid,
				1238	ino, orig_offset);
				1239	if (ret) {
				1240	btrfs_abort_transaction(trans, ret);
				1241	goto out;
				1242	}
				1243
				1244	if (split == start) {
				1245	key.offset = start;
				1246	} else {
				1247	if (start != key.offset) {
				1248	ret = -EINVAL;
				1249	btrfs_abort_transaction(trans, ret);
				1250	goto out;
				1251	}
				1252	path->slots[0]--;
				1253	extent_end = end;
				1254	}
				1255	recow = 1;
				1256	}
				1257
				1258	other_start = end;
				1259	other_end = 0;
				1260	if (extent_mergeable(leaf, path->slots[0] + 1,
				1261	ino, bytenr, orig_offset,
				1262	&other_start, &other_end)) {
				1263	if (recow) {
				1264	btrfs_release_path(path);
				1265	goto again;
				1266	}
				1267	extent_end = other_end;
				1268	del_slot = path->slots[0] + 1;
				1269	del_nr++;
				1270	ret = btrfs_free_extent(trans, fs_info, bytenr, num_bytes,
				1271	0, root->root_key.objectid,
				1272	ino, orig_offset);
				1273	if (ret) {
				1274	btrfs_abort_transaction(trans, ret);
				1275	goto out;
				1276	}
				1277	}
				1278	other_start = 0;
				1279	other_end = start;
				1280	if (extent_mergeable(leaf, path->slots[0] - 1,
				1281	ino, bytenr, orig_offset,
				1282	&other_start, &other_end)) {
				1283	if (recow) {
				1284	btrfs_release_path(path);
				1285	goto again;
				1286	}
				1287	key.offset = other_start;
				1288	del_slot = path->slots[0];
				1289	del_nr++;
				1290	ret = btrfs_free_extent(trans, fs_info, bytenr, num_bytes,
				1291	0, root->root_key.objectid,
				1292	ino, orig_offset);
				1293	if (ret) {
				1294	btrfs_abort_transaction(trans, ret);
				1295	goto out;
				1296	}
				1297	}
				1298	if (del_nr == 0) {
				1299	fi = btrfs_item_ptr(leaf, path->slots[0],
				1300	struct btrfs_file_extent_item);
				1301	btrfs_set_file_extent_type(leaf, fi,
				1302	BTRFS_FILE_EXTENT_REG);
				1303	btrfs_set_file_extent_generation(leaf, fi, trans->transid);
				1304	btrfs_mark_buffer_dirty(leaf);
				1305	} else {
				1306	fi = btrfs_item_ptr(leaf, del_slot - 1,
				1307	struct btrfs_file_extent_item);
				1308	btrfs_set_file_extent_type(leaf, fi,
				1309	BTRFS_FILE_EXTENT_REG);
				1310	btrfs_set_file_extent_generation(leaf, fi, trans->transid);
				1311	btrfs_set_file_extent_num_bytes(leaf, fi,
				1312	extent_end - key.offset);
				1313	btrfs_mark_buffer_dirty(leaf);
				1314
				1315	ret = btrfs_del_items(trans, root, path, del_slot, del_nr);
				1316	if (ret < 0) {
				1317	btrfs_abort_transaction(trans, ret);
				1318	goto out;
				1319	}
				1320	}
				1321	out:
				1322	btrfs_free_path(path);
				1323	return 0;
				1324	}
				1325
				1326	/*
				1327	* on error we return an unlocked page and the error value
				1328	* on success we return a locked page and 0
				1329	*/
				1330	static int prepare_uptodate_page(struct inode *inode,
				1331	struct page *page, u64 pos,
				1332	bool force_uptodate)
				1333	{
				1334	int ret = 0;
				1335
				1336	if (((pos & (PAGE_SIZE - 1)) \|\| force_uptodate) &&
				1337	!PageUptodate(page)) {
				1338	ret = btrfs_readpage(NULL, page);
				1339	if (ret)
				1340	return ret;
				1341	lock_page(page);
				1342	if (!PageUptodate(page)) {
				1343	unlock_page(page);
				1344	return -EIO;
				1345	}
				1346	if (page->mapping != inode->i_mapping) {
				1347	unlock_page(page);
				1348	return -EAGAIN;
				1349	}
				1350	}
				1351	return 0;
				1352	}
				1353
				1354	/*
				1355	* this just gets pages into the page cache and locks them down.
				1356	*/
				1357	static noinline int prepare_pages(struct inode inode, struct page *pages,
				1358	size_t num_pages, loff_t pos,
				1359	size_t write_bytes, bool force_uptodate)
				1360	{
				1361	int i;
				1362	unsigned long index = pos >> PAGE_SHIFT;
				1363	gfp_t mask = btrfs_alloc_write_mask(inode->i_mapping);
				1364	int err = 0;
				1365	int faili;
				1366
				1367	for (i = 0; i < num_pages; i++) {
				1368	again:
				1369	pages[i] = find_or_create_page(inode->i_mapping, index + i,
				1370	mask \| __GFP_WRITE);
				1371	if (!pages[i]) {
				1372	faili = i - 1;
				1373	err = -ENOMEM;
				1374	goto fail;
				1375	}
				1376
				1377	if (i == 0)
				1378	err = prepare_uptodate_page(inode, pages[i], pos,
				1379	force_uptodate);
				1380	if (!err && i == num_pages - 1)
				1381	err = prepare_uptodate_page(inode, pages[i],
				1382	pos + write_bytes, false);
				1383	if (err) {
				1384	put_page(pages[i]);
				1385	if (err == -EAGAIN) {
				1386	err = 0;
				1387	goto again;
				1388	}
				1389	faili = i - 1;
				1390	goto fail;
				1391	}
				1392	wait_on_page_writeback(pages[i]);
				1393	}
				1394
				1395	return 0;
				1396	fail:
				1397	while (faili >= 0) {
				1398	unlock_page(pages[faili]);
				1399	put_page(pages[faili]);
				1400	faili--;
				1401	}
				1402	return err;
				1403
				1404	}
				1405
				1406	static int btrfs_find_new_delalloc_bytes(struct btrfs_inode *inode,
				1407	const u64 start,
				1408	const u64 len,
				1409	struct extent_state **cached_state)
				1410	{
				1411	u64 search_start = start;
				1412	const u64 end = start + len - 1;
				1413
				1414	while (search_start < end) {
				1415	const u64 search_len = end - search_start + 1;
				1416	struct extent_map *em;
				1417	u64 em_len;
				1418	int ret = 0;
				1419
				1420	em = btrfs_get_extent(inode, NULL, 0, search_start,
				1421	search_len, 0);
				1422	if (IS_ERR(em))
				1423	return PTR_ERR(em);
				1424
				1425	if (em->block_start != EXTENT_MAP_HOLE)
				1426	goto next;
				1427
				1428	em_len = em->len;
				1429	if (em->start < search_start)
				1430	em_len -= search_start - em->start;
				1431	if (em_len > search_len)
				1432	em_len = search_len;
				1433
				1434	ret = set_extent_bit(&inode->io_tree, search_start,
				1435	search_start + em_len - 1,
				1436	EXTENT_DELALLOC_NEW,
				1437	NULL, cached_state, GFP_NOFS);
				1438	next:
				1439	search_start = extent_map_end(em);
				1440	free_extent_map(em);
				1441	if (ret)
				1442	return ret;
				1443	}
				1444	return 0;
				1445	}
				1446
				1447	/*
				1448	* This function locks the extent and properly waits for data=ordered extents
				1449	* to finish before allowing the pages to be modified if need.
				1450	*
				1451	* The return value:
				1452	* 1 - the extent is locked
				1453	* 0 - the extent is not locked, and everything is OK
				1454	* -EAGAIN - need re-prepare the pages
				1455	* the other < 0 number - Something wrong happens
				1456	*/
				1457	static noinline int
				1458	lock_and_cleanup_extent_if_need(struct btrfs_inode inode, struct page *pages,
				1459	size_t num_pages, loff_t pos,
				1460	size_t write_bytes,
				1461	u64 lockstart, u64 lockend,
				1462	struct extent_state **cached_state)
				1463	{
				1464	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				1465	u64 start_pos;
				1466	u64 last_pos;
				1467	int i;
				1468	int ret = 0;
				1469
				1470	start_pos = round_down(pos, fs_info->sectorsize);
				1471	last_pos = start_pos
				1472	+ round_up(pos + write_bytes - start_pos,
				1473	fs_info->sectorsize) - 1;
				1474
				1475	if (start_pos < inode->vfs_inode.i_size \|\|
				1476	(inode->flags & BTRFS_INODE_PREALLOC)) {
				1477	struct btrfs_ordered_extent *ordered;
				1478	unsigned int clear_bits;
				1479
				1480	lock_extent_bits(&inode->io_tree, start_pos, last_pos,
				1481	cached_state);
				1482	ordered = btrfs_lookup_ordered_range(inode, start_pos,
				1483	last_pos - start_pos + 1);
				1484	if (ordered &&
				1485	ordered->file_offset + ordered->len > start_pos &&
				1486	ordered->file_offset <= last_pos) {
				1487	unlock_extent_cached(&inode->io_tree, start_pos,
				1488	last_pos, cached_state, GFP_NOFS);
				1489	for (i = 0; i < num_pages; i++) {
				1490	unlock_page(pages[i]);
				1491	put_page(pages[i]);
				1492	}
				1493	btrfs_start_ordered_extent(&inode->vfs_inode,
				1494	ordered, 1);
				1495	btrfs_put_ordered_extent(ordered);
				1496	return -EAGAIN;
				1497	}
				1498	if (ordered)
				1499	btrfs_put_ordered_extent(ordered);
				1500	ret = btrfs_find_new_delalloc_bytes(inode, start_pos,
				1501	last_pos - start_pos + 1,
				1502	cached_state);
				1503	clear_bits = EXTENT_DIRTY \| EXTENT_DELALLOC \|
				1504	EXTENT_DO_ACCOUNTING \| EXTENT_DEFRAG;
				1505	if (ret)
				1506	clear_bits \|= EXTENT_DELALLOC_NEW \| EXTENT_LOCKED;
				1507	clear_extent_bit(&inode->io_tree, start_pos,
				1508	last_pos, clear_bits,
				1509	(clear_bits & EXTENT_LOCKED) ? 1 : 0,
				1510	0, cached_state, GFP_NOFS);
				1511	if (ret)
				1512	return ret;
				1513	*lockstart = start_pos;
				1514	*lockend = last_pos;
				1515	ret = 1;
				1516	}
				1517
				1518	for (i = 0; i < num_pages; i++) {
				1519	if (clear_page_dirty_for_io(pages[i]))
				1520	account_page_redirty(pages[i]);
				1521	set_page_extent_mapped(pages[i]);
				1522	WARN_ON(!PageLocked(pages[i]));
				1523	}
				1524
				1525	return ret;
				1526	}
				1527
				1528	static noinline int check_can_nocow(struct btrfs_inode *inode, loff_t pos,
				1529	size_t *write_bytes)
				1530	{
				1531	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				1532	struct btrfs_root *root = inode->root;
				1533	struct btrfs_ordered_extent *ordered;
				1534	u64 lockstart, lockend;
				1535	u64 num_bytes;
				1536	int ret;
				1537
				1538	ret = btrfs_start_write_no_snapshotting(root);
				1539	if (!ret)
				1540	return -ENOSPC;
				1541
				1542	lockstart = round_down(pos, fs_info->sectorsize);
				1543	lockend = round_up(pos + *write_bytes,
				1544	fs_info->sectorsize) - 1;
				1545
				1546	while (1) {
				1547	lock_extent(&inode->io_tree, lockstart, lockend);
				1548	ordered = btrfs_lookup_ordered_range(inode, lockstart,
				1549	lockend - lockstart + 1);
				1550	if (!ordered) {
				1551	break;
				1552	}
				1553	unlock_extent(&inode->io_tree, lockstart, lockend);
				1554	btrfs_start_ordered_extent(&inode->vfs_inode, ordered, 1);
				1555	btrfs_put_ordered_extent(ordered);
				1556	}
				1557
				1558	num_bytes = lockend - lockstart + 1;
				1559	ret = can_nocow_extent(&inode->vfs_inode, lockstart, &num_bytes,
				1560	NULL, NULL, NULL);
				1561	if (ret <= 0) {
				1562	ret = 0;
				1563	btrfs_end_write_no_snapshotting(root);
				1564	} else {
				1565	write_bytes = min_t(size_t, write_bytes ,
				1566	num_bytes - pos + lockstart);
				1567	}
				1568
				1569	unlock_extent(&inode->io_tree, lockstart, lockend);
				1570
				1571	return ret;
				1572	}
				1573
				1574	static noinline ssize_t __btrfs_buffered_write(struct file *file,
				1575	struct iov_iter *i,
				1576	loff_t pos)
				1577	{
				1578	struct inode *inode = file_inode(file);
				1579	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				1580	struct btrfs_root *root = BTRFS_I(inode)->root;
				1581	struct page **pages = NULL;
				1582	struct extent_state *cached_state = NULL;
				1583	struct extent_changeset *data_reserved = NULL;
				1584	u64 release_bytes = 0;
				1585	u64 lockstart;
				1586	u64 lockend;
				1587	size_t num_written = 0;
				1588	int nrptrs;
				1589	int ret = 0;
				1590	bool only_release_metadata = false;
				1591	bool force_page_uptodate = false;
				1592	bool need_unlock;
				1593
				1594	nrptrs = min(DIV_ROUND_UP(iov_iter_count(i), PAGE_SIZE),
				1595	PAGE_SIZE / (sizeof(struct page *)));
				1596	nrptrs = min(nrptrs, current->nr_dirtied_pause - current->nr_dirtied);
				1597	nrptrs = max(nrptrs, 8);
				1598	pages = kmalloc_array(nrptrs, sizeof(struct page *), GFP_KERNEL);
				1599	if (!pages)
				1600	return -ENOMEM;
				1601
				1602	while (iov_iter_count(i) > 0) {
				1603	size_t offset = pos & (PAGE_SIZE - 1);
				1604	size_t sector_offset;
				1605	size_t write_bytes = min(iov_iter_count(i),
				1606	nrptrs * (size_t)PAGE_SIZE -
				1607	offset);
				1608	size_t num_pages = DIV_ROUND_UP(write_bytes + offset,
				1609	PAGE_SIZE);
				1610	size_t reserve_bytes;
				1611	size_t dirty_pages;
				1612	size_t copied;
				1613	size_t dirty_sectors;
				1614	size_t num_sectors;
				1615
				1616	WARN_ON(num_pages > nrptrs);
				1617
				1618	/*
				1619	* Fault pages before locking them in prepare_pages
				1620	* to avoid recursive lock
				1621	*/
				1622	if (unlikely(iov_iter_fault_in_readable(i, write_bytes))) {
				1623	ret = -EFAULT;
				1624	break;
				1625	}
				1626
				1627	only_release_metadata = false;
				1628	sector_offset = pos & (fs_info->sectorsize - 1);
				1629	reserve_bytes = round_up(write_bytes + sector_offset,
				1630	fs_info->sectorsize);
				1631
				1632	extent_changeset_release(data_reserved);
				1633	ret = btrfs_check_data_free_space(inode, &data_reserved, pos,
				1634	write_bytes);
				1635	if (ret < 0) {
				1636	if ((BTRFS_I(inode)->flags & (BTRFS_INODE_NODATACOW \|
				1637	BTRFS_INODE_PREALLOC)) &&
				1638	check_can_nocow(BTRFS_I(inode), pos,
				1639	&write_bytes) > 0) {
				1640	/*
				1641	* For nodata cow case, no need to reserve
				1642	* data space.
				1643	*/
				1644	only_release_metadata = true;
				1645	/*
				1646	* our prealloc extent may be smaller than
				1647	* write_bytes, so scale down.
				1648	*/
				1649	num_pages = DIV_ROUND_UP(write_bytes + offset,
				1650	PAGE_SIZE);
				1651	reserve_bytes = round_up(write_bytes +
				1652	sector_offset,
				1653	fs_info->sectorsize);
				1654	} else {
				1655	break;
				1656	}
				1657	}
				1658
				1659	ret = btrfs_delalloc_reserve_metadata(BTRFS_I(inode),
				1660	reserve_bytes);
				1661	if (ret) {
				1662	if (!only_release_metadata)
				1663	btrfs_free_reserved_data_space(inode,
				1664	data_reserved, pos,
				1665	write_bytes);
				1666	else
				1667	btrfs_end_write_no_snapshotting(root);
				1668	break;
				1669	}
				1670
				1671	release_bytes = reserve_bytes;
				1672	need_unlock = false;
				1673	again:
				1674	/*
				1675	* This is going to setup the pages array with the number of
				1676	* pages we want, so we don't really need to worry about the
				1677	* contents of pages from loop to loop
				1678	*/
				1679	ret = prepare_pages(inode, pages, num_pages,
				1680	pos, write_bytes,
				1681	force_page_uptodate);
				1682	if (ret)
				1683	break;
				1684
				1685	ret = lock_and_cleanup_extent_if_need(BTRFS_I(inode), pages,
				1686	num_pages, pos, write_bytes, &lockstart,
				1687	&lockend, &cached_state);
				1688	if (ret < 0) {
				1689	if (ret == -EAGAIN)
				1690	goto again;
				1691	break;
				1692	} else if (ret > 0) {
				1693	need_unlock = true;
				1694	ret = 0;
				1695	}
				1696
				1697	copied = btrfs_copy_from_user(pos, write_bytes, pages, i);
				1698
				1699	num_sectors = BTRFS_BYTES_TO_BLKS(fs_info, reserve_bytes);
				1700	dirty_sectors = round_up(copied + sector_offset,
				1701	fs_info->sectorsize);
				1702	dirty_sectors = BTRFS_BYTES_TO_BLKS(fs_info, dirty_sectors);
				1703
				1704	/*
				1705	* if we have trouble faulting in the pages, fall
				1706	* back to one page at a time
				1707	*/
				1708	if (copied < write_bytes)
				1709	nrptrs = 1;
				1710
				1711	if (copied == 0) {
				1712	force_page_uptodate = true;
				1713	dirty_sectors = 0;
				1714	dirty_pages = 0;
				1715	} else {
				1716	force_page_uptodate = false;
				1717	dirty_pages = DIV_ROUND_UP(copied + offset,
				1718	PAGE_SIZE);
				1719	}
				1720
				1721	/*
				1722	* If we had a short copy we need to release the excess delaloc
				1723	* bytes we reserved. We need to increment outstanding_extents
				1724	* because btrfs_delalloc_release_space and
				1725	* btrfs_delalloc_release_metadata will decrement it, but
				1726	* we still have an outstanding extent for the chunk we actually
				1727	* managed to copy.
				1728	*/
				1729	if (num_sectors > dirty_sectors) {
				1730	/* release everything except the sectors we dirtied */
				1731	release_bytes -= dirty_sectors <<
				1732	fs_info->sb->s_blocksize_bits;
				1733	if (copied > 0) {
				1734	spin_lock(&BTRFS_I(inode)->lock);
				1735	BTRFS_I(inode)->outstanding_extents++;
				1736	spin_unlock(&BTRFS_I(inode)->lock);
				1737	}
				1738	if (only_release_metadata) {
				1739	btrfs_delalloc_release_metadata(BTRFS_I(inode),
				1740	release_bytes);
				1741	} else {
				1742	u64 __pos;
				1743
				1744	__pos = round_down(pos,
				1745	fs_info->sectorsize) +
				1746	(dirty_pages << PAGE_SHIFT);
				1747	btrfs_delalloc_release_space(inode,
				1748	data_reserved, __pos,
				1749	release_bytes);
				1750	}
				1751	}
				1752
				1753	release_bytes = round_up(copied + sector_offset,
				1754	fs_info->sectorsize);
				1755
				1756	if (copied > 0)
				1757	ret = btrfs_dirty_pages(inode, pages, dirty_pages,
				1758	pos, copied, NULL);
				1759	if (need_unlock)
				1760	unlock_extent_cached(&BTRFS_I(inode)->io_tree,
				1761	lockstart, lockend, &cached_state,
				1762	GFP_NOFS);
				1763	if (ret) {
				1764	btrfs_drop_pages(pages, num_pages);
				1765	break;
				1766	}
				1767
				1768	release_bytes = 0;
				1769	if (only_release_metadata)
				1770	btrfs_end_write_no_snapshotting(root);
				1771
				1772	if (only_release_metadata && copied > 0) {
				1773	lockstart = round_down(pos,
				1774	fs_info->sectorsize);
				1775	lockend = round_up(pos + copied,
				1776	fs_info->sectorsize) - 1;
				1777
				1778	set_extent_bit(&BTRFS_I(inode)->io_tree, lockstart,
				1779	lockend, EXTENT_NORESERVE, NULL,
				1780	NULL, GFP_NOFS);
				1781	}
				1782
				1783	btrfs_drop_pages(pages, num_pages);
				1784
				1785	cond_resched();
				1786
				1787	balance_dirty_pages_ratelimited(inode->i_mapping);
				1788	if (dirty_pages < (fs_info->nodesize >> PAGE_SHIFT) + 1)
				1789	btrfs_btree_balance_dirty(fs_info);
				1790
				1791	pos += copied;
				1792	num_written += copied;
				1793	}
				1794
				1795	kfree(pages);
				1796
				1797	if (release_bytes) {
				1798	if (only_release_metadata) {
				1799	btrfs_end_write_no_snapshotting(root);
				1800	btrfs_delalloc_release_metadata(BTRFS_I(inode),
				1801	release_bytes);
				1802	} else {
				1803	btrfs_delalloc_release_space(inode, data_reserved,
				1804	round_down(pos, fs_info->sectorsize),
				1805	release_bytes);
				1806	}
				1807	}
				1808
				1809	extent_changeset_free(data_reserved);
				1810	return num_written ? num_written : ret;
				1811	}
				1812
				1813	static ssize_t __btrfs_direct_write(struct kiocb iocb, struct iov_iter from)
				1814	{
				1815	struct file *file = iocb->ki_filp;
				1816	struct inode *inode = file_inode(file);
				1817	loff_t pos = iocb->ki_pos;
				1818	ssize_t written;
				1819	ssize_t written_buffered;
				1820	loff_t endbyte;
				1821	int err;
				1822
				1823	written = generic_file_direct_write(iocb, from);
				1824
				1825	if (written < 0 \|\| !iov_iter_count(from))
				1826	return written;
				1827
				1828	pos += written;
				1829	written_buffered = __btrfs_buffered_write(file, from, pos);
				1830	if (written_buffered < 0) {
				1831	err = written_buffered;
				1832	goto out;
				1833	}
				1834	/*
				1835	* Ensure all data is persisted. We want the next direct IO read to be
				1836	* able to read what was just written.
				1837	*/
				1838	endbyte = pos + written_buffered - 1;
				1839	err = btrfs_fdatawrite_range(inode, pos, endbyte);
				1840	if (err)
				1841	goto out;
				1842	err = filemap_fdatawait_range(inode->i_mapping, pos, endbyte);
				1843	if (err)
				1844	goto out;
				1845	written += written_buffered;
				1846	iocb->ki_pos = pos + written_buffered;
				1847	invalidate_mapping_pages(file->f_mapping, pos >> PAGE_SHIFT,
				1848	endbyte >> PAGE_SHIFT);
				1849	out:
				1850	return written ? written : err;
				1851	}
				1852
				1853	static void update_time_for_write(struct inode *inode)
				1854	{
				1855	struct timespec now;
				1856
				1857	if (IS_NOCMTIME(inode))
				1858	return;
				1859
				1860	now = current_time(inode);
				1861	if (!timespec_equal(&inode->i_mtime, &now))
				1862	inode->i_mtime = now;
				1863
				1864	if (!timespec_equal(&inode->i_ctime, &now))
				1865	inode->i_ctime = now;
				1866
				1867	if (IS_I_VERSION(inode))
				1868	inode_inc_iversion(inode);
				1869	}
				1870
				1871	static ssize_t btrfs_file_write_iter(struct kiocb *iocb,
				1872	struct iov_iter *from)
				1873	{
				1874	struct file *file = iocb->ki_filp;
				1875	struct inode *inode = file_inode(file);
				1876	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				1877	struct btrfs_root *root = BTRFS_I(inode)->root;
				1878	u64 start_pos;
				1879	u64 end_pos;
				1880	ssize_t num_written = 0;
				1881	bool sync = (file->f_flags & O_DSYNC) \|\| IS_SYNC(file->f_mapping->host);
				1882	ssize_t err;
				1883	loff_t pos;
				1884	size_t count;
				1885	loff_t oldsize;
				1886	int clean_page = 0;
				1887
				1888	if (!(iocb->ki_flags & IOCB_DIRECT) &&
				1889	(iocb->ki_flags & IOCB_NOWAIT))
				1890	return -EOPNOTSUPP;
				1891
				1892	if (iocb->ki_flags & IOCB_NOWAIT) {
				1893	if (!inode_trylock(inode))
				1894	return -EAGAIN;
				1895	} else {
				1896	inode_lock(inode);
				1897	}
				1898
				1899	err = generic_write_checks(iocb, from);
				1900	if (err <= 0) {
				1901	inode_unlock(inode);
				1902	return err;
				1903	}
				1904
				1905	pos = iocb->ki_pos;
				1906	count = iov_iter_count(from);
				1907	if (iocb->ki_flags & IOCB_NOWAIT) {
				1908	/*
				1909	* We will allocate space in case nodatacow is not set,
				1910	* so bail
				1911	*/
				1912	if (!(BTRFS_I(inode)->flags & (BTRFS_INODE_NODATACOW \|
				1913	BTRFS_INODE_PREALLOC)) \|\|
				1914	check_can_nocow(BTRFS_I(inode), pos, &count) <= 0) {
				1915	inode_unlock(inode);
				1916	return -EAGAIN;
				1917	}
				1918	}
				1919
				1920	current->backing_dev_info = inode_to_bdi(inode);
				1921	err = file_remove_privs(file);
				1922	if (err) {
				1923	inode_unlock(inode);
				1924	goto out;
				1925	}
				1926
				1927	/*
				1928	* If BTRFS flips readonly due to some impossible error
				1929	* (fs_info->fs_state now has BTRFS_SUPER_FLAG_ERROR),
				1930	* although we have opened a file as writable, we have
				1931	* to stop this write operation to ensure FS consistency.
				1932	*/
				1933	if (test_bit(BTRFS_FS_STATE_ERROR, &fs_info->fs_state)) {
				1934	inode_unlock(inode);
				1935	err = -EROFS;
				1936	goto out;
				1937	}
				1938
				1939	/*
				1940	* We reserve space for updating the inode when we reserve space for the
				1941	* extent we are going to write, so we will enospc out there. We don't
				1942	* need to start yet another transaction to update the inode as we will
				1943	* update the inode when we finish writing whatever data we write.
				1944	*/
				1945	update_time_for_write(inode);
				1946
				1947	start_pos = round_down(pos, fs_info->sectorsize);
				1948	oldsize = i_size_read(inode);
				1949	if (start_pos > oldsize) {
				1950	/* Expand hole size to cover write data, preventing empty gap */
				1951	end_pos = round_up(pos + count,
				1952	fs_info->sectorsize);
				1953	err = btrfs_cont_expand(inode, oldsize, end_pos);
				1954	if (err) {
				1955	inode_unlock(inode);
				1956	goto out;
				1957	}
				1958	if (start_pos > round_up(oldsize, fs_info->sectorsize))
				1959	clean_page = 1;
				1960	}
				1961
				1962	if (sync)
				1963	atomic_inc(&BTRFS_I(inode)->sync_writers);
				1964
				1965	if (iocb->ki_flags & IOCB_DIRECT) {
				1966	num_written = __btrfs_direct_write(iocb, from);
				1967	} else {
				1968	num_written = __btrfs_buffered_write(file, from, pos);
				1969	if (num_written > 0)
				1970	iocb->ki_pos = pos + num_written;
				1971	if (clean_page)
				1972	pagecache_isize_extended(inode, oldsize,
				1973	i_size_read(inode));
				1974	}
				1975
				1976	inode_unlock(inode);
				1977
				1978	/*
				1979	* We also have to set last_sub_trans to the current log transid,
				1980	* otherwise subsequent syncs to a file that's been synced in this
				1981	* transaction will appear to have already occurred.
				1982	*/
				1983	spin_lock(&BTRFS_I(inode)->lock);
				1984	BTRFS_I(inode)->last_sub_trans = root->log_transid;
				1985	spin_unlock(&BTRFS_I(inode)->lock);
				1986	if (num_written > 0)
				1987	num_written = generic_write_sync(iocb, num_written);
				1988
				1989	if (sync)
				1990	atomic_dec(&BTRFS_I(inode)->sync_writers);
				1991	out:
				1992	current->backing_dev_info = NULL;
				1993	return num_written ? num_written : err;
				1994	}
				1995
				1996	int btrfs_release_file(struct inode inode, struct file filp)
				1997	{
				1998	struct btrfs_file_private *private = filp->private_data;
				1999
				2000	if (private && private->trans)
				2001	btrfs_ioctl_trans_end(filp);
				2002	if (private && private->filldir_buf)
				2003	kfree(private->filldir_buf);
				2004	kfree(private);
				2005	filp->private_data = NULL;
				2006
				2007	/*
				2008	* ordered_data_close is set by settattr when we are about to truncate
				2009	* a file from a non-zero size to a zero size. This tries to
				2010	* flush down new bytes that may have been written if the
				2011	* application were using truncate to replace a file in place.
				2012	*/
				2013	if (test_and_clear_bit(BTRFS_INODE_ORDERED_DATA_CLOSE,
				2014	&BTRFS_I(inode)->runtime_flags))
				2015	filemap_flush(inode->i_mapping);
				2016	return 0;
				2017	}
				2018
				2019	static int start_ordered_ops(struct inode *inode, loff_t start, loff_t end)
				2020	{
				2021	int ret;
				2022	struct blk_plug plug;
				2023
				2024	/*
				2025	* This is only called in fsync, which would do synchronous writes, so
				2026	* a plug can merge adjacent IOs as much as possible. Esp. in case of
				2027	* multiple disks using raid profile, a large IO can be split to
				2028	* several segments of stripe length (currently 64K).
				2029	*/
				2030	blk_start_plug(&plug);
				2031	atomic_inc(&BTRFS_I(inode)->sync_writers);
				2032	ret = btrfs_fdatawrite_range(inode, start, end);
				2033	atomic_dec(&BTRFS_I(inode)->sync_writers);
				2034	blk_finish_plug(&plug);
				2035
				2036	return ret;
				2037	}
				2038
				2039	/*
				2040	* fsync call for both files and directories. This logs the inode into
				2041	* the tree log instead of forcing full commits whenever possible.
				2042	*
				2043	* It needs to call filemap_fdatawait so that all ordered extent updates are
				2044	* in the metadata btree are up to date for copying to the log.
				2045	*
				2046	* It drops the inode mutex before doing the tree log commit. This is an
				2047	* important optimization for directories because holding the mutex prevents
				2048	* new operations on the dir while we write to disk.
				2049	*/
				2050	int btrfs_sync_file(struct file *file, loff_t start, loff_t end, int datasync)
				2051	{
				2052	struct dentry *dentry = file_dentry(file);
				2053	struct inode *inode = d_inode(dentry);
				2054	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				2055	struct btrfs_root *root = BTRFS_I(inode)->root;
				2056	struct btrfs_trans_handle *trans;
				2057	struct btrfs_log_ctx ctx;
				2058	int ret = 0, err;
				2059	bool full_sync = 0;
				2060	u64 len;
				2061
				2062	/*
				2063	* If the inode needs a full sync, make sure we use a full range to
				2064	* avoid log tree corruption, due to hole detection racing with ordered
				2065	* extent completion for adjacent ranges, and assertion failures during
				2066	* hole detection.
				2067	*/
				2068	if (test_bit(BTRFS_INODE_NEEDS_FULL_SYNC,
				2069	&BTRFS_I(inode)->runtime_flags)) {
				2070	start = 0;
				2071	end = LLONG_MAX;
				2072	}
				2073
				2074	/*
				2075	* The range length can be represented by u64, we have to do the typecasts
				2076	* to avoid signed overflow if it's [0, LLONG_MAX] eg. from fsync()
				2077	*/
				2078	len = (u64)end - (u64)start + 1;
				2079	trace_btrfs_sync_file(file, datasync);
				2080
				2081	btrfs_init_log_ctx(&ctx, inode);
				2082
				2083	/*
				2084	* We write the dirty pages in the range and wait until they complete
				2085	* out of the ->i_mutex. If so, we can flush the dirty pages by
				2086	* multi-task, and make the performance up. See
				2087	* btrfs_wait_ordered_range for an explanation of the ASYNC check.
				2088	*/
				2089	ret = start_ordered_ops(inode, start, end);
				2090	if (ret)
				2091	goto out;
				2092
				2093	inode_lock(inode);
				2094
				2095	/*
				2096	* We take the dio_sem here because the tree log stuff can race with
				2097	* lockless dio writes and get an extent map logged for an extent we
				2098	* never waited on. We need it this high up for lockdep reasons.
				2099	*/
				2100	down_write(&BTRFS_I(inode)->dio_sem);
				2101
				2102	atomic_inc(&root->log_batch);
				2103	full_sync = test_bit(BTRFS_INODE_NEEDS_FULL_SYNC,
				2104	&BTRFS_I(inode)->runtime_flags);
				2105	/*
				2106	* We might have have had more pages made dirty after calling
				2107	* start_ordered_ops and before acquiring the inode's i_mutex.
				2108	*/
				2109	if (full_sync) {
				2110	/*
				2111	* For a full sync, we need to make sure any ordered operations
				2112	* start and finish before we start logging the inode, so that
				2113	* all extents are persisted and the respective file extent
				2114	* items are in the fs/subvol btree.
				2115	*/
				2116	ret = btrfs_wait_ordered_range(inode, start, len);
				2117	} else {
				2118	/*
				2119	* Start any new ordered operations before starting to log the
				2120	* inode. We will wait for them to finish in btrfs_sync_log().
				2121	*
				2122	* Right before acquiring the inode's mutex, we might have new
				2123	* writes dirtying pages, which won't immediately start the
				2124	* respective ordered operations - that is done through the
				2125	* fill_delalloc callbacks invoked from the writepage and
				2126	* writepages address space operations. So make sure we start
				2127	* all ordered operations before starting to log our inode. Not
				2128	* doing this means that while logging the inode, writeback
				2129	* could start and invoke writepage/writepages, which would call
				2130	* the fill_delalloc callbacks (cow_file_range,
				2131	* submit_compressed_extents). These callbacks add first an
				2132	* extent map to the modified list of extents and then create
				2133	* the respective ordered operation, which means in
				2134	* tree-log.c:btrfs_log_inode() we might capture all existing
				2135	* ordered operations (with btrfs_get_logged_extents()) before
				2136	* the fill_delalloc callback adds its ordered operation, and by
				2137	* the time we visit the modified list of extent maps (with
				2138	* btrfs_log_changed_extents()), we see and process the extent
				2139	* map they created. We then use the extent map to construct a
				2140	* file extent item for logging without waiting for the
				2141	* respective ordered operation to finish - this file extent
				2142	* item points to a disk location that might not have yet been
				2143	* written to, containing random data - so after a crash a log
				2144	* replay will make our inode have file extent items that point
				2145	* to disk locations containing invalid data, as we returned
				2146	* success to userspace without waiting for the respective
				2147	* ordered operation to finish, because it wasn't captured by
				2148	* btrfs_get_logged_extents().
				2149	*/
				2150	ret = start_ordered_ops(inode, start, end);
				2151	}
				2152	if (ret) {
				2153	up_write(&BTRFS_I(inode)->dio_sem);
				2154	inode_unlock(inode);
				2155	goto out;
				2156	}
				2157	atomic_inc(&root->log_batch);
				2158
				2159	/*
				2160	* If the last transaction that changed this file was before the current
				2161	* transaction and we have the full sync flag set in our inode, we can
				2162	* bail out now without any syncing.
				2163	*
				2164	* Note that we can't bail out if the full sync flag isn't set. This is
				2165	* because when the full sync flag is set we start all ordered extents
				2166	* and wait for them to fully complete - when they complete they update
				2167	* the inode's last_trans field through:
				2168	*
				2169	* btrfs_finish_ordered_io() ->
				2170	* btrfs_update_inode_fallback() ->
				2171	* btrfs_update_inode() ->
				2172	* btrfs_set_inode_last_trans()
				2173	*
				2174	* So we are sure that last_trans is up to date and can do this check to
				2175	* bail out safely. For the fast path, when the full sync flag is not
				2176	* set in our inode, we can not do it because we start only our ordered
				2177	* extents and don't wait for them to complete (that is when
				2178	* btrfs_finish_ordered_io runs), so here at this point their last_trans
				2179	* value might be less than or equals to fs_info->last_trans_committed,
				2180	* and setting a speculative last_trans for an inode when a buffered
				2181	* write is made (such as fs_info->generation + 1 for example) would not
				2182	* be reliable since after setting the value and before fsync is called
				2183	* any number of transactions can start and commit (transaction kthread
				2184	* commits the current transaction periodically), and a transaction
				2185	* commit does not start nor waits for ordered extents to complete.
				2186	*/
				2187	smp_mb();
				2188	if (btrfs_inode_in_log(BTRFS_I(inode), fs_info->generation) \|\|
				2189	(full_sync && BTRFS_I(inode)->last_trans <=
				2190	fs_info->last_trans_committed) \|\|
				2191	(!btrfs_have_ordered_extents_in_range(inode, start, len) &&
				2192	BTRFS_I(inode)->last_trans
				2193	<= fs_info->last_trans_committed)) {
				2194	/*
				2195	* We've had everything committed since the last time we were
				2196	* modified so clear this flag in case it was set for whatever
				2197	* reason, it's no longer relevant.
				2198	*/
				2199	clear_bit(BTRFS_INODE_NEEDS_FULL_SYNC,
				2200	&BTRFS_I(inode)->runtime_flags);
				2201	/*
				2202	* An ordered extent might have started before and completed
				2203	* already with io errors, in which case the inode was not
				2204	* updated and we end up here. So check the inode's mapping
				2205	* for any errors that might have happened since we last
				2206	* checked called fsync.
				2207	*/
				2208	ret = filemap_check_wb_err(inode->i_mapping, file->f_wb_err);
				2209	up_write(&BTRFS_I(inode)->dio_sem);
				2210	inode_unlock(inode);
				2211	goto out;
				2212	}
				2213
				2214	/*
				2215	* ok we haven't committed the transaction yet, lets do a commit
				2216	*/
				2217	if (file->private_data)
				2218	btrfs_ioctl_trans_end(file);
				2219
				2220	/*
				2221	* We use start here because we will need to wait on the IO to complete
				2222	* in btrfs_sync_log, which could require joining a transaction (for
				2223	* example checking cross references in the nocow path). If we use join
				2224	* here we could get into a situation where we're waiting on IO to
				2225	* happen that is blocked on a transaction trying to commit. With start
				2226	* we inc the extwriter counter, so we wait for all extwriters to exit
				2227	* before we start blocking join'ers. This comment is to keep somebody
				2228	* from thinking they are super smart and changing this to
				2229	* btrfs_join_transaction coughJosefcough.
				2230	*/
				2231	trans = btrfs_start_transaction(root, 0);
				2232	if (IS_ERR(trans)) {
				2233	ret = PTR_ERR(trans);
				2234	up_write(&BTRFS_I(inode)->dio_sem);
				2235	inode_unlock(inode);
				2236	goto out;
				2237	}
				2238	trans->sync = true;
				2239
				2240	ret = btrfs_log_dentry_safe(trans, root, dentry, start, end, &ctx);
				2241	if (ret < 0) {
				2242	/* Fallthrough and commit/free transaction. */
				2243	ret = 1;
				2244	}
				2245
				2246	/* we've logged all the items and now have a consistent
				2247	* version of the file in the log. It is possible that
				2248	* someone will come in and modify the file, but that's
				2249	* fine because the log is consistent on disk, and we
				2250	* have references to all of the file's extents
				2251	*
				2252	* It is possible that someone will come in and log the
				2253	* file again, but that will end up using the synchronization
				2254	* inside btrfs_sync_log to keep things safe.
				2255	*/
				2256	up_write(&BTRFS_I(inode)->dio_sem);
				2257	inode_unlock(inode);
				2258
				2259	/*
				2260	* If any of the ordered extents had an error, just return it to user
				2261	* space, so that the application knows some writes didn't succeed and
				2262	* can take proper action (retry for e.g.). Blindly committing the
				2263	* transaction in this case, would fool userspace that everything was
				2264	* successful. And we also want to make sure our log doesn't contain
				2265	* file extent items pointing to extents that weren't fully written to -
				2266	* just like in the non fast fsync path, where we check for the ordered
				2267	* operation's error flag before writing to the log tree and return -EIO
				2268	* if any of them had this flag set (btrfs_wait_ordered_range) -
				2269	* therefore we need to check for errors in the ordered operations,
				2270	* which are indicated by ctx.io_err.
				2271	*/
				2272	if (ctx.io_err) {
				2273	btrfs_end_transaction(trans);
				2274	ret = ctx.io_err;
				2275	goto out;
				2276	}
				2277
				2278	if (ret != BTRFS_NO_LOG_SYNC) {
				2279	if (!ret) {
				2280	ret = btrfs_sync_log(trans, root, &ctx);
				2281	if (!ret) {
				2282	ret = btrfs_end_transaction(trans);
				2283	goto out;
				2284	}
				2285	}
				2286	if (!full_sync) {
				2287	ret = btrfs_wait_ordered_range(inode, start, len);
				2288	if (ret) {
				2289	btrfs_end_transaction(trans);
				2290	goto out;
				2291	}
				2292	}
				2293	ret = btrfs_commit_transaction(trans);
				2294	} else {
				2295	ret = btrfs_end_transaction(trans);
				2296	}
				2297	out:
				2298	ASSERT(list_empty(&ctx.list));
				2299	err = file_check_and_advance_wb_err(file);
				2300	if (!ret)
				2301	ret = err;
				2302	return ret > 0 ? -EIO : ret;
				2303	}
				2304
				2305	static const struct vm_operations_struct btrfs_file_vm_ops = {
				2306	.fault = filemap_fault,
				2307	.map_pages = filemap_map_pages,
				2308	.page_mkwrite = btrfs_page_mkwrite,
				2309	};
				2310
				2311	static int btrfs_file_mmap(struct file filp, struct vm_area_struct vma)
				2312	{
				2313	struct address_space *mapping = filp->f_mapping;
				2314
				2315	if (!mapping->a_ops->readpage)
				2316	return -ENOEXEC;
				2317
				2318	file_accessed(filp);
				2319	vma->vm_ops = &btrfs_file_vm_ops;
				2320
				2321	return 0;
				2322	}
				2323
				2324	static int hole_mergeable(struct btrfs_inode inode, struct extent_buffer leaf,
				2325	int slot, u64 start, u64 end)
				2326	{
				2327	struct btrfs_file_extent_item *fi;
				2328	struct btrfs_key key;
				2329
				2330	if (slot < 0 \|\| slot >= btrfs_header_nritems(leaf))
				2331	return 0;
				2332
				2333	btrfs_item_key_to_cpu(leaf, &key, slot);
				2334	if (key.objectid != btrfs_ino(inode) \|\|
				2335	key.type != BTRFS_EXTENT_DATA_KEY)
				2336	return 0;
				2337
				2338	fi = btrfs_item_ptr(leaf, slot, struct btrfs_file_extent_item);
				2339
				2340	if (btrfs_file_extent_type(leaf, fi) != BTRFS_FILE_EXTENT_REG)
				2341	return 0;
				2342
				2343	if (btrfs_file_extent_disk_bytenr(leaf, fi))
				2344	return 0;
				2345
				2346	if (key.offset == end)
				2347	return 1;
				2348	if (key.offset + btrfs_file_extent_num_bytes(leaf, fi) == start)
				2349	return 1;
				2350	return 0;
				2351	}
				2352
				2353	static int fill_holes(struct btrfs_trans_handle *trans,
				2354	struct btrfs_inode *inode,
				2355	struct btrfs_path *path, u64 offset, u64 end)
				2356	{
				2357	struct btrfs_fs_info *fs_info = btrfs_sb(inode->vfs_inode.i_sb);
				2358	struct btrfs_root *root = inode->root;
				2359	struct extent_buffer *leaf;
				2360	struct btrfs_file_extent_item *fi;
				2361	struct extent_map *hole_em;
				2362	struct extent_map_tree *em_tree = &inode->extent_tree;
				2363	struct btrfs_key key;
				2364	int ret;
				2365
				2366	if (btrfs_fs_incompat(fs_info, NO_HOLES))
				2367	goto out;
				2368
				2369	key.objectid = btrfs_ino(inode);
				2370	key.type = BTRFS_EXTENT_DATA_KEY;
				2371	key.offset = offset;
				2372
				2373	ret = btrfs_search_slot(trans, root, &key, path, 0, 1);
				2374	if (ret <= 0) {
				2375	/*
				2376	* We should have dropped this offset, so if we find it then
				2377	* something has gone horribly wrong.
				2378	*/
				2379	if (ret == 0)
				2380	ret = -EINVAL;
				2381	return ret;
				2382	}
				2383
				2384	leaf = path->nodes[0];
				2385	if (hole_mergeable(inode, leaf, path->slots[0] - 1, offset, end)) {
				2386	u64 num_bytes;
				2387
				2388	path->slots[0]--;
				2389	fi = btrfs_item_ptr(leaf, path->slots[0],
				2390	struct btrfs_file_extent_item);
				2391	num_bytes = btrfs_file_extent_num_bytes(leaf, fi) +
				2392	end - offset;
				2393	btrfs_set_file_extent_num_bytes(leaf, fi, num_bytes);
				2394	btrfs_set_file_extent_ram_bytes(leaf, fi, num_bytes);
				2395	btrfs_set_file_extent_offset(leaf, fi, 0);
				2396	btrfs_mark_buffer_dirty(leaf);
				2397	goto out;
				2398	}
				2399
				2400	if (hole_mergeable(inode, leaf, path->slots[0], offset, end)) {
				2401	u64 num_bytes;
				2402
				2403	key.offset = offset;
				2404	btrfs_set_item_key_safe(fs_info, path, &key);
				2405	fi = btrfs_item_ptr(leaf, path->slots[0],
				2406	struct btrfs_file_extent_item);
				2407	num_bytes = btrfs_file_extent_num_bytes(leaf, fi) + end -
				2408	offset;
				2409	btrfs_set_file_extent_num_bytes(leaf, fi, num_bytes);
				2410	btrfs_set_file_extent_ram_bytes(leaf, fi, num_bytes);
				2411	btrfs_set_file_extent_offset(leaf, fi, 0);
				2412	btrfs_mark_buffer_dirty(leaf);
				2413	goto out;
				2414	}
				2415	btrfs_release_path(path);
				2416
				2417	ret = btrfs_insert_file_extent(trans, root, btrfs_ino(inode),
				2418	offset, 0, 0, end - offset, 0, end - offset, 0, 0, 0);
				2419	if (ret)
				2420	return ret;
				2421
				2422	out:
				2423	btrfs_release_path(path);
				2424
				2425	hole_em = alloc_extent_map();
				2426	if (!hole_em) {
				2427	btrfs_drop_extent_cache(inode, offset, end - 1, 0);
				2428	set_bit(BTRFS_INODE_NEEDS_FULL_SYNC, &inode->runtime_flags);
				2429	} else {
				2430	hole_em->start = offset;
				2431	hole_em->len = end - offset;
				2432	hole_em->ram_bytes = hole_em->len;
				2433	hole_em->orig_start = offset;
				2434
				2435	hole_em->block_start = EXTENT_MAP_HOLE;
				2436	hole_em->block_len = 0;
				2437	hole_em->orig_block_len = 0;
				2438	hole_em->bdev = fs_info->fs_devices->latest_bdev;
				2439	hole_em->compress_type = BTRFS_COMPRESS_NONE;
				2440	hole_em->generation = trans->transid;
				2441
				2442	do {
				2443	btrfs_drop_extent_cache(inode, offset, end - 1, 0);
				2444	write_lock(&em_tree->lock);
				2445	ret = add_extent_mapping(em_tree, hole_em, 1);
				2446	write_unlock(&em_tree->lock);
				2447	} while (ret == -EEXIST);
				2448	free_extent_map(hole_em);
				2449	if (ret)
				2450	set_bit(BTRFS_INODE_NEEDS_FULL_SYNC,
				2451	&inode->runtime_flags);
				2452	}
				2453
				2454	return 0;
				2455	}
				2456
				2457	/*
				2458	* Find a hole extent on given inode and change start/len to the end of hole
				2459	* extent.(hole/vacuum extent whose em->start <= start &&
				2460	* em->start + em->len > start)
				2461	* When a hole extent is found, return 1 and modify start/len.
				2462	*/
				2463	static int find_first_non_hole(struct inode inode, u64 start, u64 *len)
				2464	{
				2465	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				2466	struct extent_map *em;
				2467	int ret = 0;
				2468
				2469	em = btrfs_get_extent(BTRFS_I(inode), NULL, 0,
				2470	round_down(*start, fs_info->sectorsize),
				2471	round_up(*len, fs_info->sectorsize), 0);
				2472	if (IS_ERR(em))
				2473	return PTR_ERR(em);
				2474
				2475	/* Hole or vacuum extent(only exists in no-hole mode) */
				2476	if (em->block_start == EXTENT_MAP_HOLE) {
				2477	ret = 1;
				2478	len = em->start + em->len > start + *len ?
				2479	0 : start + len - em->start - em->len;
				2480	*start = em->start + em->len;
				2481	}
				2482	free_extent_map(em);
				2483	return ret;
				2484	}
				2485
				2486	static int btrfs_punch_hole(struct inode *inode, loff_t offset, loff_t len)
				2487	{
				2488	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				2489	struct btrfs_root *root = BTRFS_I(inode)->root;
				2490	struct extent_state *cached_state = NULL;
				2491	struct btrfs_path *path;
				2492	struct btrfs_block_rsv *rsv;
				2493	struct btrfs_trans_handle *trans;
				2494	u64 lockstart;
				2495	u64 lockend;
				2496	u64 tail_start;
				2497	u64 tail_len;
				2498	u64 orig_start = offset;
				2499	u64 cur_offset;
				2500	u64 min_size = btrfs_calc_trans_metadata_size(fs_info, 1);
				2501	u64 drop_end;
				2502	int ret = 0;
				2503	int err = 0;
				2504	unsigned int rsv_count;
				2505	bool same_block;
				2506	bool no_holes = btrfs_fs_incompat(fs_info, NO_HOLES);
				2507	u64 ino_size;
				2508	bool truncated_block = false;
				2509	bool updated_inode = false;
				2510
				2511	ret = btrfs_wait_ordered_range(inode, offset, len);
				2512	if (ret)
				2513	return ret;
				2514
				2515	inode_lock(inode);
				2516	ino_size = round_up(inode->i_size, fs_info->sectorsize);
				2517	ret = find_first_non_hole(inode, &offset, &len);
				2518	if (ret < 0)
				2519	goto out_only_mutex;
				2520	if (ret && !len) {
				2521	/* Already in a large hole */
				2522	ret = 0;
				2523	goto out_only_mutex;
				2524	}
				2525
				2526	lockstart = round_up(offset, btrfs_inode_sectorsize(inode));
				2527	lockend = round_down(offset + len,
				2528	btrfs_inode_sectorsize(inode)) - 1;
				2529	same_block = (BTRFS_BYTES_TO_BLKS(fs_info, offset))
				2530	== (BTRFS_BYTES_TO_BLKS(fs_info, offset + len - 1));
				2531	/*
				2532	* We needn't truncate any block which is beyond the end of the file
				2533	* because we are sure there is no data there.
				2534	*/
				2535	/*
				2536	* Only do this if we are in the same block and we aren't doing the
				2537	* entire block.
				2538	*/
				2539	if (same_block && len < fs_info->sectorsize) {
				2540	if (offset < ino_size) {
				2541	truncated_block = true;
				2542	ret = btrfs_truncate_block(inode, offset, len, 0);
				2543	} else {
				2544	ret = 0;
				2545	}
				2546	goto out_only_mutex;
				2547	}
				2548
				2549	/* zero back part of the first block */
				2550	if (offset < ino_size) {
				2551	truncated_block = true;
				2552	ret = btrfs_truncate_block(inode, offset, 0, 0);
				2553	if (ret) {
				2554	inode_unlock(inode);
				2555	return ret;
				2556	}
				2557	}
				2558
				2559	/* Check the aligned pages after the first unaligned page,
				2560	* if offset != orig_start, which means the first unaligned page
				2561	* including several following pages are already in holes,
				2562	* the extra check can be skipped */
				2563	if (offset == orig_start) {
				2564	/* after truncate page, check hole again */
				2565	len = offset + len - lockstart;
				2566	offset = lockstart;
				2567	ret = find_first_non_hole(inode, &offset, &len);
				2568	if (ret < 0)
				2569	goto out_only_mutex;
				2570	if (ret && !len) {
				2571	ret = 0;
				2572	goto out_only_mutex;
				2573	}
				2574	lockstart = offset;
				2575	}
				2576
				2577	/* Check the tail unaligned part is in a hole */
				2578	tail_start = lockend + 1;
				2579	tail_len = offset + len - tail_start;
				2580	if (tail_len) {
				2581	ret = find_first_non_hole(inode, &tail_start, &tail_len);
				2582	if (unlikely(ret < 0))
				2583	goto out_only_mutex;
				2584	if (!ret) {
				2585	/* zero the front end of the last page */
				2586	if (tail_start + tail_len < ino_size) {
				2587	truncated_block = true;
				2588	ret = btrfs_truncate_block(inode,
				2589	tail_start + tail_len,
				2590	0, 1);
				2591	if (ret)
				2592	goto out_only_mutex;
				2593	}
				2594	}
				2595	}
				2596
				2597	if (lockend < lockstart) {
				2598	ret = 0;
				2599	goto out_only_mutex;
				2600	}
				2601
				2602	while (1) {
				2603	struct btrfs_ordered_extent *ordered;
				2604
				2605	truncate_pagecache_range(inode, lockstart, lockend);
				2606
				2607	lock_extent_bits(&BTRFS_I(inode)->io_tree, lockstart, lockend,
				2608	&cached_state);
				2609	ordered = btrfs_lookup_first_ordered_extent(inode, lockend);
				2610
				2611	/*
				2612	* We need to make sure we have no ordered extents in this range
				2613	* and nobody raced in and read a page in this range, if we did
				2614	* we need to try again.
				2615	*/
				2616	if ((!ordered \|\|
				2617	(ordered->file_offset + ordered->len <= lockstart \|\|
				2618	ordered->file_offset > lockend)) &&
				2619	!btrfs_page_exists_in_range(inode, lockstart, lockend)) {
				2620	if (ordered)
				2621	btrfs_put_ordered_extent(ordered);
				2622	break;
				2623	}
				2624	if (ordered)
				2625	btrfs_put_ordered_extent(ordered);
				2626	unlock_extent_cached(&BTRFS_I(inode)->io_tree, lockstart,
				2627	lockend, &cached_state, GFP_NOFS);
				2628	ret = btrfs_wait_ordered_range(inode, lockstart,
				2629	lockend - lockstart + 1);
				2630	if (ret) {
				2631	inode_unlock(inode);
				2632	return ret;
				2633	}
				2634	}
				2635
				2636	path = btrfs_alloc_path();
				2637	if (!path) {
				2638	ret = -ENOMEM;
				2639	goto out;
				2640	}
				2641
				2642	rsv = btrfs_alloc_block_rsv(fs_info, BTRFS_BLOCK_RSV_TEMP);
				2643	if (!rsv) {
				2644	ret = -ENOMEM;
				2645	goto out_free;
				2646	}
				2647	rsv->size = btrfs_calc_trans_metadata_size(fs_info, 1);
				2648	rsv->failfast = 1;
				2649
				2650	/*
				2651	* 1 - update the inode
				2652	* 1 - removing the extents in the range
				2653	* 1 - adding the hole extent if no_holes isn't set
				2654	*/
				2655	rsv_count = no_holes ? 2 : 3;
				2656	trans = btrfs_start_transaction(root, rsv_count);
				2657	if (IS_ERR(trans)) {
				2658	err = PTR_ERR(trans);
				2659	goto out_free;
				2660	}
				2661
				2662	ret = btrfs_block_rsv_migrate(&fs_info->trans_block_rsv, rsv,
				2663	min_size, 0);
				2664	BUG_ON(ret);
				2665	trans->block_rsv = rsv;
				2666
				2667	cur_offset = lockstart;
				2668	len = lockend - cur_offset;
				2669	while (cur_offset < lockend) {
				2670	ret = __btrfs_drop_extents(trans, root, inode, path,
				2671	cur_offset, lockend + 1,
				2672	&drop_end, 1, 0, 0, NULL);
				2673	if (ret != -ENOSPC)
				2674	break;
				2675
				2676	trans->block_rsv = &fs_info->trans_block_rsv;
				2677
				2678	if (cur_offset < drop_end && cur_offset < ino_size) {
				2679	ret = fill_holes(trans, BTRFS_I(inode), path,
				2680	cur_offset, drop_end);
				2681	if (ret) {
				2682	/*
				2683	* If we failed then we didn't insert our hole
				2684	* entries for the area we dropped, so now the
				2685	* fs is corrupted, so we must abort the
				2686	* transaction.
				2687	*/
				2688	btrfs_abort_transaction(trans, ret);
				2689	err = ret;
				2690	break;
				2691	}
				2692	}
				2693
				2694	cur_offset = drop_end;
				2695
				2696	ret = btrfs_update_inode(trans, root, inode);
				2697	if (ret) {
				2698	err = ret;
				2699	break;
				2700	}
				2701
				2702	btrfs_end_transaction(trans);
				2703	btrfs_btree_balance_dirty(fs_info);
				2704
				2705	trans = btrfs_start_transaction(root, rsv_count);
				2706	if (IS_ERR(trans)) {
				2707	ret = PTR_ERR(trans);
				2708	trans = NULL;
				2709	break;
				2710	}
				2711
				2712	ret = btrfs_block_rsv_migrate(&fs_info->trans_block_rsv,
				2713	rsv, min_size, 0);
				2714	BUG_ON(ret); /* shouldn't happen */
				2715	trans->block_rsv = rsv;
				2716
				2717	ret = find_first_non_hole(inode, &cur_offset, &len);
				2718	if (unlikely(ret < 0))
				2719	break;
				2720	if (ret && !len) {
				2721	ret = 0;
				2722	break;
				2723	}
				2724	}
				2725
				2726	if (ret) {
				2727	err = ret;
				2728	goto out_trans;
				2729	}
				2730
				2731	trans->block_rsv = &fs_info->trans_block_rsv;
				2732	/*
				2733	* If we are using the NO_HOLES feature we might have had already an
				2734	* hole that overlaps a part of the region [lockstart, lockend] and
				2735	* ends at (or beyond) lockend. Since we have no file extent items to
				2736	* represent holes, drop_end can be less than lockend and so we must
				2737	* make sure we have an extent map representing the existing hole (the
				2738	* call to __btrfs_drop_extents() might have dropped the existing extent
				2739	* map representing the existing hole), otherwise the fast fsync path
				2740	* will not record the existence of the hole region
				2741	* [existing_hole_start, lockend].
				2742	*/
				2743	if (drop_end <= lockend)
				2744	drop_end = lockend + 1;
				2745	/*
				2746	* Don't insert file hole extent item if it's for a range beyond eof
				2747	* (because it's useless) or if it represents a 0 bytes range (when
				2748	* cur_offset == drop_end).
				2749	*/
				2750	if (cur_offset < ino_size && cur_offset < drop_end) {
				2751	ret = fill_holes(trans, BTRFS_I(inode), path,
				2752	cur_offset, drop_end);
				2753	if (ret) {
				2754	/* Same comment as above. */
				2755	btrfs_abort_transaction(trans, ret);
				2756	err = ret;
				2757	goto out_trans;
				2758	}
				2759	}
				2760
				2761	out_trans:
				2762	if (!trans)
				2763	goto out_free;
				2764
				2765	inode_inc_iversion(inode);
				2766	inode->i_mtime = inode->i_ctime = current_time(inode);
				2767
				2768	trans->block_rsv = &fs_info->trans_block_rsv;
				2769	ret = btrfs_update_inode(trans, root, inode);
				2770	updated_inode = true;
				2771	btrfs_end_transaction(trans);
				2772	btrfs_btree_balance_dirty(fs_info);
				2773	out_free:
				2774	btrfs_free_path(path);
				2775	btrfs_free_block_rsv(fs_info, rsv);
				2776	out:
				2777	unlock_extent_cached(&BTRFS_I(inode)->io_tree, lockstart, lockend,
				2778	&cached_state, GFP_NOFS);
				2779	out_only_mutex:
				2780	if (!updated_inode && truncated_block && !ret && !err) {
				2781	/*
				2782	* If we only end up zeroing part of a page, we still need to
				2783	* update the inode item, so that all the time fields are
				2784	* updated as well as the necessary btrfs inode in memory fields
				2785	* for detecting, at fsync time, if the inode isn't yet in the
				2786	* log tree or it's there but not up to date.
				2787	*/
				2788	struct timespec now = current_time(inode);
				2789
				2790	inode_inc_iversion(inode);
				2791	inode->i_mtime = now;
				2792	inode->i_ctime = now;
				2793	trans = btrfs_start_transaction(root, 1);
				2794	if (IS_ERR(trans)) {
				2795	err = PTR_ERR(trans);
				2796	} else {
				2797	err = btrfs_update_inode(trans, root, inode);
				2798	ret = btrfs_end_transaction(trans);
				2799	}
				2800	}
				2801	inode_unlock(inode);
				2802	if (ret && !err)
				2803	err = ret;
				2804	return err;
				2805	}
				2806
				2807	/* Helper structure to record which range is already reserved */
				2808	struct falloc_range {
				2809	struct list_head list;
				2810	u64 start;
				2811	u64 len;
				2812	};
				2813
				2814	/*
				2815	* Helper function to add falloc range
				2816	*
				2817	* Caller should have locked the larger range of extent containing
				2818	* [start, len)
				2819	*/
				2820	static int add_falloc_range(struct list_head *head, u64 start, u64 len)
				2821	{
				2822	struct falloc_range *prev = NULL;
				2823	struct falloc_range *range = NULL;
				2824
				2825	if (list_empty(head))
				2826	goto insert;
				2827
				2828	/*
				2829	* As fallocate iterate by bytenr order, we only need to check
				2830	* the last range.
				2831	*/
				2832	prev = list_entry(head->prev, struct falloc_range, list);
				2833	if (prev->start + prev->len == start) {
				2834	prev->len += len;
				2835	return 0;
				2836	}
				2837	insert:
				2838	range = kmalloc(sizeof(*range), GFP_KERNEL);
				2839	if (!range)
				2840	return -ENOMEM;
				2841	range->start = start;
				2842	range->len = len;
				2843	list_add_tail(&range->list, head);
				2844	return 0;
				2845	}
				2846
				2847	static long btrfs_fallocate(struct file *file, int mode,
				2848	loff_t offset, loff_t len)
				2849	{
				2850	struct inode *inode = file_inode(file);
				2851	struct extent_state *cached_state = NULL;
				2852	struct extent_changeset *data_reserved = NULL;
				2853	struct falloc_range *range;
				2854	struct falloc_range *tmp;
				2855	struct list_head reserve_list;
				2856	u64 cur_offset;
				2857	u64 last_byte;
				2858	u64 alloc_start;
				2859	u64 alloc_end;
				2860	u64 alloc_hint = 0;
				2861	u64 locked_end;
				2862	u64 actual_end = 0;
				2863	struct extent_map *em;
				2864	int blocksize = btrfs_inode_sectorsize(inode);
				2865	int ret;
				2866
				2867	alloc_start = round_down(offset, blocksize);
				2868	alloc_end = round_up(offset + len, blocksize);
				2869	cur_offset = alloc_start;
				2870
				2871	/* Make sure we aren't being give some crap mode */
				2872	if (mode & ~(FALLOC_FL_KEEP_SIZE \| FALLOC_FL_PUNCH_HOLE))
				2873	return -EOPNOTSUPP;
				2874
				2875	if (mode & FALLOC_FL_PUNCH_HOLE)
				2876	return btrfs_punch_hole(inode, offset, len);
				2877
				2878	/*
				2879	* Only trigger disk allocation, don't trigger qgroup reserve
				2880	*
				2881	* For qgroup space, it will be checked later.
				2882	*/
				2883	ret = btrfs_alloc_data_chunk_ondemand(BTRFS_I(inode),
				2884	alloc_end - alloc_start);
				2885	if (ret < 0)
				2886	return ret;
				2887
				2888	inode_lock(inode);
				2889
				2890	if (!(mode & FALLOC_FL_KEEP_SIZE) && offset + len > inode->i_size) {
				2891	ret = inode_newsize_ok(inode, offset + len);
				2892	if (ret)
				2893	goto out;
				2894	}
				2895
				2896	/*
				2897	* TODO: Move these two operations after we have checked
				2898	* accurate reserved space, or fallocate can still fail but
				2899	* with page truncated or size expanded.
				2900	*
				2901	* But that's a minor problem and won't do much harm BTW.
				2902	*/
				2903	if (alloc_start > inode->i_size) {
				2904	ret = btrfs_cont_expand(inode, i_size_read(inode),
				2905	alloc_start);
				2906	if (ret)
				2907	goto out;
				2908	} else if (offset + len > inode->i_size) {
				2909	/*
				2910	* If we are fallocating from the end of the file onward we
				2911	* need to zero out the end of the block if i_size lands in the
				2912	* middle of a block.
				2913	*/
				2914	ret = btrfs_truncate_block(inode, inode->i_size, 0, 0);
				2915	if (ret)
				2916	goto out;
				2917	}
				2918
				2919	/*
				2920	* wait for ordered IO before we have any locks. We'll loop again
				2921	* below with the locks held.
				2922	*/
				2923	ret = btrfs_wait_ordered_range(inode, alloc_start,
				2924	alloc_end - alloc_start);
				2925	if (ret)
				2926	goto out;
				2927
				2928	locked_end = alloc_end - 1;
				2929	while (1) {
				2930	struct btrfs_ordered_extent *ordered;
				2931
				2932	/* the extent lock is ordered inside the running
				2933	* transaction
				2934	*/
				2935	lock_extent_bits(&BTRFS_I(inode)->io_tree, alloc_start,
				2936	locked_end, &cached_state);
				2937	ordered = btrfs_lookup_first_ordered_extent(inode,
				2938	alloc_end - 1);
				2939	if (ordered &&
				2940	ordered->file_offset + ordered->len > alloc_start &&
				2941	ordered->file_offset < alloc_end) {
				2942	btrfs_put_ordered_extent(ordered);
				2943	unlock_extent_cached(&BTRFS_I(inode)->io_tree,
				2944	alloc_start, locked_end,
				2945	&cached_state, GFP_KERNEL);
				2946	/*
				2947	* we can't wait on the range with the transaction
				2948	* running or with the extent lock held
				2949	*/
				2950	ret = btrfs_wait_ordered_range(inode, alloc_start,
				2951	alloc_end - alloc_start);
				2952	if (ret)
				2953	goto out;
				2954	} else {
				2955	if (ordered)
				2956	btrfs_put_ordered_extent(ordered);
				2957	break;
				2958	}
				2959	}
				2960
				2961	/* First, check if we exceed the qgroup limit */
				2962	INIT_LIST_HEAD(&reserve_list);
				2963	while (1) {
				2964	em = btrfs_get_extent(BTRFS_I(inode), NULL, 0, cur_offset,
				2965	alloc_end - cur_offset, 0);
				2966	if (IS_ERR(em)) {
				2967	ret = PTR_ERR(em);
				2968	break;
				2969	}
				2970	last_byte = min(extent_map_end(em), alloc_end);
				2971	actual_end = min_t(u64, extent_map_end(em), offset + len);
				2972	last_byte = ALIGN(last_byte, blocksize);
				2973	if (em->block_start == EXTENT_MAP_HOLE \|\|
				2974	(cur_offset >= inode->i_size &&
				2975	!test_bit(EXTENT_FLAG_PREALLOC, &em->flags))) {
				2976	ret = add_falloc_range(&reserve_list, cur_offset,
				2977	last_byte - cur_offset);
				2978	if (ret < 0) {
				2979	free_extent_map(em);
				2980	break;
				2981	}
				2982	ret = btrfs_qgroup_reserve_data(inode, &data_reserved,
				2983	cur_offset, last_byte - cur_offset);
				2984	if (ret < 0) {
				2985	cur_offset = last_byte;
				2986	free_extent_map(em);
				2987	break;
				2988	}
				2989	} else {
				2990	/*
				2991	* Do not need to reserve unwritten extent for this
				2992	* range, free reserved data space first, otherwise
				2993	* it'll result in false ENOSPC error.
				2994	*/
				2995	btrfs_free_reserved_data_space(inode, data_reserved,
				2996	cur_offset, last_byte - cur_offset);
				2997	}
				2998	free_extent_map(em);
				2999	cur_offset = last_byte;
				3000	if (cur_offset >= alloc_end)
				3001	break;
				3002	}
				3003
				3004	/*
				3005	* If ret is still 0, means we're OK to fallocate.
				3006	* Or just cleanup the list and exit.
				3007	*/
				3008	list_for_each_entry_safe(range, tmp, &reserve_list, list) {
				3009	if (!ret)
				3010	ret = btrfs_prealloc_file_range(inode, mode,
				3011	range->start,
				3012	range->len, i_blocksize(inode),
				3013	offset + len, &alloc_hint);
				3014	else
				3015	btrfs_free_reserved_data_space(inode,
				3016	data_reserved, range->start,
				3017	range->len);
				3018	list_del(&range->list);
				3019	kfree(range);
				3020	}
				3021	if (ret < 0)
				3022	goto out_unlock;
				3023
				3024	if (actual_end > inode->i_size &&
				3025	!(mode & FALLOC_FL_KEEP_SIZE)) {
				3026	struct btrfs_trans_handle *trans;
				3027	struct btrfs_root *root = BTRFS_I(inode)->root;
				3028
				3029	/*
				3030	* We didn't need to allocate any more space, but we
				3031	* still extended the size of the file so we need to
				3032	* update i_size and the inode item.
				3033	*/
				3034	trans = btrfs_start_transaction(root, 1);
				3035	if (IS_ERR(trans)) {
				3036	ret = PTR_ERR(trans);
				3037	} else {
				3038	inode->i_ctime = current_time(inode);
				3039	i_size_write(inode, actual_end);
				3040	btrfs_ordered_update_i_size(inode, actual_end, NULL);
				3041	ret = btrfs_update_inode(trans, root, inode);
				3042	if (ret)
				3043	btrfs_end_transaction(trans);
				3044	else
				3045	ret = btrfs_end_transaction(trans);
				3046	}
				3047	}
				3048	out_unlock:
				3049	unlock_extent_cached(&BTRFS_I(inode)->io_tree, alloc_start, locked_end,
				3050	&cached_state, GFP_KERNEL);
				3051	out:
				3052	inode_unlock(inode);
				3053	/* Let go of our reservation. */
				3054	if (ret != 0)
				3055	btrfs_free_reserved_data_space(inode, data_reserved,
				3056	cur_offset, alloc_end - cur_offset);
				3057	extent_changeset_free(data_reserved);
				3058	return ret;
				3059	}
				3060
				3061	static int find_desired_extent(struct inode inode, loff_t offset, int whence)
				3062	{
				3063	struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
				3064	struct extent_map *em = NULL;
				3065	struct extent_state *cached_state = NULL;
				3066	u64 lockstart;
				3067	u64 lockend;
				3068	u64 start;
				3069	u64 len;
				3070	int ret = 0;
				3071
				3072	if (inode->i_size == 0)
				3073	return -ENXIO;
				3074
				3075	/*
				3076	* *offset can be negative, in this case we start finding DATA/HOLE from
				3077	* the very start of the file.
				3078	*/
				3079	start = max_t(loff_t, 0, *offset);
				3080
				3081	lockstart = round_down(start, fs_info->sectorsize);
				3082	lockend = round_up(i_size_read(inode),
				3083	fs_info->sectorsize);
				3084	if (lockend <= lockstart)
				3085	lockend = lockstart + fs_info->sectorsize;
				3086	lockend--;
				3087	len = lockend - lockstart + 1;
				3088
				3089	lock_extent_bits(&BTRFS_I(inode)->io_tree, lockstart, lockend,
				3090	&cached_state);
				3091
				3092	while (start < inode->i_size) {
				3093	em = btrfs_get_extent_fiemap(BTRFS_I(inode), NULL, 0,
				3094	start, len, 0);
				3095	if (IS_ERR(em)) {
				3096	ret = PTR_ERR(em);
				3097	em = NULL;
				3098	break;
				3099	}
				3100
				3101	if (whence == SEEK_HOLE &&
				3102	(em->block_start == EXTENT_MAP_HOLE \|\|
				3103	test_bit(EXTENT_FLAG_PREALLOC, &em->flags)))
				3104	break;
				3105	else if (whence == SEEK_DATA &&
				3106	(em->block_start != EXTENT_MAP_HOLE &&
				3107	!test_bit(EXTENT_FLAG_PREALLOC, &em->flags)))
				3108	break;
				3109
				3110	start = em->start + em->len;
				3111	free_extent_map(em);
				3112	em = NULL;
				3113	cond_resched();
				3114	}
				3115	free_extent_map(em);
				3116	if (!ret) {
				3117	if (whence == SEEK_DATA && start >= inode->i_size)
				3118	ret = -ENXIO;
				3119	else
				3120	*offset = min_t(loff_t, start, inode->i_size);
				3121	}
				3122	unlock_extent_cached(&BTRFS_I(inode)->io_tree, lockstart, lockend,
				3123	&cached_state, GFP_NOFS);
				3124	return ret;
				3125	}
				3126
				3127	static loff_t btrfs_file_llseek(struct file *file, loff_t offset, int whence)
				3128	{
				3129	struct inode *inode = file->f_mapping->host;
				3130	int ret;
				3131
				3132	inode_lock(inode);
				3133	switch (whence) {
				3134	case SEEK_END:
				3135	case SEEK_CUR:
				3136	offset = generic_file_llseek(file, offset, whence);
				3137	goto out;
				3138	case SEEK_DATA:
				3139	case SEEK_HOLE:
				3140	if (offset >= i_size_read(inode)) {
				3141	inode_unlock(inode);
				3142	return -ENXIO;
				3143	}
				3144
				3145	ret = find_desired_extent(inode, &offset, whence);
				3146	if (ret) {
				3147	inode_unlock(inode);
				3148	return ret;
				3149	}
				3150	}
				3151
				3152	offset = vfs_setpos(file, offset, inode->i_sb->s_maxbytes);
				3153	out:
				3154	inode_unlock(inode);
				3155	return offset;
				3156	}
				3157
				3158	static int btrfs_file_open(struct inode inode, struct file filp)
				3159	{
				3160	filp->f_mode \|= FMODE_NOWAIT;
				3161	return generic_file_open(inode, filp);
				3162	}
				3163
				3164	const struct file_operations btrfs_file_operations = {
				3165	.llseek = btrfs_file_llseek,
				3166	.read_iter = generic_file_read_iter,
				3167	.splice_read = generic_file_splice_read,
				3168	.write_iter = btrfs_file_write_iter,
				3169	.mmap = btrfs_file_mmap,
				3170	.open = btrfs_file_open,
				3171	.release = btrfs_release_file,
				3172	.fsync = btrfs_sync_file,
				3173	.fallocate = btrfs_fallocate,
				3174	.unlocked_ioctl = btrfs_ioctl,
				3175	#ifdef CONFIG_COMPAT
				3176	.compat_ioctl = btrfs_compat_ioctl,
				3177	#endif
				3178	.clone_file_range = btrfs_clone_file_range,
				3179	.dedupe_file_range = btrfs_dedupe_file_range,
				3180	};
				3181
				3182	void btrfs_auto_defrag_exit(void)
				3183	{
				3184	kmem_cache_destroy(btrfs_inode_defrag_cachep);
				3185	}
				3186
				3187	int btrfs_auto_defrag_init(void)
				3188	{
				3189	btrfs_inode_defrag_cachep = kmem_cache_create("btrfs_inode_defrag",
				3190	sizeof(struct inode_defrag), 0,
				3191	SLAB_MEM_SPREAD,
				3192	NULL);
				3193	if (!btrfs_inode_defrag_cachep)
				3194	return -ENOMEM;
				3195
				3196	return 0;
				3197	}
				3198
				3199	int btrfs_fdatawrite_range(struct inode *inode, loff_t start, loff_t end)
				3200	{
				3201	int ret;
				3202
				3203	/*
				3204	* So with compression we will find and lock a dirty page and clear the
				3205	* first one as dirty, setup an async extent, and immediately return
				3206	* with the entire range locked but with nobody actually marked with
				3207	* writeback. So we can't just filemap_write_and_wait_range() and
				3208	* expect it to work since it will just kick off a thread to do the
				3209	* actual work. So we need to call filemap_fdatawrite_range _again_
				3210	* since it will wait on the page lock, which won't be unlocked until
				3211	* after the pages have been marked as writeback and so we're good to go
				3212	* from there. We have to do this otherwise we'll miss the ordered
				3213	* extents and that results in badness. Please Josef, do not think you
				3214	* know better and pull this out at some point in the future, it is
				3215	* right and you are wrong.
				3216	*/
				3217	ret = filemap_fdatawrite_range(inode->i_mapping, start, end);
				3218	if (!ret && test_bit(BTRFS_INODE_HAS_ASYNC_EXTENT,
				3219	&BTRFS_I(inode)->runtime_flags))
				3220	ret = filemap_fdatawrite_range(inode->i_mapping, start, end);
				3221
				3222	return ret;
				3223	}