Blame - src/kernel/linux/v4.14/drivers/md/md.c - T103

blob: 223e1f5e5e23b61863fca6899bc320bae0f4036d [file] [log] [blame]

rjw	1f88458	2022-01-06 17:20:42 +0800	[diff] [blame^]	1	/*
				2	md.c : Multiple Devices driver for Linux
				3	Copyright (C) 1998, 1999, 2000 Ingo Molnar
				4
				5	completely rewritten, based on the MD driver code from Marc Zyngier
				6
				7	Changes:
				8
				9	- RAID-1/RAID-5 extensions by Miguel de Icaza, Gadi Oxman, Ingo Molnar
				10	- RAID-6 extensions by H. Peter Anvin <hpa@zytor.com>
				11	- boot support for linear and striped mode by Harald Hoyer <HarryH@Royal.Net>
				12	- kerneld support by Boris Tobotras <boris@xtalk.msk.su>
				13	- kmod support by: Cyrus Durgin
				14	- RAID0 bugfixes: Mark Anthony Lisher <markal@iname.com>
				15	- Devfs support by Richard Gooch <rgooch@atnf.csiro.au>
				16
				17	- lots of fixes and improvements to the RAID1/RAID5 and generic
				18	RAID code (such as request based resynchronization):
				19
				20	Neil Brown <neilb@cse.unsw.edu.au>.
				21
				22	- persistent bitmap code
				23	Copyright (C) 2003-2004, Paul Clements, SteelEye Technology, Inc.
				24
				25	This program is free software; you can redistribute it and/or modify
				26	it under the terms of the GNU General Public License as published by
				27	the Free Software Foundation; either version 2, or (at your option)
				28	any later version.
				29
				30	You should have received a copy of the GNU General Public License
				31	(for example /usr/src/linux/COPYING); if not, write to the Free
				32	Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
				33
				34	Errors, Warnings, etc.
				35	Please use:
				36	pr_crit() for error conditions that risk data loss
				37	pr_err() for error conditions that are unexpected, like an IO error
				38	or internal inconsistency
				39	pr_warn() for error conditions that could have been predicated, like
				40	adding a device to an array when it has incompatible metadata
				41	pr_info() for every interesting, very rare events, like an array starting
				42	or stopping, or resync starting or stopping
				43	pr_debug() for everything else.
				44
				45	*/
				46
				47	#include <linux/sched/signal.h>
				48	#include <linux/kthread.h>
				49	#include <linux/blkdev.h>
				50	#include <linux/badblocks.h>
				51	#include <linux/sysctl.h>
				52	#include <linux/seq_file.h>
				53	#include <linux/fs.h>
				54	#include <linux/poll.h>
				55	#include <linux/ctype.h>
				56	#include <linux/string.h>
				57	#include <linux/hdreg.h>
				58	#include <linux/proc_fs.h>
				59	#include <linux/random.h>
				60	#include <linux/module.h>
				61	#include <linux/reboot.h>
				62	#include <linux/file.h>
				63	#include <linux/compat.h>
				64	#include <linux/delay.h>
				65	#include <linux/raid/md_p.h>
				66	#include <linux/raid/md_u.h>
				67	#include <linux/slab.h>
				68	#include <linux/percpu-refcount.h>
				69
				70	#include <trace/events/block.h>
				71	#include "md.h"
				72	#include "bitmap.h"
				73	#include "md-cluster.h"
				74
				75	#ifndef MODULE
				76	static void autostart_arrays(int part);
				77	#endif
				78
				79	/* pers_list is a list of registered personalities protected
				80	* by pers_lock.
				81	* pers_lock does extra service to protect accesses to
				82	* mddev->thread when the mutex cannot be held.
				83	*/
				84	static LIST_HEAD(pers_list);
				85	static DEFINE_SPINLOCK(pers_lock);
				86
				87	struct md_cluster_operations *md_cluster_ops;
				88	EXPORT_SYMBOL(md_cluster_ops);
				89	struct module *md_cluster_mod;
				90	EXPORT_SYMBOL(md_cluster_mod);
				91
				92	static DECLARE_WAIT_QUEUE_HEAD(resync_wait);
				93	static struct workqueue_struct *md_wq;
				94	static struct workqueue_struct *md_misc_wq;
				95
				96	static int remove_and_add_spares(struct mddev *mddev,
				97	struct md_rdev *this);
				98	static void mddev_detach(struct mddev *mddev);
				99
				100	/*
				101	* Default number of read corrections we'll attempt on an rdev
				102	* before ejecting it from the array. We divide the read error
				103	* count by 2 for every hour elapsed between read errors.
				104	*/
				105	#define MD_DEFAULT_MAX_CORRECTED_READ_ERRORS 20
				106	/*
				107	* Current RAID-1,4,5 parallel reconstruction 'guaranteed speed limit'
				108	* is 1000 KB/sec, so the extra system load does not show up that much.
				109	* Increase it if you want to have more _guaranteed_ speed. Note that
				110	* the RAID driver will use the maximum available bandwidth if the IO
				111	* subsystem is idle. There is also an 'absolute maximum' reconstruction
				112	* speed limit - in case reconstruction slows down your system despite
				113	* idle IO detection.
				114	*
				115	* you can change it via /proc/sys/dev/raid/speed_limit_min and _max.
				116	* or /sys/block/mdX/md/sync_speed_{min,max}
				117	*/
				118
				119	static int sysctl_speed_limit_min = 1000;
				120	static int sysctl_speed_limit_max = 200000;
				121	static inline int speed_min(struct mddev *mddev)
				122	{
				123	return mddev->sync_speed_min ?
				124	mddev->sync_speed_min : sysctl_speed_limit_min;
				125	}
				126
				127	static inline int speed_max(struct mddev *mddev)
				128	{
				129	return mddev->sync_speed_max ?
				130	mddev->sync_speed_max : sysctl_speed_limit_max;
				131	}
				132
				133	static struct ctl_table_header *raid_table_header;
				134
				135	static struct ctl_table raid_table[] = {
				136	{
				137	.procname = "speed_limit_min",
				138	.data = &sysctl_speed_limit_min,
				139	.maxlen = sizeof(int),
				140	.mode = S_IRUGO\|S_IWUSR,
				141	.proc_handler = proc_dointvec,
				142	},
				143	{
				144	.procname = "speed_limit_max",
				145	.data = &sysctl_speed_limit_max,
				146	.maxlen = sizeof(int),
				147	.mode = S_IRUGO\|S_IWUSR,
				148	.proc_handler = proc_dointvec,
				149	},
				150	{ }
				151	};
				152
				153	static struct ctl_table raid_dir_table[] = {
				154	{
				155	.procname = "raid",
				156	.maxlen = 0,
				157	.mode = S_IRUGO\|S_IXUGO,
				158	.child = raid_table,
				159	},
				160	{ }
				161	};
				162
				163	static struct ctl_table raid_root_table[] = {
				164	{
				165	.procname = "dev",
				166	.maxlen = 0,
				167	.mode = 0555,
				168	.child = raid_dir_table,
				169	},
				170	{ }
				171	};
				172
				173	static const struct block_device_operations md_fops;
				174
				175	static int start_readonly;
				176
				177	/*
				178	* The original mechanism for creating an md device is to create
				179	* a device node in /dev and to open it. This causes races with device-close.
				180	* The preferred method is to write to the "new_array" module parameter.
				181	* This can avoid races.
				182	* Setting create_on_open to false disables the original mechanism
				183	* so all the races disappear.
				184	*/
				185	static bool create_on_open = true;
				186
				187	/* bio_clone_mddev
				188	* like bio_clone_bioset, but with a local bio set
				189	*/
				190
				191	struct bio *bio_alloc_mddev(gfp_t gfp_mask, int nr_iovecs,
				192	struct mddev *mddev)
				193	{
				194	struct bio *b;
				195
				196	if (!mddev \|\| !mddev->bio_set)
				197	return bio_alloc(gfp_mask, nr_iovecs);
				198
				199	b = bio_alloc_bioset(gfp_mask, nr_iovecs, mddev->bio_set);
				200	if (!b)
				201	return NULL;
				202	return b;
				203	}
				204	EXPORT_SYMBOL_GPL(bio_alloc_mddev);
				205
				206	static struct bio md_bio_alloc_sync(struct mddev mddev)
				207	{
				208	if (!mddev \|\| !mddev->sync_set)
				209	return bio_alloc(GFP_NOIO, 1);
				210
				211	return bio_alloc_bioset(GFP_NOIO, 1, mddev->sync_set);
				212	}
				213
				214	/*
				215	* We have a system wide 'event count' that is incremented
				216	* on any 'interesting' event, and readers of /proc/mdstat
				217	* can use 'poll' or 'select' to find out when the event
				218	* count increases.
				219	*
				220	* Events are:
				221	* start array, stop array, error, add device, remove device,
				222	* start build, activate spare
				223	*/
				224	static DECLARE_WAIT_QUEUE_HEAD(md_event_waiters);
				225	static atomic_t md_event_count;
				226	void md_new_event(struct mddev *mddev)
				227	{
				228	atomic_inc(&md_event_count);
				229	wake_up(&md_event_waiters);
				230	}
				231	EXPORT_SYMBOL_GPL(md_new_event);
				232
				233	/*
				234	* Enables to iterate over all existing md arrays
				235	* all_mddevs_lock protects this list.
				236	*/
				237	static LIST_HEAD(all_mddevs);
				238	static DEFINE_SPINLOCK(all_mddevs_lock);
				239
				240	/*
				241	* iterates through all used mddevs in the system.
				242	* We take care to grab the all_mddevs_lock whenever navigating
				243	* the list, and to always hold a refcount when unlocked.
				244	* Any code which breaks out of this loop while own
				245	* a reference to the current mddev and must mddev_put it.
				246	*/
				247	#define for_each_mddev(_mddev,_tmp) \
				248	\
				249	for (({ spin_lock(&all_mddevs_lock); \
				250	_tmp = all_mddevs.next; \
				251	_mddev = NULL;}); \
				252	({ if (_tmp != &all_mddevs) \
				253	mddev_get(list_entry(_tmp, struct mddev, all_mddevs));\
				254	spin_unlock(&all_mddevs_lock); \
				255	if (_mddev) mddev_put(_mddev); \
				256	_mddev = list_entry(_tmp, struct mddev, all_mddevs); \
				257	_tmp != &all_mddevs;}); \
				258	({ spin_lock(&all_mddevs_lock); \
				259	_tmp = _tmp->next;}) \
				260	)
				261
				262	/* Rather than calling directly into the personality make_request function,
				263	* IO requests come here first so that we can check if the device is
				264	* being suspended pending a reconfiguration.
				265	* We hold a refcount over the call to ->make_request. By the time that
				266	* call has finished, the bio has been linked into some internal structure
				267	* and so is visible to ->quiesce(), so we don't need the refcount any more.
				268	*/
				269	static bool is_suspended(struct mddev mddev, struct bio bio)
				270	{
				271	if (mddev->suspended)
				272	return true;
				273	if (bio_data_dir(bio) != WRITE)
				274	return false;
				275	if (mddev->suspend_lo >= mddev->suspend_hi)
				276	return false;
				277	if (bio->bi_iter.bi_sector >= mddev->suspend_hi)
				278	return false;
				279	if (bio_end_sector(bio) < mddev->suspend_lo)
				280	return false;
				281	return true;
				282	}
				283
				284	void md_handle_request(struct mddev mddev, struct bio bio)
				285	{
				286	check_suspended:
				287	rcu_read_lock();
				288	if (is_suspended(mddev, bio)) {
				289	DEFINE_WAIT(__wait);
				290	for (;;) {
				291	prepare_to_wait(&mddev->sb_wait, &__wait,
				292	TASK_UNINTERRUPTIBLE);
				293	if (!is_suspended(mddev, bio))
				294	break;
				295	rcu_read_unlock();
				296	schedule();
				297	rcu_read_lock();
				298	}
				299	finish_wait(&mddev->sb_wait, &__wait);
				300	}
				301	atomic_inc(&mddev->active_io);
				302	rcu_read_unlock();
				303
				304	if (!mddev->pers->make_request(mddev, bio)) {
				305	atomic_dec(&mddev->active_io);
				306	wake_up(&mddev->sb_wait);
				307	goto check_suspended;
				308	}
				309
				310	if (atomic_dec_and_test(&mddev->active_io) && mddev->suspended)
				311	wake_up(&mddev->sb_wait);
				312	}
				313	EXPORT_SYMBOL(md_handle_request);
				314
				315	static blk_qc_t md_make_request(struct request_queue q, struct bio bio)
				316	{
				317	const int rw = bio_data_dir(bio);
				318	struct mddev *mddev = q->queuedata;
				319	unsigned int sectors;
				320	int cpu;
				321
				322	blk_queue_split(q, &bio);
				323
				324	if (mddev == NULL \|\| mddev->pers == NULL) {
				325	bio_io_error(bio);
				326	return BLK_QC_T_NONE;
				327	}
				328	if (mddev->ro == 1 && unlikely(rw == WRITE)) {
				329	if (bio_sectors(bio) != 0)
				330	bio->bi_status = BLK_STS_IOERR;
				331	bio_endio(bio);
				332	return BLK_QC_T_NONE;
				333	}
				334
				335	/*
				336	* save the sectors now since our bio can
				337	* go away inside make_request
				338	*/
				339	sectors = bio_sectors(bio);
				340	/* bio could be mergeable after passing to underlayer */
				341	bio->bi_opf &= ~REQ_NOMERGE;
				342
				343	md_handle_request(mddev, bio);
				344
				345	cpu = part_stat_lock();
				346	part_stat_inc(cpu, &mddev->gendisk->part0, ios[rw]);
				347	part_stat_add(cpu, &mddev->gendisk->part0, sectors[rw], sectors);
				348	part_stat_unlock();
				349
				350	return BLK_QC_T_NONE;
				351	}
				352
				353	/* mddev_suspend makes sure no new requests are submitted
				354	* to the device, and that any requests that have been submitted
				355	* are completely handled.
				356	* Once mddev_detach() is called and completes, the module will be
				357	* completely unused.
				358	*/
				359	void mddev_suspend(struct mddev *mddev)
				360	{
				361	WARN_ON_ONCE(mddev->thread && current == mddev->thread->tsk);
				362	lockdep_assert_held(&mddev->reconfig_mutex);
				363	if (mddev->suspended++)
				364	return;
				365	synchronize_rcu();
				366	wake_up(&mddev->sb_wait);
				367	set_bit(MD_ALLOW_SB_UPDATE, &mddev->flags);
				368	smp_mb__after_atomic();
				369	wait_event(mddev->sb_wait, atomic_read(&mddev->active_io) == 0);
				370	mddev->pers->quiesce(mddev, 1);
				371	clear_bit_unlock(MD_ALLOW_SB_UPDATE, &mddev->flags);
				372	wait_event(mddev->sb_wait, !test_bit(MD_UPDATING_SB, &mddev->flags));
				373
				374	del_timer_sync(&mddev->safemode_timer);
				375	}
				376	EXPORT_SYMBOL_GPL(mddev_suspend);
				377
				378	void mddev_resume(struct mddev *mddev)
				379	{
				380	lockdep_assert_held(&mddev->reconfig_mutex);
				381	if (--mddev->suspended)
				382	return;
				383	wake_up(&mddev->sb_wait);
				384	mddev->pers->quiesce(mddev, 0);
				385
				386	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				387	md_wakeup_thread(mddev->thread);
				388	md_wakeup_thread(mddev->sync_thread); /* possibly kick off a reshape */
				389	}
				390	EXPORT_SYMBOL_GPL(mddev_resume);
				391
				392	int mddev_congested(struct mddev *mddev, int bits)
				393	{
				394	struct md_personality *pers = mddev->pers;
				395	int ret = 0;
				396
				397	rcu_read_lock();
				398	if (mddev->suspended)
				399	ret = 1;
				400	else if (pers && pers->congested)
				401	ret = pers->congested(mddev, bits);
				402	rcu_read_unlock();
				403	return ret;
				404	}
				405	EXPORT_SYMBOL_GPL(mddev_congested);
				406	static int md_congested(void *data, int bits)
				407	{
				408	struct mddev *mddev = data;
				409	return mddev_congested(mddev, bits);
				410	}
				411
				412	/*
				413	* Generic flush handling for md
				414	*/
				415
				416	static void md_end_flush(struct bio *bio)
				417	{
				418	struct md_rdev *rdev = bio->bi_private;
				419	struct mddev *mddev = rdev->mddev;
				420
				421	rdev_dec_pending(rdev, mddev);
				422
				423	if (atomic_dec_and_test(&mddev->flush_pending)) {
				424	/* The pre-request flush has finished */
				425	queue_work(md_wq, &mddev->flush_work);
				426	}
				427	bio_put(bio);
				428	}
				429
				430	static void md_submit_flush_data(struct work_struct *ws);
				431
				432	static void submit_flushes(struct work_struct *ws)
				433	{
				434	struct mddev *mddev = container_of(ws, struct mddev, flush_work);
				435	struct md_rdev *rdev;
				436
				437	INIT_WORK(&mddev->flush_work, md_submit_flush_data);
				438	atomic_set(&mddev->flush_pending, 1);
				439	rcu_read_lock();
				440	rdev_for_each_rcu(rdev, mddev)
				441	if (rdev->raid_disk >= 0 &&
				442	!test_bit(Faulty, &rdev->flags)) {
				443	/* Take two references, one is dropped
				444	* when request finishes, one after
				445	* we reclaim rcu_read_lock
				446	*/
				447	struct bio *bi;
				448	atomic_inc(&rdev->nr_pending);
				449	atomic_inc(&rdev->nr_pending);
				450	rcu_read_unlock();
				451	bi = bio_alloc_mddev(GFP_NOIO, 0, mddev);
				452	bi->bi_end_io = md_end_flush;
				453	bi->bi_private = rdev;
				454	bio_set_dev(bi, rdev->bdev);
				455	bi->bi_opf = REQ_OP_WRITE \| REQ_PREFLUSH;
				456	atomic_inc(&mddev->flush_pending);
				457	submit_bio(bi);
				458	rcu_read_lock();
				459	rdev_dec_pending(rdev, mddev);
				460	}
				461	rcu_read_unlock();
				462	if (atomic_dec_and_test(&mddev->flush_pending))
				463	queue_work(md_wq, &mddev->flush_work);
				464	}
				465
				466	static void md_submit_flush_data(struct work_struct *ws)
				467	{
				468	struct mddev *mddev = container_of(ws, struct mddev, flush_work);
				469	struct bio *bio = mddev->flush_bio;
				470
				471	/*
				472	* must reset flush_bio before calling into md_handle_request to avoid a
				473	* deadlock, because other bios passed md_handle_request suspend check
				474	* could wait for this and below md_handle_request could wait for those
				475	* bios because of suspend check
				476	*/
				477	mddev->flush_bio = NULL;
				478	wake_up(&mddev->sb_wait);
				479
				480	if (bio->bi_iter.bi_size == 0)
				481	/* an empty barrier - all done */
				482	bio_endio(bio);
				483	else {
				484	bio->bi_opf &= ~REQ_PREFLUSH;
				485	md_handle_request(mddev, bio);
				486	}
				487	}
				488
				489	void md_flush_request(struct mddev mddev, struct bio bio)
				490	{
				491	spin_lock_irq(&mddev->lock);
				492	wait_event_lock_irq(mddev->sb_wait,
				493	!mddev->flush_bio,
				494	mddev->lock);
				495	mddev->flush_bio = bio;
				496	spin_unlock_irq(&mddev->lock);
				497
				498	INIT_WORK(&mddev->flush_work, submit_flushes);
				499	queue_work(md_wq, &mddev->flush_work);
				500	}
				501	EXPORT_SYMBOL(md_flush_request);
				502
				503	static inline struct mddev mddev_get(struct mddev mddev)
				504	{
				505	atomic_inc(&mddev->active);
				506	return mddev;
				507	}
				508
				509	static void mddev_delayed_delete(struct work_struct *ws);
				510
				511	static void mddev_put(struct mddev *mddev)
				512	{
				513	struct bio_set bs = NULL, sync_bs = NULL;
				514
				515	if (!atomic_dec_and_lock(&mddev->active, &all_mddevs_lock))
				516	return;
				517	if (!mddev->raid_disks && list_empty(&mddev->disks) &&
				518	mddev->ctime == 0 && !mddev->hold_active) {
				519	/* Array is not configured at all, and not held active,
				520	* so destroy it */
				521	list_del_init(&mddev->all_mddevs);
				522	bs = mddev->bio_set;
				523	sync_bs = mddev->sync_set;
				524	mddev->bio_set = NULL;
				525	mddev->sync_set = NULL;
				526	if (mddev->gendisk) {
				527	/* We did a probe so need to clean up. Call
				528	* queue_work inside the spinlock so that
				529	* flush_workqueue() after mddev_find will
				530	* succeed in waiting for the work to be done.
				531	*/
				532	INIT_WORK(&mddev->del_work, mddev_delayed_delete);
				533	queue_work(md_misc_wq, &mddev->del_work);
				534	} else
				535	kfree(mddev);
				536	}
				537	spin_unlock(&all_mddevs_lock);
				538	if (bs)
				539	bioset_free(bs);
				540	if (sync_bs)
				541	bioset_free(sync_bs);
				542	}
				543
				544	static void md_safemode_timeout(unsigned long data);
				545
				546	void mddev_init(struct mddev *mddev)
				547	{
				548	mutex_init(&mddev->open_mutex);
				549	mutex_init(&mddev->reconfig_mutex);
				550	mutex_init(&mddev->bitmap_info.mutex);
				551	INIT_LIST_HEAD(&mddev->disks);
				552	INIT_LIST_HEAD(&mddev->all_mddevs);
				553	setup_timer(&mddev->safemode_timer, md_safemode_timeout,
				554	(unsigned long) mddev);
				555	atomic_set(&mddev->active, 1);
				556	atomic_set(&mddev->openers, 0);
				557	atomic_set(&mddev->active_io, 0);
				558	spin_lock_init(&mddev->lock);
				559	atomic_set(&mddev->flush_pending, 0);
				560	init_waitqueue_head(&mddev->sb_wait);
				561	init_waitqueue_head(&mddev->recovery_wait);
				562	mddev->reshape_position = MaxSector;
				563	mddev->reshape_backwards = 0;
				564	mddev->last_sync_action = "none";
				565	mddev->resync_min = 0;
				566	mddev->resync_max = MaxSector;
				567	mddev->level = LEVEL_NONE;
				568	}
				569	EXPORT_SYMBOL_GPL(mddev_init);
				570
				571	static struct mddev *mddev_find(dev_t unit)
				572	{
				573	struct mddev mddev, new = NULL;
				574
				575	if (unit && MAJOR(unit) != MD_MAJOR)
				576	unit &= ~((1<<MdpMinorShift)-1);
				577
				578	retry:
				579	spin_lock(&all_mddevs_lock);
				580
				581	if (unit) {
				582	list_for_each_entry(mddev, &all_mddevs, all_mddevs)
				583	if (mddev->unit == unit) {
				584	mddev_get(mddev);
				585	spin_unlock(&all_mddevs_lock);
				586	kfree(new);
				587	return mddev;
				588	}
				589
				590	if (new) {
				591	list_add(&new->all_mddevs, &all_mddevs);
				592	spin_unlock(&all_mddevs_lock);
				593	new->hold_active = UNTIL_IOCTL;
				594	return new;
				595	}
				596	} else if (new) {
				597	/* find an unused unit number */
				598	static int next_minor = 512;
				599	int start = next_minor;
				600	int is_free = 0;
				601	int dev = 0;
				602	while (!is_free) {
				603	dev = MKDEV(MD_MAJOR, next_minor);
				604	next_minor++;
				605	if (next_minor > MINORMASK)
				606	next_minor = 0;
				607	if (next_minor == start) {
				608	/* Oh dear, all in use. */
				609	spin_unlock(&all_mddevs_lock);
				610	kfree(new);
				611	return NULL;
				612	}
				613
				614	is_free = 1;
				615	list_for_each_entry(mddev, &all_mddevs, all_mddevs)
				616	if (mddev->unit == dev) {
				617	is_free = 0;
				618	break;
				619	}
				620	}
				621	new->unit = dev;
				622	new->md_minor = MINOR(dev);
				623	new->hold_active = UNTIL_STOP;
				624	list_add(&new->all_mddevs, &all_mddevs);
				625	spin_unlock(&all_mddevs_lock);
				626	return new;
				627	}
				628	spin_unlock(&all_mddevs_lock);
				629
				630	new = kzalloc(sizeof(*new), GFP_KERNEL);
				631	if (!new)
				632	return NULL;
				633
				634	new->unit = unit;
				635	if (MAJOR(unit) == MD_MAJOR)
				636	new->md_minor = MINOR(unit);
				637	else
				638	new->md_minor = MINOR(unit) >> MdpMinorShift;
				639
				640	mddev_init(new);
				641
				642	goto retry;
				643	}
				644
				645	static struct attribute_group md_redundancy_group;
				646
				647	void mddev_unlock(struct mddev *mddev)
				648	{
				649	if (mddev->to_remove) {
				650	/* These cannot be removed under reconfig_mutex as
				651	* an access to the files will try to take reconfig_mutex
				652	* while holding the file unremovable, which leads to
				653	* a deadlock.
				654	* So hold set sysfs_active while the remove in happeing,
				655	* and anything else which might set ->to_remove or my
				656	* otherwise change the sysfs namespace will fail with
				657	* -EBUSY if sysfs_active is still set.
				658	* We set sysfs_active under reconfig_mutex and elsewhere
				659	* test it under the same mutex to ensure its correct value
				660	* is seen.
				661	*/
				662	struct attribute_group *to_remove = mddev->to_remove;
				663	mddev->to_remove = NULL;
				664	mddev->sysfs_active = 1;
				665	mutex_unlock(&mddev->reconfig_mutex);
				666
				667	if (mddev->kobj.sd) {
				668	if (to_remove != &md_redundancy_group)
				669	sysfs_remove_group(&mddev->kobj, to_remove);
				670	if (mddev->pers == NULL \|\|
				671	mddev->pers->sync_request == NULL) {
				672	sysfs_remove_group(&mddev->kobj, &md_redundancy_group);
				673	if (mddev->sysfs_action)
				674	sysfs_put(mddev->sysfs_action);
				675	mddev->sysfs_action = NULL;
				676	}
				677	}
				678	mddev->sysfs_active = 0;
				679	} else
				680	mutex_unlock(&mddev->reconfig_mutex);
				681
				682	/* As we've dropped the mutex we need a spinlock to
				683	* make sure the thread doesn't disappear
				684	*/
				685	spin_lock(&pers_lock);
				686	md_wakeup_thread(mddev->thread);
				687	wake_up(&mddev->sb_wait);
				688	spin_unlock(&pers_lock);
				689	}
				690	EXPORT_SYMBOL_GPL(mddev_unlock);
				691
				692	struct md_rdev md_find_rdev_nr_rcu(struct mddev mddev, int nr)
				693	{
				694	struct md_rdev *rdev;
				695
				696	rdev_for_each_rcu(rdev, mddev)
				697	if (rdev->desc_nr == nr)
				698	return rdev;
				699
				700	return NULL;
				701	}
				702	EXPORT_SYMBOL_GPL(md_find_rdev_nr_rcu);
				703
				704	static struct md_rdev find_rdev(struct mddev mddev, dev_t dev)
				705	{
				706	struct md_rdev *rdev;
				707
				708	rdev_for_each(rdev, mddev)
				709	if (rdev->bdev->bd_dev == dev)
				710	return rdev;
				711
				712	return NULL;
				713	}
				714
				715	static struct md_rdev find_rdev_rcu(struct mddev mddev, dev_t dev)
				716	{
				717	struct md_rdev *rdev;
				718
				719	rdev_for_each_rcu(rdev, mddev)
				720	if (rdev->bdev->bd_dev == dev)
				721	return rdev;
				722
				723	return NULL;
				724	}
				725
				726	static struct md_personality find_pers(int level, char clevel)
				727	{
				728	struct md_personality *pers;
				729	list_for_each_entry(pers, &pers_list, list) {
				730	if (level != LEVEL_NONE && pers->level == level)
				731	return pers;
				732	if (strcmp(pers->name, clevel)==0)
				733	return pers;
				734	}
				735	return NULL;
				736	}
				737
				738	/* return the offset of the super block in 512byte sectors */
				739	static inline sector_t calc_dev_sboffset(struct md_rdev *rdev)
				740	{
				741	sector_t num_sectors = i_size_read(rdev->bdev->bd_inode) / 512;
				742	return MD_NEW_SIZE_SECTORS(num_sectors);
				743	}
				744
				745	static int alloc_disk_sb(struct md_rdev *rdev)
				746	{
				747	rdev->sb_page = alloc_page(GFP_KERNEL);
				748	if (!rdev->sb_page)
				749	return -ENOMEM;
				750	return 0;
				751	}
				752
				753	void md_rdev_clear(struct md_rdev *rdev)
				754	{
				755	if (rdev->sb_page) {
				756	put_page(rdev->sb_page);
				757	rdev->sb_loaded = 0;
				758	rdev->sb_page = NULL;
				759	rdev->sb_start = 0;
				760	rdev->sectors = 0;
				761	}
				762	if (rdev->bb_page) {
				763	put_page(rdev->bb_page);
				764	rdev->bb_page = NULL;
				765	}
				766	badblocks_exit(&rdev->badblocks);
				767	}
				768	EXPORT_SYMBOL_GPL(md_rdev_clear);
				769
				770	static void super_written(struct bio *bio)
				771	{
				772	struct md_rdev *rdev = bio->bi_private;
				773	struct mddev *mddev = rdev->mddev;
				774
				775	if (bio->bi_status) {
				776	pr_err("md: super_written gets error=%d\n", bio->bi_status);
				777	md_error(mddev, rdev);
				778	if (!test_bit(Faulty, &rdev->flags)
				779	&& (bio->bi_opf & MD_FAILFAST)) {
				780	set_bit(MD_SB_NEED_REWRITE, &mddev->sb_flags);
				781	set_bit(LastDev, &rdev->flags);
				782	}
				783	} else
				784	clear_bit(LastDev, &rdev->flags);
				785
				786	if (atomic_dec_and_test(&mddev->pending_writes))
				787	wake_up(&mddev->sb_wait);
				788	rdev_dec_pending(rdev, mddev);
				789	bio_put(bio);
				790	}
				791
				792	void md_super_write(struct mddev mddev, struct md_rdev rdev,
				793	sector_t sector, int size, struct page *page)
				794	{
				795	/* write first size bytes of page to sector of rdev
				796	* Increment mddev->pending_writes before returning
				797	* and decrement it on completion, waking up sb_wait
				798	* if zero is reached.
				799	* If an error occurred, call md_error
				800	*/
				801	struct bio *bio;
				802	int ff = 0;
				803
				804	if (!page)
				805	return;
				806
				807	if (test_bit(Faulty, &rdev->flags))
				808	return;
				809
				810	bio = md_bio_alloc_sync(mddev);
				811
				812	atomic_inc(&rdev->nr_pending);
				813
				814	bio_set_dev(bio, rdev->meta_bdev ? rdev->meta_bdev : rdev->bdev);
				815	bio->bi_iter.bi_sector = sector;
				816	bio_add_page(bio, page, size, 0);
				817	bio->bi_private = rdev;
				818	bio->bi_end_io = super_written;
				819
				820	if (test_bit(MD_FAILFAST_SUPPORTED, &mddev->flags) &&
				821	test_bit(FailFast, &rdev->flags) &&
				822	!test_bit(LastDev, &rdev->flags))
				823	ff = MD_FAILFAST;
				824	bio->bi_opf = REQ_OP_WRITE \| REQ_SYNC \| REQ_PREFLUSH \| REQ_FUA \| ff;
				825
				826	atomic_inc(&mddev->pending_writes);
				827	submit_bio(bio);
				828	}
				829
				830	int md_super_wait(struct mddev *mddev)
				831	{
				832	/* wait for all superblock writes that were scheduled to complete */
				833	wait_event(mddev->sb_wait, atomic_read(&mddev->pending_writes)==0);
				834	if (test_and_clear_bit(MD_SB_NEED_REWRITE, &mddev->sb_flags))
				835	return -EAGAIN;
				836	return 0;
				837	}
				838
				839	int sync_page_io(struct md_rdev *rdev, sector_t sector, int size,
				840	struct page *page, int op, int op_flags, bool metadata_op)
				841	{
				842	struct bio *bio = md_bio_alloc_sync(rdev->mddev);
				843	int ret;
				844
				845	if (metadata_op && rdev->meta_bdev)
				846	bio_set_dev(bio, rdev->meta_bdev);
				847	else
				848	bio_set_dev(bio, rdev->bdev);
				849	bio_set_op_attrs(bio, op, op_flags);
				850	if (metadata_op)
				851	bio->bi_iter.bi_sector = sector + rdev->sb_start;
				852	else if (rdev->mddev->reshape_position != MaxSector &&
				853	(rdev->mddev->reshape_backwards ==
				854	(sector >= rdev->mddev->reshape_position)))
				855	bio->bi_iter.bi_sector = sector + rdev->new_data_offset;
				856	else
				857	bio->bi_iter.bi_sector = sector + rdev->data_offset;
				858	bio_add_page(bio, page, size, 0);
				859
				860	submit_bio_wait(bio);
				861
				862	ret = !bio->bi_status;
				863	bio_put(bio);
				864	return ret;
				865	}
				866	EXPORT_SYMBOL_GPL(sync_page_io);
				867
				868	static int read_disk_sb(struct md_rdev *rdev, int size)
				869	{
				870	char b[BDEVNAME_SIZE];
				871
				872	if (rdev->sb_loaded)
				873	return 0;
				874
				875	if (!sync_page_io(rdev, 0, size, rdev->sb_page, REQ_OP_READ, 0, true))
				876	goto fail;
				877	rdev->sb_loaded = 1;
				878	return 0;
				879
				880	fail:
				881	pr_err("md: disabled device %s, could not read superblock.\n",
				882	bdevname(rdev->bdev,b));
				883	return -EINVAL;
				884	}
				885
				886	static int md_uuid_equal(mdp_super_t sb1, mdp_super_t sb2)
				887	{
				888	return sb1->set_uuid0 == sb2->set_uuid0 &&
				889	sb1->set_uuid1 == sb2->set_uuid1 &&
				890	sb1->set_uuid2 == sb2->set_uuid2 &&
				891	sb1->set_uuid3 == sb2->set_uuid3;
				892	}
				893
				894	static int md_sb_equal(mdp_super_t sb1, mdp_super_t sb2)
				895	{
				896	int ret;
				897	mdp_super_t tmp1, tmp2;
				898
				899	tmp1 = kmalloc(sizeof(*tmp1),GFP_KERNEL);
				900	tmp2 = kmalloc(sizeof(*tmp2),GFP_KERNEL);
				901
				902	if (!tmp1 \|\| !tmp2) {
				903	ret = 0;
				904	goto abort;
				905	}
				906
				907	tmp1 = sb1;
				908	tmp2 = sb2;
				909
				910	/*
				911	* nr_disks is not constant
				912	*/
				913	tmp1->nr_disks = 0;
				914	tmp2->nr_disks = 0;
				915
				916	ret = (memcmp(tmp1, tmp2, MD_SB_GENERIC_CONSTANT_WORDS * 4) == 0);
				917	abort:
				918	kfree(tmp1);
				919	kfree(tmp2);
				920	return ret;
				921	}
				922
				923	static u32 md_csum_fold(u32 csum)
				924	{
				925	csum = (csum & 0xffff) + (csum >> 16);
				926	return (csum & 0xffff) + (csum >> 16);
				927	}
				928
				929	static unsigned int calc_sb_csum(mdp_super_t *sb)
				930	{
				931	u64 newcsum = 0;
				932	u32 sb32 = (u32)sb;
				933	int i;
				934	unsigned int disk_csum, csum;
				935
				936	disk_csum = sb->sb_csum;
				937	sb->sb_csum = 0;
				938
				939	for (i = 0; i < MD_SB_BYTES/4 ; i++)
				940	newcsum += sb32[i];
				941	csum = (newcsum & 0xffffffff) + (newcsum>>32);
				942
				943	#ifdef CONFIG_ALPHA
				944	/* This used to use csum_partial, which was wrong for several
				945	* reasons including that different results are returned on
				946	* different architectures. It isn't critical that we get exactly
				947	* the same return value as before (we always csum_fold before
				948	* testing, and that removes any differences). However as we
				949	* know that csum_partial always returned a 16bit value on
				950	* alphas, do a fold to maximise conformity to previous behaviour.
				951	*/
				952	sb->sb_csum = md_csum_fold(disk_csum);
				953	#else
				954	sb->sb_csum = disk_csum;
				955	#endif
				956	return csum;
				957	}
				958
				959	/*
				960	* Handle superblock details.
				961	* We want to be able to handle multiple superblock formats
				962	* so we have a common interface to them all, and an array of
				963	* different handlers.
				964	* We rely on user-space to write the initial superblock, and support
				965	* reading and updating of superblocks.
				966	* Interface methods are:
				967	* int load_super(struct md_rdev dev, struct md_rdev refdev, int minor_version)
				968	* loads and validates a superblock on dev.
				969	* if refdev != NULL, compare superblocks on both devices
				970	* Return:
				971	* 0 - dev has a superblock that is compatible with refdev
				972	* 1 - dev has a superblock that is compatible and newer than refdev
				973	* so dev should be used as the refdev in future
				974	* -EINVAL superblock incompatible or invalid
				975	* -othererror e.g. -EIO
				976	*
				977	* int validate_super(struct mddev mddev, struct md_rdev dev)
				978	* Verify that dev is acceptable into mddev.
				979	* The first time, mddev->raid_disks will be 0, and data from
				980	* dev should be merged in. Subsequent calls check that dev
				981	* is new enough. Return 0 or -EINVAL
				982	*
				983	* void sync_super(struct mddev mddev, struct md_rdev dev)
				984	* Update the superblock for rdev with data in mddev
				985	* This does not write to disc.
				986	*
				987	*/
				988
				989	struct super_type {
				990	char *name;
				991	struct module *owner;
				992	int (load_super)(struct md_rdev rdev,
				993	struct md_rdev *refdev,
				994	int minor_version);
				995	int (validate_super)(struct mddev mddev,
				996	struct md_rdev *rdev);
				997	void (sync_super)(struct mddev mddev,
				998	struct md_rdev *rdev);
				999	unsigned long long (rdev_size_change)(struct md_rdev rdev,
				1000	sector_t num_sectors);
				1001	int (allow_new_offset)(struct md_rdev rdev,
				1002	unsigned long long new_offset);
				1003	};
				1004
				1005	/*
				1006	* Check that the given mddev has no bitmap.
				1007	*
				1008	* This function is called from the run method of all personalities that do not
				1009	* support bitmaps. It prints an error message and returns non-zero if mddev
				1010	* has a bitmap. Otherwise, it returns 0.
				1011	*
				1012	*/
				1013	int md_check_no_bitmap(struct mddev *mddev)
				1014	{
				1015	if (!mddev->bitmap_info.file && !mddev->bitmap_info.offset)
				1016	return 0;
				1017	pr_warn("%s: bitmaps are not supported for %s\n",
				1018	mdname(mddev), mddev->pers->name);
				1019	return 1;
				1020	}
				1021	EXPORT_SYMBOL(md_check_no_bitmap);
				1022
				1023	/*
				1024	* load_super for 0.90.0
				1025	*/
				1026	static int super_90_load(struct md_rdev rdev, struct md_rdev refdev, int minor_version)
				1027	{
				1028	char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
				1029	mdp_super_t *sb;
				1030	int ret;
				1031
				1032	/*
				1033	* Calculate the position of the superblock (512byte sectors),
				1034	* it's at the end of the disk.
				1035	*
				1036	* It also happens to be a multiple of 4Kb.
				1037	*/
				1038	rdev->sb_start = calc_dev_sboffset(rdev);
				1039
				1040	ret = read_disk_sb(rdev, MD_SB_BYTES);
				1041	if (ret)
				1042	return ret;
				1043
				1044	ret = -EINVAL;
				1045
				1046	bdevname(rdev->bdev, b);
				1047	sb = page_address(rdev->sb_page);
				1048
				1049	if (sb->md_magic != MD_SB_MAGIC) {
				1050	pr_warn("md: invalid raid superblock magic on %s\n", b);
				1051	goto abort;
				1052	}
				1053
				1054	if (sb->major_version != 0 \|\|
				1055	sb->minor_version < 90 \|\|
				1056	sb->minor_version > 91) {
				1057	pr_warn("Bad version number %d.%d on %s\n",
				1058	sb->major_version, sb->minor_version, b);
				1059	goto abort;
				1060	}
				1061
				1062	if (sb->raid_disks <= 0)
				1063	goto abort;
				1064
				1065	if (md_csum_fold(calc_sb_csum(sb)) != md_csum_fold(sb->sb_csum)) {
				1066	pr_warn("md: invalid superblock checksum on %s\n", b);
				1067	goto abort;
				1068	}
				1069
				1070	rdev->preferred_minor = sb->md_minor;
				1071	rdev->data_offset = 0;
				1072	rdev->new_data_offset = 0;
				1073	rdev->sb_size = MD_SB_BYTES;
				1074	rdev->badblocks.shift = -1;
				1075
				1076	if (sb->level == LEVEL_MULTIPATH)
				1077	rdev->desc_nr = -1;
				1078	else
				1079	rdev->desc_nr = sb->this_disk.number;
				1080
				1081	if (!refdev) {
				1082	ret = 1;
				1083	} else {
				1084	__u64 ev1, ev2;
				1085	mdp_super_t *refsb = page_address(refdev->sb_page);
				1086	if (!md_uuid_equal(refsb, sb)) {
				1087	pr_warn("md: %s has different UUID to %s\n",
				1088	b, bdevname(refdev->bdev,b2));
				1089	goto abort;
				1090	}
				1091	if (!md_sb_equal(refsb, sb)) {
				1092	pr_warn("md: %s has same UUID but different superblock to %s\n",
				1093	b, bdevname(refdev->bdev, b2));
				1094	goto abort;
				1095	}
				1096	ev1 = md_event(sb);
				1097	ev2 = md_event(refsb);
				1098	if (ev1 > ev2)
				1099	ret = 1;
				1100	else
				1101	ret = 0;
				1102	}
				1103	rdev->sectors = rdev->sb_start;
				1104	/* Limit to 4TB as metadata cannot record more than that.
				1105	* (not needed for Linear and RAID0 as metadata doesn't
				1106	* record this size)
				1107	*/
				1108	if (IS_ENABLED(CONFIG_LBDAF) && (u64)rdev->sectors >= (2ULL << 32) &&
				1109	sb->level >= 1)
				1110	rdev->sectors = (sector_t)(2ULL << 32) - 2;
				1111
				1112	if (rdev->sectors < ((sector_t)sb->size) * 2 && sb->level >= 1)
				1113	/* "this cannot possibly happen" ... */
				1114	ret = -EINVAL;
				1115
				1116	abort:
				1117	return ret;
				1118	}
				1119
				1120	/*
				1121	* validate_super for 0.90.0
				1122	*/
				1123	static int super_90_validate(struct mddev mddev, struct md_rdev rdev)
				1124	{
				1125	mdp_disk_t *desc;
				1126	mdp_super_t *sb = page_address(rdev->sb_page);
				1127	__u64 ev1 = md_event(sb);
				1128
				1129	rdev->raid_disk = -1;
				1130	clear_bit(Faulty, &rdev->flags);
				1131	clear_bit(In_sync, &rdev->flags);
				1132	clear_bit(Bitmap_sync, &rdev->flags);
				1133	clear_bit(WriteMostly, &rdev->flags);
				1134
				1135	if (mddev->raid_disks == 0) {
				1136	mddev->major_version = 0;
				1137	mddev->minor_version = sb->minor_version;
				1138	mddev->patch_version = sb->patch_version;
				1139	mddev->external = 0;
				1140	mddev->chunk_sectors = sb->chunk_size >> 9;
				1141	mddev->ctime = sb->ctime;
				1142	mddev->utime = sb->utime;
				1143	mddev->level = sb->level;
				1144	mddev->clevel[0] = 0;
				1145	mddev->layout = sb->layout;
				1146	mddev->raid_disks = sb->raid_disks;
				1147	mddev->dev_sectors = ((sector_t)sb->size) * 2;
				1148	mddev->events = ev1;
				1149	mddev->bitmap_info.offset = 0;
				1150	mddev->bitmap_info.space = 0;
				1151	/* bitmap can use 60 K after the 4K superblocks */
				1152	mddev->bitmap_info.default_offset = MD_SB_BYTES >> 9;
				1153	mddev->bitmap_info.default_space = 64*2 - (MD_SB_BYTES >> 9);
				1154	mddev->reshape_backwards = 0;
				1155
				1156	if (mddev->minor_version >= 91) {
				1157	mddev->reshape_position = sb->reshape_position;
				1158	mddev->delta_disks = sb->delta_disks;
				1159	mddev->new_level = sb->new_level;
				1160	mddev->new_layout = sb->new_layout;
				1161	mddev->new_chunk_sectors = sb->new_chunk >> 9;
				1162	if (mddev->delta_disks < 0)
				1163	mddev->reshape_backwards = 1;
				1164	} else {
				1165	mddev->reshape_position = MaxSector;
				1166	mddev->delta_disks = 0;
				1167	mddev->new_level = mddev->level;
				1168	mddev->new_layout = mddev->layout;
				1169	mddev->new_chunk_sectors = mddev->chunk_sectors;
				1170	}
				1171	if (mddev->level == 0)
				1172	mddev->layout = -1;
				1173
				1174	if (sb->state & (1<<MD_SB_CLEAN))
				1175	mddev->recovery_cp = MaxSector;
				1176	else {
				1177	if (sb->events_hi == sb->cp_events_hi &&
				1178	sb->events_lo == sb->cp_events_lo) {
				1179	mddev->recovery_cp = sb->recovery_cp;
				1180	} else
				1181	mddev->recovery_cp = 0;
				1182	}
				1183
				1184	memcpy(mddev->uuid+0, &sb->set_uuid0, 4);
				1185	memcpy(mddev->uuid+4, &sb->set_uuid1, 4);
				1186	memcpy(mddev->uuid+8, &sb->set_uuid2, 4);
				1187	memcpy(mddev->uuid+12,&sb->set_uuid3, 4);
				1188
				1189	mddev->max_disks = MD_SB_DISKS;
				1190
				1191	if (sb->state & (1<<MD_SB_BITMAP_PRESENT) &&
				1192	mddev->bitmap_info.file == NULL) {
				1193	mddev->bitmap_info.offset =
				1194	mddev->bitmap_info.default_offset;
				1195	mddev->bitmap_info.space =
				1196	mddev->bitmap_info.default_space;
				1197	}
				1198
				1199	} else if (mddev->pers == NULL) {
				1200	/* Insist on good event counter while assembling, except
				1201	* for spares (which don't need an event count) */
				1202	++ev1;
				1203	if (sb->disks[rdev->desc_nr].state & (
				1204	(1<<MD_DISK_SYNC) \| (1 << MD_DISK_ACTIVE)))
				1205	if (ev1 < mddev->events)
				1206	return -EINVAL;
				1207	} else if (mddev->bitmap) {
				1208	/* if adding to array with a bitmap, then we can accept an
				1209	* older device ... but not too old.
				1210	*/
				1211	if (ev1 < mddev->bitmap->events_cleared)
				1212	return 0;
				1213	if (ev1 < mddev->events)
				1214	set_bit(Bitmap_sync, &rdev->flags);
				1215	} else {
				1216	if (ev1 < mddev->events)
				1217	/* just a hot-add of a new device, leave raid_disk at -1 */
				1218	return 0;
				1219	}
				1220
				1221	if (mddev->level != LEVEL_MULTIPATH) {
				1222	desc = sb->disks + rdev->desc_nr;
				1223
				1224	if (desc->state & (1<<MD_DISK_FAULTY))
				1225	set_bit(Faulty, &rdev->flags);
				1226	else if (desc->state & (1<<MD_DISK_SYNC) /* &&
				1227	desc->raid_disk < mddev->raid_disks */) {
				1228	set_bit(In_sync, &rdev->flags);
				1229	rdev->raid_disk = desc->raid_disk;
				1230	rdev->saved_raid_disk = desc->raid_disk;
				1231	} else if (desc->state & (1<<MD_DISK_ACTIVE)) {
				1232	/* active but not in sync implies recovery up to
				1233	* reshape position. We don't know exactly where
				1234	* that is, so set to zero for now */
				1235	if (mddev->minor_version >= 91) {
				1236	rdev->recovery_offset = 0;
				1237	rdev->raid_disk = desc->raid_disk;
				1238	}
				1239	}
				1240	if (desc->state & (1<<MD_DISK_WRITEMOSTLY))
				1241	set_bit(WriteMostly, &rdev->flags);
				1242	if (desc->state & (1<<MD_DISK_FAILFAST))
				1243	set_bit(FailFast, &rdev->flags);
				1244	} else /* MULTIPATH are always insync */
				1245	set_bit(In_sync, &rdev->flags);
				1246	return 0;
				1247	}
				1248
				1249	/*
				1250	* sync_super for 0.90.0
				1251	*/
				1252	static void super_90_sync(struct mddev mddev, struct md_rdev rdev)
				1253	{
				1254	mdp_super_t *sb;
				1255	struct md_rdev *rdev2;
				1256	int next_spare = mddev->raid_disks;
				1257
				1258	/* make rdev->sb match mddev data..
				1259	*
				1260	* 1/ zero out disks
				1261	* 2/ Add info for each disk, keeping track of highest desc_nr (next_spare);
				1262	* 3/ any empty disks < next_spare become removed
				1263	*
				1264	* disks[0] gets initialised to REMOVED because
				1265	* we cannot be sure from other fields if it has
				1266	* been initialised or not.
				1267	*/
				1268	int i;
				1269	int active=0, working=0,failed=0,spare=0,nr_disks=0;
				1270
				1271	rdev->sb_size = MD_SB_BYTES;
				1272
				1273	sb = page_address(rdev->sb_page);
				1274
				1275	memset(sb, 0, sizeof(*sb));
				1276
				1277	sb->md_magic = MD_SB_MAGIC;
				1278	sb->major_version = mddev->major_version;
				1279	sb->patch_version = mddev->patch_version;
				1280	sb->gvalid_words = 0; /* ignored */
				1281	memcpy(&sb->set_uuid0, mddev->uuid+0, 4);
				1282	memcpy(&sb->set_uuid1, mddev->uuid+4, 4);
				1283	memcpy(&sb->set_uuid2, mddev->uuid+8, 4);
				1284	memcpy(&sb->set_uuid3, mddev->uuid+12,4);
				1285
				1286	sb->ctime = clamp_t(time64_t, mddev->ctime, 0, U32_MAX);
				1287	sb->level = mddev->level;
				1288	sb->size = mddev->dev_sectors / 2;
				1289	sb->raid_disks = mddev->raid_disks;
				1290	sb->md_minor = mddev->md_minor;
				1291	sb->not_persistent = 0;
				1292	sb->utime = clamp_t(time64_t, mddev->utime, 0, U32_MAX);
				1293	sb->state = 0;
				1294	sb->events_hi = (mddev->events>>32);
				1295	sb->events_lo = (u32)mddev->events;
				1296
				1297	if (mddev->reshape_position == MaxSector)
				1298	sb->minor_version = 90;
				1299	else {
				1300	sb->minor_version = 91;
				1301	sb->reshape_position = mddev->reshape_position;
				1302	sb->new_level = mddev->new_level;
				1303	sb->delta_disks = mddev->delta_disks;
				1304	sb->new_layout = mddev->new_layout;
				1305	sb->new_chunk = mddev->new_chunk_sectors << 9;
				1306	}
				1307	mddev->minor_version = sb->minor_version;
				1308	if (mddev->in_sync)
				1309	{
				1310	sb->recovery_cp = mddev->recovery_cp;
				1311	sb->cp_events_hi = (mddev->events>>32);
				1312	sb->cp_events_lo = (u32)mddev->events;
				1313	if (mddev->recovery_cp == MaxSector)
				1314	sb->state = (1<< MD_SB_CLEAN);
				1315	} else
				1316	sb->recovery_cp = 0;
				1317
				1318	sb->layout = mddev->layout;
				1319	sb->chunk_size = mddev->chunk_sectors << 9;
				1320
				1321	if (mddev->bitmap && mddev->bitmap_info.file == NULL)
				1322	sb->state \|= (1<<MD_SB_BITMAP_PRESENT);
				1323
				1324	sb->disks[0].state = (1<<MD_DISK_REMOVED);
				1325	rdev_for_each(rdev2, mddev) {
				1326	mdp_disk_t *d;
				1327	int desc_nr;
				1328	int is_active = test_bit(In_sync, &rdev2->flags);
				1329
				1330	if (rdev2->raid_disk >= 0 &&
				1331	sb->minor_version >= 91)
				1332	/* we have nowhere to store the recovery_offset,
				1333	* but if it is not below the reshape_position,
				1334	* we can piggy-back on that.
				1335	*/
				1336	is_active = 1;
				1337	if (rdev2->raid_disk < 0 \|\|
				1338	test_bit(Faulty, &rdev2->flags))
				1339	is_active = 0;
				1340	if (is_active)
				1341	desc_nr = rdev2->raid_disk;
				1342	else
				1343	desc_nr = next_spare++;
				1344	rdev2->desc_nr = desc_nr;
				1345	d = &sb->disks[rdev2->desc_nr];
				1346	nr_disks++;
				1347	d->number = rdev2->desc_nr;
				1348	d->major = MAJOR(rdev2->bdev->bd_dev);
				1349	d->minor = MINOR(rdev2->bdev->bd_dev);
				1350	if (is_active)
				1351	d->raid_disk = rdev2->raid_disk;
				1352	else
				1353	d->raid_disk = rdev2->desc_nr; /* compatibility */
				1354	if (test_bit(Faulty, &rdev2->flags))
				1355	d->state = (1<<MD_DISK_FAULTY);
				1356	else if (is_active) {
				1357	d->state = (1<<MD_DISK_ACTIVE);
				1358	if (test_bit(In_sync, &rdev2->flags))
				1359	d->state \|= (1<<MD_DISK_SYNC);
				1360	active++;
				1361	working++;
				1362	} else {
				1363	d->state = 0;
				1364	spare++;
				1365	working++;
				1366	}
				1367	if (test_bit(WriteMostly, &rdev2->flags))
				1368	d->state \|= (1<<MD_DISK_WRITEMOSTLY);
				1369	if (test_bit(FailFast, &rdev2->flags))
				1370	d->state \|= (1<<MD_DISK_FAILFAST);
				1371	}
				1372	/* now set the "removed" and "faulty" bits on any missing devices */
				1373	for (i=0 ; i < mddev->raid_disks ; i++) {
				1374	mdp_disk_t *d = &sb->disks[i];
				1375	if (d->state == 0 && d->number == 0) {
				1376	d->number = i;
				1377	d->raid_disk = i;
				1378	d->state = (1<<MD_DISK_REMOVED);
				1379	d->state \|= (1<<MD_DISK_FAULTY);
				1380	failed++;
				1381	}
				1382	}
				1383	sb->nr_disks = nr_disks;
				1384	sb->active_disks = active;
				1385	sb->working_disks = working;
				1386	sb->failed_disks = failed;
				1387	sb->spare_disks = spare;
				1388
				1389	sb->this_disk = sb->disks[rdev->desc_nr];
				1390	sb->sb_csum = calc_sb_csum(sb);
				1391	}
				1392
				1393	/*
				1394	* rdev_size_change for 0.90.0
				1395	*/
				1396	static unsigned long long
				1397	super_90_rdev_size_change(struct md_rdev *rdev, sector_t num_sectors)
				1398	{
				1399	if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
				1400	return 0; /* component must fit device */
				1401	if (rdev->mddev->bitmap_info.offset)
				1402	return 0; /* can't move bitmap */
				1403	rdev->sb_start = calc_dev_sboffset(rdev);
				1404	if (!num_sectors \|\| num_sectors > rdev->sb_start)
				1405	num_sectors = rdev->sb_start;
				1406	/* Limit to 4TB as metadata cannot record more than that.
				1407	* 4TB == 2^32 KB, or 2*2^32 sectors.
				1408	*/
				1409	if (IS_ENABLED(CONFIG_LBDAF) && (u64)num_sectors >= (2ULL << 32) &&
				1410	rdev->mddev->level >= 1)
				1411	num_sectors = (sector_t)(2ULL << 32) - 2;
				1412	do {
				1413	md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
				1414	rdev->sb_page);
				1415	} while (md_super_wait(rdev->mddev) < 0);
				1416	return num_sectors;
				1417	}
				1418
				1419	static int
				1420	super_90_allow_new_offset(struct md_rdev *rdev, unsigned long long new_offset)
				1421	{
				1422	/* non-zero offset changes not possible with v0.90 */
				1423	return new_offset == 0;
				1424	}
				1425
				1426	/*
				1427	* version 1 superblock
				1428	*/
				1429
				1430	static __le32 calc_sb_1_csum(struct mdp_superblock_1 *sb)
				1431	{
				1432	__le32 disk_csum;
				1433	u32 csum;
				1434	unsigned long long newcsum;
				1435	int size = 256 + le32_to_cpu(sb->max_dev)*2;
				1436	__le32 isuper = (__le32)sb;
				1437
				1438	disk_csum = sb->sb_csum;
				1439	sb->sb_csum = 0;
				1440	newcsum = 0;
				1441	for (; size >= 4; size -= 4)
				1442	newcsum += le32_to_cpu(*isuper++);
				1443
				1444	if (size == 2)
				1445	newcsum += le16_to_cpu((__le16) isuper);
				1446
				1447	csum = (newcsum & 0xffffffff) + (newcsum >> 32);
				1448	sb->sb_csum = disk_csum;
				1449	return cpu_to_le32(csum);
				1450	}
				1451
				1452	static int super_1_load(struct md_rdev rdev, struct md_rdev refdev, int minor_version)
				1453	{
				1454	struct mdp_superblock_1 *sb;
				1455	int ret;
				1456	sector_t sb_start;
				1457	sector_t sectors;
				1458	char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
				1459	int bmask;
				1460
				1461	/*
				1462	* Calculate the position of the superblock in 512byte sectors.
				1463	* It is always aligned to a 4K boundary and
				1464	* depeding on minor_version, it can be:
				1465	* 0: At least 8K, but less than 12K, from end of device
				1466	* 1: At start of device
				1467	* 2: 4K from start of device.
				1468	*/
				1469	switch(minor_version) {
				1470	case 0:
				1471	sb_start = i_size_read(rdev->bdev->bd_inode) >> 9;
				1472	sb_start -= 8*2;
				1473	sb_start &= ~(sector_t)(4*2-1);
				1474	break;
				1475	case 1:
				1476	sb_start = 0;
				1477	break;
				1478	case 2:
				1479	sb_start = 8;
				1480	break;
				1481	default:
				1482	return -EINVAL;
				1483	}
				1484	rdev->sb_start = sb_start;
				1485
				1486	/* superblock is rarely larger than 1K, but it can be larger,
				1487	* and it is safe to read 4k, so we do that
				1488	*/
				1489	ret = read_disk_sb(rdev, 4096);
				1490	if (ret) return ret;
				1491
				1492	sb = page_address(rdev->sb_page);
				1493
				1494	if (sb->magic != cpu_to_le32(MD_SB_MAGIC) \|\|
				1495	sb->major_version != cpu_to_le32(1) \|\|
				1496	le32_to_cpu(sb->max_dev) > (4096-256)/2 \|\|
				1497	le64_to_cpu(sb->super_offset) != rdev->sb_start \|\|
				1498	(le32_to_cpu(sb->feature_map) & ~MD_FEATURE_ALL) != 0)
				1499	return -EINVAL;
				1500
				1501	if (calc_sb_1_csum(sb) != sb->sb_csum) {
				1502	pr_warn("md: invalid superblock checksum on %s\n",
				1503	bdevname(rdev->bdev,b));
				1504	return -EINVAL;
				1505	}
				1506	if (le64_to_cpu(sb->data_size) < 10) {
				1507	pr_warn("md: data_size too small on %s\n",
				1508	bdevname(rdev->bdev,b));
				1509	return -EINVAL;
				1510	}
				1511	if (sb->pad0 \|\|
				1512	sb->pad3[0] \|\|
				1513	memcmp(sb->pad3, sb->pad3+1, sizeof(sb->pad3) - sizeof(sb->pad3[1])))
				1514	/* Some padding is non-zero, might be a new feature */
				1515	return -EINVAL;
				1516
				1517	rdev->preferred_minor = 0xffff;
				1518	rdev->data_offset = le64_to_cpu(sb->data_offset);
				1519	rdev->new_data_offset = rdev->data_offset;
				1520	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE) &&
				1521	(le32_to_cpu(sb->feature_map) & MD_FEATURE_NEW_OFFSET))
				1522	rdev->new_data_offset += (s32)le32_to_cpu(sb->new_offset);
				1523	atomic_set(&rdev->corrected_errors, le32_to_cpu(sb->cnt_corrected_read));
				1524
				1525	rdev->sb_size = le32_to_cpu(sb->max_dev) * 2 + 256;
				1526	bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
				1527	if (rdev->sb_size & bmask)
				1528	rdev->sb_size = (rdev->sb_size \| bmask) + 1;
				1529
				1530	if (minor_version
				1531	&& rdev->data_offset < sb_start + (rdev->sb_size/512))
				1532	return -EINVAL;
				1533	if (minor_version
				1534	&& rdev->new_data_offset < sb_start + (rdev->sb_size/512))
				1535	return -EINVAL;
				1536
				1537	if (sb->level == cpu_to_le32(LEVEL_MULTIPATH))
				1538	rdev->desc_nr = -1;
				1539	else
				1540	rdev->desc_nr = le32_to_cpu(sb->dev_number);
				1541
				1542	if (!rdev->bb_page) {
				1543	rdev->bb_page = alloc_page(GFP_KERNEL);
				1544	if (!rdev->bb_page)
				1545	return -ENOMEM;
				1546	}
				1547	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_BAD_BLOCKS) &&
				1548	rdev->badblocks.count == 0) {
				1549	/* need to load the bad block list.
				1550	* Currently we limit it to one page.
				1551	*/
				1552	s32 offset;
				1553	sector_t bb_sector;
				1554	u64 *bbp;
				1555	int i;
				1556	int sectors = le16_to_cpu(sb->bblog_size);
				1557	if (sectors > (PAGE_SIZE / 512))
				1558	return -EINVAL;
				1559	offset = le32_to_cpu(sb->bblog_offset);
				1560	if (offset == 0)
				1561	return -EINVAL;
				1562	bb_sector = (long long)offset;
				1563	if (!sync_page_io(rdev, bb_sector, sectors << 9,
				1564	rdev->bb_page, REQ_OP_READ, 0, true))
				1565	return -EIO;
				1566	bbp = (u64 *)page_address(rdev->bb_page);
				1567	rdev->badblocks.shift = sb->bblog_shift;
				1568	for (i = 0 ; i < (sectors << (9-3)) ; i++, bbp++) {
				1569	u64 bb = le64_to_cpu(*bbp);
				1570	int count = bb & (0x3ff);
				1571	u64 sector = bb >> 10;
				1572	sector <<= sb->bblog_shift;
				1573	count <<= sb->bblog_shift;
				1574	if (bb + 1 == 0)
				1575	break;
				1576	if (badblocks_set(&rdev->badblocks, sector, count, 1))
				1577	return -EINVAL;
				1578	}
				1579	} else if (sb->bblog_offset != 0)
				1580	rdev->badblocks.shift = 0;
				1581
				1582	if ((le32_to_cpu(sb->feature_map) &
				1583	(MD_FEATURE_PPL \| MD_FEATURE_MULTIPLE_PPLS))) {
				1584	rdev->ppl.offset = (__s16)le16_to_cpu(sb->ppl.offset);
				1585	rdev->ppl.size = le16_to_cpu(sb->ppl.size);
				1586	rdev->ppl.sector = rdev->sb_start + rdev->ppl.offset;
				1587	}
				1588
				1589	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RAID0_LAYOUT) &&
				1590	sb->level != 0)
				1591	return -EINVAL;
				1592
				1593	if (!refdev) {
				1594	ret = 1;
				1595	} else {
				1596	__u64 ev1, ev2;
				1597	struct mdp_superblock_1 *refsb = page_address(refdev->sb_page);
				1598
				1599	if (memcmp(sb->set_uuid, refsb->set_uuid, 16) != 0 \|\|
				1600	sb->level != refsb->level \|\|
				1601	sb->layout != refsb->layout \|\|
				1602	sb->chunksize != refsb->chunksize) {
				1603	pr_warn("md: %s has strangely different superblock to %s\n",
				1604	bdevname(rdev->bdev,b),
				1605	bdevname(refdev->bdev,b2));
				1606	return -EINVAL;
				1607	}
				1608	ev1 = le64_to_cpu(sb->events);
				1609	ev2 = le64_to_cpu(refsb->events);
				1610
				1611	if (ev1 > ev2)
				1612	ret = 1;
				1613	else
				1614	ret = 0;
				1615	}
				1616	if (minor_version) {
				1617	sectors = (i_size_read(rdev->bdev->bd_inode) >> 9);
				1618	sectors -= rdev->data_offset;
				1619	} else
				1620	sectors = rdev->sb_start;
				1621	if (sectors < le64_to_cpu(sb->data_size))
				1622	return -EINVAL;
				1623	rdev->sectors = le64_to_cpu(sb->data_size);
				1624	return ret;
				1625	}
				1626
				1627	static int super_1_validate(struct mddev mddev, struct md_rdev rdev)
				1628	{
				1629	struct mdp_superblock_1 *sb = page_address(rdev->sb_page);
				1630	__u64 ev1 = le64_to_cpu(sb->events);
				1631
				1632	rdev->raid_disk = -1;
				1633	clear_bit(Faulty, &rdev->flags);
				1634	clear_bit(In_sync, &rdev->flags);
				1635	clear_bit(Bitmap_sync, &rdev->flags);
				1636	clear_bit(WriteMostly, &rdev->flags);
				1637
				1638	if (mddev->raid_disks == 0) {
				1639	mddev->major_version = 1;
				1640	mddev->patch_version = 0;
				1641	mddev->external = 0;
				1642	mddev->chunk_sectors = le32_to_cpu(sb->chunksize);
				1643	mddev->ctime = le64_to_cpu(sb->ctime);
				1644	mddev->utime = le64_to_cpu(sb->utime);
				1645	mddev->level = le32_to_cpu(sb->level);
				1646	mddev->clevel[0] = 0;
				1647	mddev->layout = le32_to_cpu(sb->layout);
				1648	mddev->raid_disks = le32_to_cpu(sb->raid_disks);
				1649	mddev->dev_sectors = le64_to_cpu(sb->size);
				1650	mddev->events = ev1;
				1651	mddev->bitmap_info.offset = 0;
				1652	mddev->bitmap_info.space = 0;
				1653	/* Default location for bitmap is 1K after superblock
				1654	* using 3K - total of 4K
				1655	*/
				1656	mddev->bitmap_info.default_offset = 1024 >> 9;
				1657	mddev->bitmap_info.default_space = (4096-1024) >> 9;
				1658	mddev->reshape_backwards = 0;
				1659
				1660	mddev->recovery_cp = le64_to_cpu(sb->resync_offset);
				1661	memcpy(mddev->uuid, sb->set_uuid, 16);
				1662
				1663	mddev->max_disks = (4096-256)/2;
				1664
				1665	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_BITMAP_OFFSET) &&
				1666	mddev->bitmap_info.file == NULL) {
				1667	mddev->bitmap_info.offset =
				1668	(__s32)le32_to_cpu(sb->bitmap_offset);
				1669	/* Metadata doesn't record how much space is available.
				1670	* For 1.0, we assume we can use up to the superblock
				1671	* if before, else to 4K beyond superblock.
				1672	* For others, assume no change is possible.
				1673	*/
				1674	if (mddev->minor_version > 0)
				1675	mddev->bitmap_info.space = 0;
				1676	else if (mddev->bitmap_info.offset > 0)
				1677	mddev->bitmap_info.space =
				1678	8 - mddev->bitmap_info.offset;
				1679	else
				1680	mddev->bitmap_info.space =
				1681	-mddev->bitmap_info.offset;
				1682	}
				1683
				1684	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE)) {
				1685	mddev->reshape_position = le64_to_cpu(sb->reshape_position);
				1686	mddev->delta_disks = le32_to_cpu(sb->delta_disks);
				1687	mddev->new_level = le32_to_cpu(sb->new_level);
				1688	mddev->new_layout = le32_to_cpu(sb->new_layout);
				1689	mddev->new_chunk_sectors = le32_to_cpu(sb->new_chunk);
				1690	if (mddev->delta_disks < 0 \|\|
				1691	(mddev->delta_disks == 0 &&
				1692	(le32_to_cpu(sb->feature_map)
				1693	& MD_FEATURE_RESHAPE_BACKWARDS)))
				1694	mddev->reshape_backwards = 1;
				1695	} else {
				1696	mddev->reshape_position = MaxSector;
				1697	mddev->delta_disks = 0;
				1698	mddev->new_level = mddev->level;
				1699	mddev->new_layout = mddev->layout;
				1700	mddev->new_chunk_sectors = mddev->chunk_sectors;
				1701	}
				1702
				1703	if (mddev->level == 0 &&
				1704	!(le32_to_cpu(sb->feature_map) & MD_FEATURE_RAID0_LAYOUT))
				1705	mddev->layout = -1;
				1706
				1707	if (le32_to_cpu(sb->feature_map) & MD_FEATURE_JOURNAL)
				1708	set_bit(MD_HAS_JOURNAL, &mddev->flags);
				1709
				1710	if (le32_to_cpu(sb->feature_map) &
				1711	(MD_FEATURE_PPL \| MD_FEATURE_MULTIPLE_PPLS)) {
				1712	if (le32_to_cpu(sb->feature_map) &
				1713	(MD_FEATURE_BITMAP_OFFSET \| MD_FEATURE_JOURNAL))
				1714	return -EINVAL;
				1715	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_PPL) &&
				1716	(le32_to_cpu(sb->feature_map) &
				1717	MD_FEATURE_MULTIPLE_PPLS))
				1718	return -EINVAL;
				1719	set_bit(MD_HAS_PPL, &mddev->flags);
				1720	}
				1721	} else if (mddev->pers == NULL) {
				1722	/* Insist of good event counter while assembling, except for
				1723	* spares (which don't need an event count) */
				1724	++ev1;
				1725	if (rdev->desc_nr >= 0 &&
				1726	rdev->desc_nr < le32_to_cpu(sb->max_dev) &&
				1727	(le16_to_cpu(sb->dev_roles[rdev->desc_nr]) < MD_DISK_ROLE_MAX \|\|
				1728	le16_to_cpu(sb->dev_roles[rdev->desc_nr]) == MD_DISK_ROLE_JOURNAL))
				1729	if (ev1 < mddev->events)
				1730	return -EINVAL;
				1731	} else if (mddev->bitmap) {
				1732	/* If adding to array with a bitmap, then we can accept an
				1733	* older device, but not too old.
				1734	*/
				1735	if (ev1 < mddev->bitmap->events_cleared)
				1736	return 0;
				1737	if (ev1 < mddev->events)
				1738	set_bit(Bitmap_sync, &rdev->flags);
				1739	} else {
				1740	if (ev1 < mddev->events)
				1741	/* just a hot-add of a new device, leave raid_disk at -1 */
				1742	return 0;
				1743	}
				1744	if (mddev->level != LEVEL_MULTIPATH) {
				1745	int role;
				1746	if (rdev->desc_nr < 0 \|\|
				1747	rdev->desc_nr >= le32_to_cpu(sb->max_dev)) {
				1748	role = MD_DISK_ROLE_SPARE;
				1749	rdev->desc_nr = -1;
				1750	} else
				1751	role = le16_to_cpu(sb->dev_roles[rdev->desc_nr]);
				1752	switch(role) {
				1753	case MD_DISK_ROLE_SPARE: /* spare */
				1754	break;
				1755	case MD_DISK_ROLE_FAULTY: /* faulty */
				1756	set_bit(Faulty, &rdev->flags);
				1757	break;
				1758	case MD_DISK_ROLE_JOURNAL: /* journal device */
				1759	if (!(le32_to_cpu(sb->feature_map) & MD_FEATURE_JOURNAL)) {
				1760	/* journal device without journal feature */
				1761	pr_warn("md: journal device provided without journal feature, ignoring the device\n");
				1762	return -EINVAL;
				1763	}
				1764	set_bit(Journal, &rdev->flags);
				1765	rdev->journal_tail = le64_to_cpu(sb->journal_tail);
				1766	rdev->raid_disk = 0;
				1767	break;
				1768	default:
				1769	rdev->saved_raid_disk = role;
				1770	if ((le32_to_cpu(sb->feature_map) &
				1771	MD_FEATURE_RECOVERY_OFFSET)) {
				1772	rdev->recovery_offset = le64_to_cpu(sb->recovery_offset);
				1773	if (!(le32_to_cpu(sb->feature_map) &
				1774	MD_FEATURE_RECOVERY_BITMAP))
				1775	rdev->saved_raid_disk = -1;
				1776	} else {
				1777	/*
				1778	* If the array is FROZEN, then the device can't
				1779	* be in_sync with rest of array.
				1780	*/
				1781	if (!test_bit(MD_RECOVERY_FROZEN,
				1782	&mddev->recovery))
				1783	set_bit(In_sync, &rdev->flags);
				1784	}
				1785	rdev->raid_disk = role;
				1786	break;
				1787	}
				1788	if (sb->devflags & WriteMostly1)
				1789	set_bit(WriteMostly, &rdev->flags);
				1790	if (sb->devflags & FailFast1)
				1791	set_bit(FailFast, &rdev->flags);
				1792	if (le32_to_cpu(sb->feature_map) & MD_FEATURE_REPLACEMENT)
				1793	set_bit(Replacement, &rdev->flags);
				1794	} else /* MULTIPATH are always insync */
				1795	set_bit(In_sync, &rdev->flags);
				1796
				1797	return 0;
				1798	}
				1799
				1800	static void super_1_sync(struct mddev mddev, struct md_rdev rdev)
				1801	{
				1802	struct mdp_superblock_1 *sb;
				1803	struct md_rdev *rdev2;
				1804	int max_dev, i;
				1805	/* make rdev->sb match mddev and rdev data. */
				1806
				1807	sb = page_address(rdev->sb_page);
				1808
				1809	sb->feature_map = 0;
				1810	sb->pad0 = 0;
				1811	sb->recovery_offset = cpu_to_le64(0);
				1812	memset(sb->pad3, 0, sizeof(sb->pad3));
				1813
				1814	sb->utime = cpu_to_le64((__u64)mddev->utime);
				1815	sb->events = cpu_to_le64(mddev->events);
				1816	if (mddev->in_sync)
				1817	sb->resync_offset = cpu_to_le64(mddev->recovery_cp);
				1818	else if (test_bit(MD_JOURNAL_CLEAN, &mddev->flags))
				1819	sb->resync_offset = cpu_to_le64(MaxSector);
				1820	else
				1821	sb->resync_offset = cpu_to_le64(0);
				1822
				1823	sb->cnt_corrected_read = cpu_to_le32(atomic_read(&rdev->corrected_errors));
				1824
				1825	sb->raid_disks = cpu_to_le32(mddev->raid_disks);
				1826	sb->size = cpu_to_le64(mddev->dev_sectors);
				1827	sb->chunksize = cpu_to_le32(mddev->chunk_sectors);
				1828	sb->level = cpu_to_le32(mddev->level);
				1829	sb->layout = cpu_to_le32(mddev->layout);
				1830	if (test_bit(FailFast, &rdev->flags))
				1831	sb->devflags \|= FailFast1;
				1832	else
				1833	sb->devflags &= ~FailFast1;
				1834
				1835	if (test_bit(WriteMostly, &rdev->flags))
				1836	sb->devflags \|= WriteMostly1;
				1837	else
				1838	sb->devflags &= ~WriteMostly1;
				1839	sb->data_offset = cpu_to_le64(rdev->data_offset);
				1840	sb->data_size = cpu_to_le64(rdev->sectors);
				1841
				1842	if (mddev->bitmap && mddev->bitmap_info.file == NULL) {
				1843	sb->bitmap_offset = cpu_to_le32((__u32)mddev->bitmap_info.offset);
				1844	sb->feature_map = cpu_to_le32(MD_FEATURE_BITMAP_OFFSET);
				1845	}
				1846
				1847	if (rdev->raid_disk >= 0 && !test_bit(Journal, &rdev->flags) &&
				1848	!test_bit(In_sync, &rdev->flags)) {
				1849	sb->feature_map \|=
				1850	cpu_to_le32(MD_FEATURE_RECOVERY_OFFSET);
				1851	sb->recovery_offset =
				1852	cpu_to_le64(rdev->recovery_offset);
				1853	if (rdev->saved_raid_disk >= 0 && mddev->bitmap)
				1854	sb->feature_map \|=
				1855	cpu_to_le32(MD_FEATURE_RECOVERY_BITMAP);
				1856	}
				1857	/* Note: recovery_offset and journal_tail share space */
				1858	if (test_bit(Journal, &rdev->flags))
				1859	sb->journal_tail = cpu_to_le64(rdev->journal_tail);
				1860	if (test_bit(Replacement, &rdev->flags))
				1861	sb->feature_map \|=
				1862	cpu_to_le32(MD_FEATURE_REPLACEMENT);
				1863
				1864	if (mddev->reshape_position != MaxSector) {
				1865	sb->feature_map \|= cpu_to_le32(MD_FEATURE_RESHAPE_ACTIVE);
				1866	sb->reshape_position = cpu_to_le64(mddev->reshape_position);
				1867	sb->new_layout = cpu_to_le32(mddev->new_layout);
				1868	sb->delta_disks = cpu_to_le32(mddev->delta_disks);
				1869	sb->new_level = cpu_to_le32(mddev->new_level);
				1870	sb->new_chunk = cpu_to_le32(mddev->new_chunk_sectors);
				1871	if (mddev->delta_disks == 0 &&
				1872	mddev->reshape_backwards)
				1873	sb->feature_map
				1874	\|= cpu_to_le32(MD_FEATURE_RESHAPE_BACKWARDS);
				1875	if (rdev->new_data_offset != rdev->data_offset) {
				1876	sb->feature_map
				1877	\|= cpu_to_le32(MD_FEATURE_NEW_OFFSET);
				1878	sb->new_offset = cpu_to_le32((__u32)(rdev->new_data_offset
				1879	- rdev->data_offset));
				1880	}
				1881	}
				1882
				1883	if (mddev_is_clustered(mddev))
				1884	sb->feature_map \|= cpu_to_le32(MD_FEATURE_CLUSTERED);
				1885
				1886	if (rdev->badblocks.count == 0)
				1887	/* Nothing to do for bad blocks*/ ;
				1888	else if (sb->bblog_offset == 0)
				1889	/* Cannot record bad blocks on this device */
				1890	md_error(mddev, rdev);
				1891	else {
				1892	struct badblocks *bb = &rdev->badblocks;
				1893	u64 bbp = (u64 )page_address(rdev->bb_page);
				1894	u64 *p = bb->page;
				1895	sb->feature_map \|= cpu_to_le32(MD_FEATURE_BAD_BLOCKS);
				1896	if (bb->changed) {
				1897	unsigned seq;
				1898
				1899	retry:
				1900	seq = read_seqbegin(&bb->lock);
				1901
				1902	memset(bbp, 0xff, PAGE_SIZE);
				1903
				1904	for (i = 0 ; i < bb->count ; i++) {
				1905	u64 internal_bb = p[i];
				1906	u64 store_bb = ((BB_OFFSET(internal_bb) << 10)
				1907	\| BB_LEN(internal_bb));
				1908	bbp[i] = cpu_to_le64(store_bb);
				1909	}
				1910	bb->changed = 0;
				1911	if (read_seqretry(&bb->lock, seq))
				1912	goto retry;
				1913
				1914	bb->sector = (rdev->sb_start +
				1915	(int)le32_to_cpu(sb->bblog_offset));
				1916	bb->size = le16_to_cpu(sb->bblog_size);
				1917	}
				1918	}
				1919
				1920	max_dev = 0;
				1921	rdev_for_each(rdev2, mddev)
				1922	if (rdev2->desc_nr+1 > max_dev)
				1923	max_dev = rdev2->desc_nr+1;
				1924
				1925	if (max_dev > le32_to_cpu(sb->max_dev)) {
				1926	int bmask;
				1927	sb->max_dev = cpu_to_le32(max_dev);
				1928	rdev->sb_size = max_dev * 2 + 256;
				1929	bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
				1930	if (rdev->sb_size & bmask)
				1931	rdev->sb_size = (rdev->sb_size \| bmask) + 1;
				1932	} else
				1933	max_dev = le32_to_cpu(sb->max_dev);
				1934
				1935	for (i=0; i<max_dev;i++)
				1936	sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_SPARE);
				1937
				1938	if (test_bit(MD_HAS_JOURNAL, &mddev->flags))
				1939	sb->feature_map \|= cpu_to_le32(MD_FEATURE_JOURNAL);
				1940
				1941	if (test_bit(MD_HAS_PPL, &mddev->flags)) {
				1942	if (test_bit(MD_HAS_MULTIPLE_PPLS, &mddev->flags))
				1943	sb->feature_map \|=
				1944	cpu_to_le32(MD_FEATURE_MULTIPLE_PPLS);
				1945	else
				1946	sb->feature_map \|= cpu_to_le32(MD_FEATURE_PPL);
				1947	sb->ppl.offset = cpu_to_le16(rdev->ppl.offset);
				1948	sb->ppl.size = cpu_to_le16(rdev->ppl.size);
				1949	}
				1950
				1951	rdev_for_each(rdev2, mddev) {
				1952	i = rdev2->desc_nr;
				1953	if (test_bit(Faulty, &rdev2->flags))
				1954	sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_FAULTY);
				1955	else if (test_bit(In_sync, &rdev2->flags))
				1956	sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
				1957	else if (test_bit(Journal, &rdev2->flags))
				1958	sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_JOURNAL);
				1959	else if (rdev2->raid_disk >= 0)
				1960	sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
				1961	else
				1962	sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_SPARE);
				1963	}
				1964
				1965	sb->sb_csum = calc_sb_1_csum(sb);
				1966	}
				1967
				1968	static unsigned long long
				1969	super_1_rdev_size_change(struct md_rdev *rdev, sector_t num_sectors)
				1970	{
				1971	struct mdp_superblock_1 *sb;
				1972	sector_t max_sectors;
				1973	if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
				1974	return 0; /* component must fit device */
				1975	if (rdev->data_offset != rdev->new_data_offset)
				1976	return 0; /* too confusing */
				1977	if (rdev->sb_start < rdev->data_offset) {
				1978	/* minor versions 1 and 2; superblock before data */
				1979	max_sectors = i_size_read(rdev->bdev->bd_inode) >> 9;
				1980	max_sectors -= rdev->data_offset;
				1981	if (!num_sectors \|\| num_sectors > max_sectors)
				1982	num_sectors = max_sectors;
				1983	} else if (rdev->mddev->bitmap_info.offset) {
				1984	/* minor version 0 with bitmap we can't move */
				1985	return 0;
				1986	} else {
				1987	/* minor version 0; superblock after data */
				1988	sector_t sb_start;
				1989	sb_start = (i_size_read(rdev->bdev->bd_inode) >> 9) - 8*2;
				1990	sb_start &= ~(sector_t)(4*2 - 1);
				1991	max_sectors = rdev->sectors + sb_start - rdev->sb_start;
				1992	if (!num_sectors \|\| num_sectors > max_sectors)
				1993	num_sectors = max_sectors;
				1994	rdev->sb_start = sb_start;
				1995	}
				1996	sb = page_address(rdev->sb_page);
				1997	sb->data_size = cpu_to_le64(num_sectors);
				1998	sb->super_offset = cpu_to_le64(rdev->sb_start);
				1999	sb->sb_csum = calc_sb_1_csum(sb);
				2000	do {
				2001	md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
				2002	rdev->sb_page);
				2003	} while (md_super_wait(rdev->mddev) < 0);
				2004	return num_sectors;
				2005
				2006	}
				2007
				2008	static int
				2009	super_1_allow_new_offset(struct md_rdev *rdev,
				2010	unsigned long long new_offset)
				2011	{
				2012	/* All necessary checks on new >= old have been done */
				2013	struct bitmap *bitmap;
				2014	if (new_offset >= rdev->data_offset)
				2015	return 1;
				2016
				2017	/* with 1.0 metadata, there is no metadata to tread on
				2018	* so we can always move back */
				2019	if (rdev->mddev->minor_version == 0)
				2020	return 1;
				2021
				2022	/* otherwise we must be sure not to step on
				2023	* any metadata, so stay:
				2024	* 36K beyond start of superblock
				2025	* beyond end of badblocks
				2026	* beyond write-intent bitmap
				2027	*/
				2028	if (rdev->sb_start + (32+4)*2 > new_offset)
				2029	return 0;
				2030	bitmap = rdev->mddev->bitmap;
				2031	if (bitmap && !rdev->mddev->bitmap_info.file &&
				2032	rdev->sb_start + rdev->mddev->bitmap_info.offset +
				2033	bitmap->storage.file_pages * (PAGE_SIZE>>9) > new_offset)
				2034	return 0;
				2035	if (rdev->badblocks.sector + rdev->badblocks.size > new_offset)
				2036	return 0;
				2037
				2038	return 1;
				2039	}
				2040
				2041	static struct super_type super_types[] = {
				2042	[0] = {
				2043	.name = "0.90.0",
				2044	.owner = THIS_MODULE,
				2045	.load_super = super_90_load,
				2046	.validate_super = super_90_validate,
				2047	.sync_super = super_90_sync,
				2048	.rdev_size_change = super_90_rdev_size_change,
				2049	.allow_new_offset = super_90_allow_new_offset,
				2050	},
				2051	[1] = {
				2052	.name = "md-1",
				2053	.owner = THIS_MODULE,
				2054	.load_super = super_1_load,
				2055	.validate_super = super_1_validate,
				2056	.sync_super = super_1_sync,
				2057	.rdev_size_change = super_1_rdev_size_change,
				2058	.allow_new_offset = super_1_allow_new_offset,
				2059	},
				2060	};
				2061
				2062	static void sync_super(struct mddev mddev, struct md_rdev rdev)
				2063	{
				2064	if (mddev->sync_super) {
				2065	mddev->sync_super(mddev, rdev);
				2066	return;
				2067	}
				2068
				2069	BUG_ON(mddev->major_version >= ARRAY_SIZE(super_types));
				2070
				2071	super_types[mddev->major_version].sync_super(mddev, rdev);
				2072	}
				2073
				2074	static int match_mddev_units(struct mddev mddev1, struct mddev mddev2)
				2075	{
				2076	struct md_rdev rdev, rdev2;
				2077
				2078	rcu_read_lock();
				2079	rdev_for_each_rcu(rdev, mddev1) {
				2080	if (test_bit(Faulty, &rdev->flags) \|\|
				2081	test_bit(Journal, &rdev->flags) \|\|
				2082	rdev->raid_disk == -1)
				2083	continue;
				2084	rdev_for_each_rcu(rdev2, mddev2) {
				2085	if (test_bit(Faulty, &rdev2->flags) \|\|
				2086	test_bit(Journal, &rdev2->flags) \|\|
				2087	rdev2->raid_disk == -1)
				2088	continue;
				2089	if (rdev->bdev->bd_contains ==
				2090	rdev2->bdev->bd_contains) {
				2091	rcu_read_unlock();
				2092	return 1;
				2093	}
				2094	}
				2095	}
				2096	rcu_read_unlock();
				2097	return 0;
				2098	}
				2099
				2100	static LIST_HEAD(pending_raid_disks);
				2101
				2102	/*
				2103	* Try to register data integrity profile for an mddev
				2104	*
				2105	* This is called when an array is started and after a disk has been kicked
				2106	* from the array. It only succeeds if all working and active component devices
				2107	* are integrity capable with matching profiles.
				2108	*/
				2109	int md_integrity_register(struct mddev *mddev)
				2110	{
				2111	struct md_rdev rdev, reference = NULL;
				2112
				2113	if (list_empty(&mddev->disks))
				2114	return 0; /* nothing to do */
				2115	if (!mddev->gendisk \|\| blk_get_integrity(mddev->gendisk))
				2116	return 0; /* shouldn't register, or already is */
				2117	rdev_for_each(rdev, mddev) {
				2118	/* skip spares and non-functional disks */
				2119	if (test_bit(Faulty, &rdev->flags))
				2120	continue;
				2121	if (rdev->raid_disk < 0)
				2122	continue;
				2123	if (!reference) {
				2124	/* Use the first rdev as the reference */
				2125	reference = rdev;
				2126	continue;
				2127	}
				2128	/* does this rdev's profile match the reference profile? */
				2129	if (blk_integrity_compare(reference->bdev->bd_disk,
				2130	rdev->bdev->bd_disk) < 0)
				2131	return -EINVAL;
				2132	}
				2133	if (!reference \|\| !bdev_get_integrity(reference->bdev))
				2134	return 0;
				2135	/*
				2136	* All component devices are integrity capable and have matching
				2137	* profiles, register the common profile for the md device.
				2138	*/
				2139	blk_integrity_register(mddev->gendisk,
				2140	bdev_get_integrity(reference->bdev));
				2141
				2142	pr_debug("md: data integrity enabled on %s\n", mdname(mddev));
				2143	if (bioset_integrity_create(mddev->bio_set, BIO_POOL_SIZE)) {
				2144	pr_err("md: failed to create integrity pool for %s\n",
				2145	mdname(mddev));
				2146	return -EINVAL;
				2147	}
				2148	return 0;
				2149	}
				2150	EXPORT_SYMBOL(md_integrity_register);
				2151
				2152	/*
				2153	* Attempt to add an rdev, but only if it is consistent with the current
				2154	* integrity profile
				2155	*/
				2156	int md_integrity_add_rdev(struct md_rdev rdev, struct mddev mddev)
				2157	{
				2158	struct blk_integrity *bi_rdev;
				2159	struct blk_integrity *bi_mddev;
				2160	char name[BDEVNAME_SIZE];
				2161
				2162	if (!mddev->gendisk)
				2163	return 0;
				2164
				2165	bi_rdev = bdev_get_integrity(rdev->bdev);
				2166	bi_mddev = blk_get_integrity(mddev->gendisk);
				2167
				2168	if (!bi_mddev) /* nothing to do */
				2169	return 0;
				2170
				2171	if (blk_integrity_compare(mddev->gendisk, rdev->bdev->bd_disk) != 0) {
				2172	pr_err("%s: incompatible integrity profile for %s\n",
				2173	mdname(mddev), bdevname(rdev->bdev, name));
				2174	return -ENXIO;
				2175	}
				2176
				2177	return 0;
				2178	}
				2179	EXPORT_SYMBOL(md_integrity_add_rdev);
				2180
				2181	static int bind_rdev_to_array(struct md_rdev rdev, struct mddev mddev)
				2182	{
				2183	char b[BDEVNAME_SIZE];
				2184	struct kobject *ko;
				2185	int err;
				2186
				2187	/* prevent duplicates */
				2188	if (find_rdev(mddev, rdev->bdev->bd_dev))
				2189	return -EEXIST;
				2190
				2191	if ((bdev_read_only(rdev->bdev) \|\| bdev_read_only(rdev->meta_bdev)) &&
				2192	mddev->pers)
				2193	return -EROFS;
				2194
				2195	/* make sure rdev->sectors exceeds mddev->dev_sectors */
				2196	if (!test_bit(Journal, &rdev->flags) &&
				2197	rdev->sectors &&
				2198	(mddev->dev_sectors == 0 \|\| rdev->sectors < mddev->dev_sectors)) {
				2199	if (mddev->pers) {
				2200	/* Cannot change size, so fail
				2201	* If mddev->level <= 0, then we don't care
				2202	* about aligning sizes (e.g. linear)
				2203	*/
				2204	if (mddev->level > 0)
				2205	return -ENOSPC;
				2206	} else
				2207	mddev->dev_sectors = rdev->sectors;
				2208	}
				2209
				2210	/* Verify rdev->desc_nr is unique.
				2211	* If it is -1, assign a free number, else
				2212	* check number is not in use
				2213	*/
				2214	rcu_read_lock();
				2215	if (rdev->desc_nr < 0) {
				2216	int choice = 0;
				2217	if (mddev->pers)
				2218	choice = mddev->raid_disks;
				2219	while (md_find_rdev_nr_rcu(mddev, choice))
				2220	choice++;
				2221	rdev->desc_nr = choice;
				2222	} else {
				2223	if (md_find_rdev_nr_rcu(mddev, rdev->desc_nr)) {
				2224	rcu_read_unlock();
				2225	return -EBUSY;
				2226	}
				2227	}
				2228	rcu_read_unlock();
				2229	if (!test_bit(Journal, &rdev->flags) &&
				2230	mddev->max_disks && rdev->desc_nr >= mddev->max_disks) {
				2231	pr_warn("md: %s: array is limited to %d devices\n",
				2232	mdname(mddev), mddev->max_disks);
				2233	return -EBUSY;
				2234	}
				2235	bdevname(rdev->bdev,b);
				2236	strreplace(b, '/', '!');
				2237
				2238	rdev->mddev = mddev;
				2239	pr_debug("md: bind<%s>\n", b);
				2240
				2241	if ((err = kobject_add(&rdev->kobj, &mddev->kobj, "dev-%s", b)))
				2242	goto fail;
				2243
				2244	ko = &part_to_dev(rdev->bdev->bd_part)->kobj;
				2245	if (sysfs_create_link(&rdev->kobj, ko, "block"))
				2246	/* failure here is OK */;
				2247	rdev->sysfs_state = sysfs_get_dirent_safe(rdev->kobj.sd, "state");
				2248
				2249	list_add_rcu(&rdev->same_set, &mddev->disks);
				2250	bd_link_disk_holder(rdev->bdev, mddev->gendisk);
				2251
				2252	/* May as well allow recovery to be retried once */
				2253	mddev->recovery_disabled++;
				2254
				2255	return 0;
				2256
				2257	fail:
				2258	pr_warn("md: failed to register dev-%s for %s\n",
				2259	b, mdname(mddev));
				2260	return err;
				2261	}
				2262
				2263	static void md_delayed_delete(struct work_struct *ws)
				2264	{
				2265	struct md_rdev *rdev = container_of(ws, struct md_rdev, del_work);
				2266	kobject_del(&rdev->kobj);
				2267	kobject_put(&rdev->kobj);
				2268	}
				2269
				2270	static void unbind_rdev_from_array(struct md_rdev *rdev)
				2271	{
				2272	char b[BDEVNAME_SIZE];
				2273
				2274	bd_unlink_disk_holder(rdev->bdev, rdev->mddev->gendisk);
				2275	list_del_rcu(&rdev->same_set);
				2276	pr_debug("md: unbind<%s>\n", bdevname(rdev->bdev,b));
				2277	rdev->mddev = NULL;
				2278	sysfs_remove_link(&rdev->kobj, "block");
				2279	sysfs_put(rdev->sysfs_state);
				2280	rdev->sysfs_state = NULL;
				2281	rdev->badblocks.count = 0;
				2282	/* We need to delay this, otherwise we can deadlock when
				2283	* writing to 'remove' to "dev/state". We also need
				2284	* to delay it due to rcu usage.
				2285	*/
				2286	synchronize_rcu();
				2287	INIT_WORK(&rdev->del_work, md_delayed_delete);
				2288	kobject_get(&rdev->kobj);
				2289	queue_work(md_misc_wq, &rdev->del_work);
				2290	}
				2291
				2292	/*
				2293	* prevent the device from being mounted, repartitioned or
				2294	* otherwise reused by a RAID array (or any other kernel
				2295	* subsystem), by bd_claiming the device.
				2296	*/
				2297	static int lock_rdev(struct md_rdev *rdev, dev_t dev, int shared)
				2298	{
				2299	int err = 0;
				2300	struct block_device *bdev;
				2301	char b[BDEVNAME_SIZE];
				2302
				2303	bdev = blkdev_get_by_dev(dev, FMODE_READ\|FMODE_WRITE\|FMODE_EXCL,
				2304	shared ? (struct md_rdev *)lock_rdev : rdev);
				2305	if (IS_ERR(bdev)) {
				2306	pr_warn("md: could not open %s.\n", __bdevname(dev, b));
				2307	return PTR_ERR(bdev);
				2308	}
				2309	rdev->bdev = bdev;
				2310	return err;
				2311	}
				2312
				2313	static void unlock_rdev(struct md_rdev *rdev)
				2314	{
				2315	struct block_device *bdev = rdev->bdev;
				2316	rdev->bdev = NULL;
				2317	blkdev_put(bdev, FMODE_READ\|FMODE_WRITE\|FMODE_EXCL);
				2318	}
				2319
				2320	void md_autodetect_dev(dev_t dev);
				2321
				2322	static void export_rdev(struct md_rdev *rdev)
				2323	{
				2324	char b[BDEVNAME_SIZE];
				2325
				2326	pr_debug("md: export_rdev(%s)\n", bdevname(rdev->bdev,b));
				2327	md_rdev_clear(rdev);
				2328	#ifndef MODULE
				2329	if (test_bit(AutoDetected, &rdev->flags))
				2330	md_autodetect_dev(rdev->bdev->bd_dev);
				2331	#endif
				2332	unlock_rdev(rdev);
				2333	kobject_put(&rdev->kobj);
				2334	}
				2335
				2336	void md_kick_rdev_from_array(struct md_rdev *rdev)
				2337	{
				2338	unbind_rdev_from_array(rdev);
				2339	export_rdev(rdev);
				2340	}
				2341	EXPORT_SYMBOL_GPL(md_kick_rdev_from_array);
				2342
				2343	static void export_array(struct mddev *mddev)
				2344	{
				2345	struct md_rdev *rdev;
				2346
				2347	while (!list_empty(&mddev->disks)) {
				2348	rdev = list_first_entry(&mddev->disks, struct md_rdev,
				2349	same_set);
				2350	md_kick_rdev_from_array(rdev);
				2351	}
				2352	mddev->raid_disks = 0;
				2353	mddev->major_version = 0;
				2354	}
				2355
				2356	static bool set_in_sync(struct mddev *mddev)
				2357	{
				2358	WARN_ON_ONCE(NR_CPUS != 1 && !spin_is_locked(&mddev->lock));
				2359	if (!mddev->in_sync) {
				2360	mddev->sync_checkers++;
				2361	spin_unlock(&mddev->lock);
				2362	percpu_ref_switch_to_atomic_sync(&mddev->writes_pending);
				2363	spin_lock(&mddev->lock);
				2364	if (!mddev->in_sync &&
				2365	percpu_ref_is_zero(&mddev->writes_pending)) {
				2366	mddev->in_sync = 1;
				2367	/*
				2368	* Ensure ->in_sync is visible before we clear
				2369	* ->sync_checkers.
				2370	*/
				2371	smp_mb();
				2372	set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				2373	sysfs_notify_dirent_safe(mddev->sysfs_state);
				2374	}
				2375	if (--mddev->sync_checkers == 0)
				2376	percpu_ref_switch_to_percpu(&mddev->writes_pending);
				2377	}
				2378	if (mddev->safemode == 1)
				2379	mddev->safemode = 0;
				2380	return mddev->in_sync;
				2381	}
				2382
				2383	static void sync_sbs(struct mddev *mddev, int nospares)
				2384	{
				2385	/* Update each superblock (in-memory image), but
				2386	* if we are allowed to, skip spares which already
				2387	* have the right event counter, or have one earlier
				2388	* (which would mean they aren't being marked as dirty
				2389	* with the rest of the array)
				2390	*/
				2391	struct md_rdev *rdev;
				2392	rdev_for_each(rdev, mddev) {
				2393	if (rdev->sb_events == mddev->events \|\|
				2394	(nospares &&
				2395	rdev->raid_disk < 0 &&
				2396	rdev->sb_events+1 == mddev->events)) {
				2397	/* Don't update this superblock */
				2398	rdev->sb_loaded = 2;
				2399	} else {
				2400	sync_super(mddev, rdev);
				2401	rdev->sb_loaded = 1;
				2402	}
				2403	}
				2404	}
				2405
				2406	static bool does_sb_need_changing(struct mddev *mddev)
				2407	{
				2408	struct md_rdev *rdev;
				2409	struct mdp_superblock_1 *sb;
				2410	int role;
				2411
				2412	/* Find a good rdev */
				2413	rdev_for_each(rdev, mddev)
				2414	if ((rdev->raid_disk >= 0) && !test_bit(Faulty, &rdev->flags))
				2415	break;
				2416
				2417	/* No good device found. */
				2418	if (!rdev)
				2419	return false;
				2420
				2421	sb = page_address(rdev->sb_page);
				2422	/* Check if a device has become faulty or a spare become active */
				2423	rdev_for_each(rdev, mddev) {
				2424	role = le16_to_cpu(sb->dev_roles[rdev->desc_nr]);
				2425	/* Device activated? */
				2426	if (role == 0xffff && rdev->raid_disk >=0 &&
				2427	!test_bit(Faulty, &rdev->flags))
				2428	return true;
				2429	/* Device turned faulty? */
				2430	if (test_bit(Faulty, &rdev->flags) && (role < 0xfffd))
				2431	return true;
				2432	}
				2433
				2434	/* Check if any mddev parameters have changed */
				2435	if ((mddev->dev_sectors != le64_to_cpu(sb->size)) \|\|
				2436	(mddev->reshape_position != le64_to_cpu(sb->reshape_position)) \|\|
				2437	(mddev->layout != le32_to_cpu(sb->layout)) \|\|
				2438	(mddev->raid_disks != le32_to_cpu(sb->raid_disks)) \|\|
				2439	(mddev->chunk_sectors != le32_to_cpu(sb->chunksize)))
				2440	return true;
				2441
				2442	return false;
				2443	}
				2444
				2445	void md_update_sb(struct mddev *mddev, int force_change)
				2446	{
				2447	struct md_rdev *rdev;
				2448	int sync_req;
				2449	int nospares = 0;
				2450	int any_badblocks_changed = 0;
				2451	int ret = -1;
				2452
				2453	if (mddev->ro) {
				2454	if (force_change)
				2455	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				2456	return;
				2457	}
				2458
				2459	repeat:
				2460	if (mddev_is_clustered(mddev)) {
				2461	if (test_and_clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags))
				2462	force_change = 1;
				2463	if (test_and_clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags))
				2464	nospares = 1;
				2465	ret = md_cluster_ops->metadata_update_start(mddev);
				2466	/* Has someone else has updated the sb */
				2467	if (!does_sb_need_changing(mddev)) {
				2468	if (ret == 0)
				2469	md_cluster_ops->metadata_update_cancel(mddev);
				2470	bit_clear_unless(&mddev->sb_flags, BIT(MD_SB_CHANGE_PENDING),
				2471	BIT(MD_SB_CHANGE_DEVS) \|
				2472	BIT(MD_SB_CHANGE_CLEAN));
				2473	return;
				2474	}
				2475	}
				2476
				2477	/* First make sure individual recovery_offsets are correct */
				2478	rdev_for_each(rdev, mddev) {
				2479	if (rdev->raid_disk >= 0 &&
				2480	mddev->delta_disks >= 0 &&
				2481	!test_bit(Journal, &rdev->flags) &&
				2482	!test_bit(In_sync, &rdev->flags) &&
				2483	mddev->curr_resync_completed > rdev->recovery_offset)
				2484	rdev->recovery_offset = mddev->curr_resync_completed;
				2485
				2486	}
				2487	if (!mddev->persistent) {
				2488	clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				2489	clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				2490	if (!mddev->external) {
				2491	clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				2492	rdev_for_each(rdev, mddev) {
				2493	if (rdev->badblocks.changed) {
				2494	rdev->badblocks.changed = 0;
				2495	ack_all_badblocks(&rdev->badblocks);
				2496	md_error(mddev, rdev);
				2497	}
				2498	clear_bit(Blocked, &rdev->flags);
				2499	clear_bit(BlockedBadBlocks, &rdev->flags);
				2500	wake_up(&rdev->blocked_wait);
				2501	}
				2502	}
				2503	wake_up(&mddev->sb_wait);
				2504	return;
				2505	}
				2506
				2507	spin_lock(&mddev->lock);
				2508
				2509	mddev->utime = ktime_get_real_seconds();
				2510
				2511	if (test_and_clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags))
				2512	force_change = 1;
				2513	if (test_and_clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags))
				2514	/* just a clean<-> dirty transition, possibly leave spares alone,
				2515	* though if events isn't the right even/odd, we will have to do
				2516	* spares after all
				2517	*/
				2518	nospares = 1;
				2519	if (force_change)
				2520	nospares = 0;
				2521	if (mddev->degraded)
				2522	/* If the array is degraded, then skipping spares is both
				2523	* dangerous and fairly pointless.
				2524	* Dangerous because a device that was removed from the array
				2525	* might have a event_count that still looks up-to-date,
				2526	* so it can be re-added without a resync.
				2527	* Pointless because if there are any spares to skip,
				2528	* then a recovery will happen and soon that array won't
				2529	* be degraded any more and the spare can go back to sleep then.
				2530	*/
				2531	nospares = 0;
				2532
				2533	sync_req = mddev->in_sync;
				2534
				2535	/* If this is just a dirty<->clean transition, and the array is clean
				2536	* and 'events' is odd, we can roll back to the previous clean state */
				2537	if (nospares
				2538	&& (mddev->in_sync && mddev->recovery_cp == MaxSector)
				2539	&& mddev->can_decrease_events
				2540	&& mddev->events != 1) {
				2541	mddev->events--;
				2542	mddev->can_decrease_events = 0;
				2543	} else {
				2544	/* otherwise we have to go forward and ... */
				2545	mddev->events ++;
				2546	mddev->can_decrease_events = nospares;
				2547	}
				2548
				2549	/*
				2550	* This 64-bit counter should never wrap.
				2551	* Either we are in around ~1 trillion A.C., assuming
				2552	* 1 reboot per second, or we have a bug...
				2553	*/
				2554	WARN_ON(mddev->events == 0);
				2555
				2556	rdev_for_each(rdev, mddev) {
				2557	if (rdev->badblocks.changed)
				2558	any_badblocks_changed++;
				2559	if (test_bit(Faulty, &rdev->flags))
				2560	set_bit(FaultRecorded, &rdev->flags);
				2561	}
				2562
				2563	sync_sbs(mddev, nospares);
				2564	spin_unlock(&mddev->lock);
				2565
				2566	pr_debug("md: updating %s RAID superblock on device (in sync %d)\n",
				2567	mdname(mddev), mddev->in_sync);
				2568
				2569	if (mddev->queue)
				2570	blk_add_trace_msg(mddev->queue, "md md_update_sb");
				2571	rewrite:
				2572	bitmap_update_sb(mddev->bitmap);
				2573	rdev_for_each(rdev, mddev) {
				2574	char b[BDEVNAME_SIZE];
				2575
				2576	if (rdev->sb_loaded != 1)
				2577	continue; /* no noise on spare devices */
				2578
				2579	if (!test_bit(Faulty, &rdev->flags)) {
				2580	md_super_write(mddev,rdev,
				2581	rdev->sb_start, rdev->sb_size,
				2582	rdev->sb_page);
				2583	pr_debug("md: (write) %s's sb offset: %llu\n",
				2584	bdevname(rdev->bdev, b),
				2585	(unsigned long long)rdev->sb_start);
				2586	rdev->sb_events = mddev->events;
				2587	if (rdev->badblocks.size) {
				2588	md_super_write(mddev, rdev,
				2589	rdev->badblocks.sector,
				2590	rdev->badblocks.size << 9,
				2591	rdev->bb_page);
				2592	rdev->badblocks.size = 0;
				2593	}
				2594
				2595	} else
				2596	pr_debug("md: %s (skipping faulty)\n",
				2597	bdevname(rdev->bdev, b));
				2598
				2599	if (mddev->level == LEVEL_MULTIPATH)
				2600	/* only need to write one superblock... */
				2601	break;
				2602	}
				2603	if (md_super_wait(mddev) < 0)
				2604	goto rewrite;
				2605	/* if there was a failure, MD_SB_CHANGE_DEVS was set, and we re-write super */
				2606
				2607	if (mddev_is_clustered(mddev) && ret == 0)
				2608	md_cluster_ops->metadata_update_finish(mddev);
				2609
				2610	if (mddev->in_sync != sync_req \|\|
				2611	!bit_clear_unless(&mddev->sb_flags, BIT(MD_SB_CHANGE_PENDING),
				2612	BIT(MD_SB_CHANGE_DEVS) \| BIT(MD_SB_CHANGE_CLEAN)))
				2613	/* have to write it out again */
				2614	goto repeat;
				2615	wake_up(&mddev->sb_wait);
				2616	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				2617	sysfs_notify(&mddev->kobj, NULL, "sync_completed");
				2618
				2619	rdev_for_each(rdev, mddev) {
				2620	if (test_and_clear_bit(FaultRecorded, &rdev->flags))
				2621	clear_bit(Blocked, &rdev->flags);
				2622
				2623	if (any_badblocks_changed)
				2624	ack_all_badblocks(&rdev->badblocks);
				2625	clear_bit(BlockedBadBlocks, &rdev->flags);
				2626	wake_up(&rdev->blocked_wait);
				2627	}
				2628	}
				2629	EXPORT_SYMBOL(md_update_sb);
				2630
				2631	static int add_bound_rdev(struct md_rdev *rdev)
				2632	{
				2633	struct mddev *mddev = rdev->mddev;
				2634	int err = 0;
				2635	bool add_journal = test_bit(Journal, &rdev->flags);
				2636
				2637	if (!mddev->pers->hot_remove_disk \|\| add_journal) {
				2638	/* If there is hot_add_disk but no hot_remove_disk
				2639	* then added disks for geometry changes,
				2640	* and should be added immediately.
				2641	*/
				2642	super_types[mddev->major_version].
				2643	validate_super(mddev, rdev);
				2644	if (add_journal)
				2645	mddev_suspend(mddev);
				2646	err = mddev->pers->hot_add_disk(mddev, rdev);
				2647	if (add_journal)
				2648	mddev_resume(mddev);
				2649	if (err) {
				2650	md_kick_rdev_from_array(rdev);
				2651	return err;
				2652	}
				2653	}
				2654	sysfs_notify_dirent_safe(rdev->sysfs_state);
				2655
				2656	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				2657	if (mddev->degraded)
				2658	set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				2659	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				2660	md_new_event(mddev);
				2661	md_wakeup_thread(mddev->thread);
				2662	return 0;
				2663	}
				2664
				2665	/* words written to sysfs files may, or may not, be \n terminated.
				2666	* We want to accept with case. For this we use cmd_match.
				2667	*/
				2668	static int cmd_match(const char cmd, const char str)
				2669	{
				2670	/* See if cmd, written into a sysfs file, matches
				2671	* str. They must either be the same, or cmd can
				2672	* have a trailing newline
				2673	*/
				2674	while (cmd && str && cmd == str) {
				2675	cmd++;
				2676	str++;
				2677	}
				2678	if (*cmd == '\n')
				2679	cmd++;
				2680	if (str \|\| cmd)
				2681	return 0;
				2682	return 1;
				2683	}
				2684
				2685	struct rdev_sysfs_entry {
				2686	struct attribute attr;
				2687	ssize_t (show)(struct md_rdev , char *);
				2688	ssize_t (store)(struct md_rdev , const char *, size_t);
				2689	};
				2690
				2691	static ssize_t
				2692	state_show(struct md_rdev rdev, char page)
				2693	{
				2694	char *sep = ",";
				2695	size_t len = 0;
				2696	unsigned long flags = ACCESS_ONCE(rdev->flags);
				2697
				2698	if (test_bit(Faulty, &flags) \|\|
				2699	(!test_bit(ExternalBbl, &flags) &&
				2700	rdev->badblocks.unacked_exist))
				2701	len += sprintf(page+len, "faulty%s", sep);
				2702	if (test_bit(In_sync, &flags))
				2703	len += sprintf(page+len, "in_sync%s", sep);
				2704	if (test_bit(Journal, &flags))
				2705	len += sprintf(page+len, "journal%s", sep);
				2706	if (test_bit(WriteMostly, &flags))
				2707	len += sprintf(page+len, "write_mostly%s", sep);
				2708	if (test_bit(Blocked, &flags) \|\|
				2709	(rdev->badblocks.unacked_exist
				2710	&& !test_bit(Faulty, &flags)))
				2711	len += sprintf(page+len, "blocked%s", sep);
				2712	if (!test_bit(Faulty, &flags) &&
				2713	!test_bit(Journal, &flags) &&
				2714	!test_bit(In_sync, &flags))
				2715	len += sprintf(page+len, "spare%s", sep);
				2716	if (test_bit(WriteErrorSeen, &flags))
				2717	len += sprintf(page+len, "write_error%s", sep);
				2718	if (test_bit(WantReplacement, &flags))
				2719	len += sprintf(page+len, "want_replacement%s", sep);
				2720	if (test_bit(Replacement, &flags))
				2721	len += sprintf(page+len, "replacement%s", sep);
				2722	if (test_bit(ExternalBbl, &flags))
				2723	len += sprintf(page+len, "external_bbl%s", sep);
				2724	if (test_bit(FailFast, &flags))
				2725	len += sprintf(page+len, "failfast%s", sep);
				2726
				2727	if (len)
				2728	len -= strlen(sep);
				2729
				2730	return len+sprintf(page+len, "\n");
				2731	}
				2732
				2733	static ssize_t
				2734	state_store(struct md_rdev rdev, const char buf, size_t len)
				2735	{
				2736	/* can write
				2737	* faulty - simulates an error
				2738	* remove - disconnects the device
				2739	* writemostly - sets write_mostly
				2740	* -writemostly - clears write_mostly
				2741	* blocked - sets the Blocked flags
				2742	* -blocked - clears the Blocked and possibly simulates an error
				2743	* insync - sets Insync providing device isn't active
				2744	* -insync - clear Insync for a device with a slot assigned,
				2745	* so that it gets rebuilt based on bitmap
				2746	* write_error - sets WriteErrorSeen
				2747	* -write_error - clears WriteErrorSeen
				2748	* {,-}failfast - set/clear FailFast
				2749	*/
				2750	int err = -EINVAL;
				2751	if (cmd_match(buf, "faulty") && rdev->mddev->pers) {
				2752	md_error(rdev->mddev, rdev);
				2753	if (test_bit(Faulty, &rdev->flags))
				2754	err = 0;
				2755	else
				2756	err = -EBUSY;
				2757	} else if (cmd_match(buf, "remove")) {
				2758	if (rdev->mddev->pers) {
				2759	clear_bit(Blocked, &rdev->flags);
				2760	remove_and_add_spares(rdev->mddev, rdev);
				2761	}
				2762	if (rdev->raid_disk >= 0)
				2763	err = -EBUSY;
				2764	else {
				2765	struct mddev *mddev = rdev->mddev;
				2766	err = 0;
				2767	if (mddev_is_clustered(mddev))
				2768	err = md_cluster_ops->remove_disk(mddev, rdev);
				2769
				2770	if (err == 0) {
				2771	md_kick_rdev_from_array(rdev);
				2772	if (mddev->pers) {
				2773	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				2774	md_wakeup_thread(mddev->thread);
				2775	}
				2776	md_new_event(mddev);
				2777	}
				2778	}
				2779	} else if (cmd_match(buf, "writemostly")) {
				2780	set_bit(WriteMostly, &rdev->flags);
				2781	err = 0;
				2782	} else if (cmd_match(buf, "-writemostly")) {
				2783	clear_bit(WriteMostly, &rdev->flags);
				2784	err = 0;
				2785	} else if (cmd_match(buf, "blocked")) {
				2786	set_bit(Blocked, &rdev->flags);
				2787	err = 0;
				2788	} else if (cmd_match(buf, "-blocked")) {
				2789	if (!test_bit(Faulty, &rdev->flags) &&
				2790	!test_bit(ExternalBbl, &rdev->flags) &&
				2791	rdev->badblocks.unacked_exist) {
				2792	/* metadata handler doesn't understand badblocks,
				2793	* so we need to fail the device
				2794	*/
				2795	md_error(rdev->mddev, rdev);
				2796	}
				2797	clear_bit(Blocked, &rdev->flags);
				2798	clear_bit(BlockedBadBlocks, &rdev->flags);
				2799	wake_up(&rdev->blocked_wait);
				2800	set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
				2801	md_wakeup_thread(rdev->mddev->thread);
				2802
				2803	err = 0;
				2804	} else if (cmd_match(buf, "insync") && rdev->raid_disk == -1) {
				2805	set_bit(In_sync, &rdev->flags);
				2806	err = 0;
				2807	} else if (cmd_match(buf, "failfast")) {
				2808	set_bit(FailFast, &rdev->flags);
				2809	err = 0;
				2810	} else if (cmd_match(buf, "-failfast")) {
				2811	clear_bit(FailFast, &rdev->flags);
				2812	err = 0;
				2813	} else if (cmd_match(buf, "-insync") && rdev->raid_disk >= 0 &&
				2814	!test_bit(Journal, &rdev->flags)) {
				2815	if (rdev->mddev->pers == NULL) {
				2816	clear_bit(In_sync, &rdev->flags);
				2817	rdev->saved_raid_disk = rdev->raid_disk;
				2818	rdev->raid_disk = -1;
				2819	err = 0;
				2820	}
				2821	} else if (cmd_match(buf, "write_error")) {
				2822	set_bit(WriteErrorSeen, &rdev->flags);
				2823	err = 0;
				2824	} else if (cmd_match(buf, "-write_error")) {
				2825	clear_bit(WriteErrorSeen, &rdev->flags);
				2826	err = 0;
				2827	} else if (cmd_match(buf, "want_replacement")) {
				2828	/* Any non-spare device that is not a replacement can
				2829	* become want_replacement at any time, but we then need to
				2830	* check if recovery is needed.
				2831	*/
				2832	if (rdev->raid_disk >= 0 &&
				2833	!test_bit(Journal, &rdev->flags) &&
				2834	!test_bit(Replacement, &rdev->flags))
				2835	set_bit(WantReplacement, &rdev->flags);
				2836	set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
				2837	md_wakeup_thread(rdev->mddev->thread);
				2838	err = 0;
				2839	} else if (cmd_match(buf, "-want_replacement")) {
				2840	/* Clearing 'want_replacement' is always allowed.
				2841	* Once replacements starts it is too late though.
				2842	*/
				2843	err = 0;
				2844	clear_bit(WantReplacement, &rdev->flags);
				2845	} else if (cmd_match(buf, "replacement")) {
				2846	/* Can only set a device as a replacement when array has not
				2847	* yet been started. Once running, replacement is automatic
				2848	* from spares, or by assigning 'slot'.
				2849	*/
				2850	if (rdev->mddev->pers)
				2851	err = -EBUSY;
				2852	else {
				2853	set_bit(Replacement, &rdev->flags);
				2854	err = 0;
				2855	}
				2856	} else if (cmd_match(buf, "-replacement")) {
				2857	/* Similarly, can only clear Replacement before start */
				2858	if (rdev->mddev->pers)
				2859	err = -EBUSY;
				2860	else {
				2861	clear_bit(Replacement, &rdev->flags);
				2862	err = 0;
				2863	}
				2864	} else if (cmd_match(buf, "re-add")) {
				2865	if (!rdev->mddev->pers)
				2866	err = -EINVAL;
				2867	else if (test_bit(Faulty, &rdev->flags) && (rdev->raid_disk == -1) &&
				2868	rdev->saved_raid_disk >= 0) {
				2869	/* clear_bit is performed _after_ all the devices
				2870	* have their local Faulty bit cleared. If any writes
				2871	* happen in the meantime in the local node, they
				2872	* will land in the local bitmap, which will be synced
				2873	* by this node eventually
				2874	*/
				2875	if (!mddev_is_clustered(rdev->mddev) \|\|
				2876	(err = md_cluster_ops->gather_bitmaps(rdev)) == 0) {
				2877	clear_bit(Faulty, &rdev->flags);
				2878	err = add_bound_rdev(rdev);
				2879	}
				2880	} else
				2881	err = -EBUSY;
				2882	} else if (cmd_match(buf, "external_bbl") && (rdev->mddev->external)) {
				2883	set_bit(ExternalBbl, &rdev->flags);
				2884	rdev->badblocks.shift = 0;
				2885	err = 0;
				2886	} else if (cmd_match(buf, "-external_bbl") && (rdev->mddev->external)) {
				2887	clear_bit(ExternalBbl, &rdev->flags);
				2888	err = 0;
				2889	}
				2890	if (!err)
				2891	sysfs_notify_dirent_safe(rdev->sysfs_state);
				2892	return err ? err : len;
				2893	}
				2894	static struct rdev_sysfs_entry rdev_state =
				2895	__ATTR_PREALLOC(state, S_IRUGO\|S_IWUSR, state_show, state_store);
				2896
				2897	static ssize_t
				2898	errors_show(struct md_rdev rdev, char page)
				2899	{
				2900	return sprintf(page, "%d\n", atomic_read(&rdev->corrected_errors));
				2901	}
				2902
				2903	static ssize_t
				2904	errors_store(struct md_rdev rdev, const char buf, size_t len)
				2905	{
				2906	unsigned int n;
				2907	int rv;
				2908
				2909	rv = kstrtouint(buf, 10, &n);
				2910	if (rv < 0)
				2911	return rv;
				2912	atomic_set(&rdev->corrected_errors, n);
				2913	return len;
				2914	}
				2915	static struct rdev_sysfs_entry rdev_errors =
				2916	__ATTR(errors, S_IRUGO\|S_IWUSR, errors_show, errors_store);
				2917
				2918	static ssize_t
				2919	slot_show(struct md_rdev rdev, char page)
				2920	{
				2921	if (test_bit(Journal, &rdev->flags))
				2922	return sprintf(page, "journal\n");
				2923	else if (rdev->raid_disk < 0)
				2924	return sprintf(page, "none\n");
				2925	else
				2926	return sprintf(page, "%d\n", rdev->raid_disk);
				2927	}
				2928
				2929	static ssize_t
				2930	slot_store(struct md_rdev rdev, const char buf, size_t len)
				2931	{
				2932	int slot;
				2933	int err;
				2934
				2935	if (test_bit(Journal, &rdev->flags))
				2936	return -EBUSY;
				2937	if (strncmp(buf, "none", 4)==0)
				2938	slot = -1;
				2939	else {
				2940	err = kstrtouint(buf, 10, (unsigned int *)&slot);
				2941	if (err < 0)
				2942	return err;
				2943	}
				2944	if (rdev->mddev->pers && slot == -1) {
				2945	/* Setting 'slot' on an active array requires also
				2946	* updating the 'rd%d' link, and communicating
				2947	* with the personality with ->hot_*_disk.
				2948	* For now we only support removing
				2949	* failed/spare devices. This normally happens automatically,
				2950	* but not when the metadata is externally managed.
				2951	*/
				2952	if (rdev->raid_disk == -1)
				2953	return -EEXIST;
				2954	/* personality does all needed checks */
				2955	if (rdev->mddev->pers->hot_remove_disk == NULL)
				2956	return -EINVAL;
				2957	clear_bit(Blocked, &rdev->flags);
				2958	remove_and_add_spares(rdev->mddev, rdev);
				2959	if (rdev->raid_disk >= 0)
				2960	return -EBUSY;
				2961	set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
				2962	md_wakeup_thread(rdev->mddev->thread);
				2963	} else if (rdev->mddev->pers) {
				2964	/* Activating a spare .. or possibly reactivating
				2965	* if we ever get bitmaps working here.
				2966	*/
				2967	int err;
				2968
				2969	if (rdev->raid_disk != -1)
				2970	return -EBUSY;
				2971
				2972	if (test_bit(MD_RECOVERY_RUNNING, &rdev->mddev->recovery))
				2973	return -EBUSY;
				2974
				2975	if (rdev->mddev->pers->hot_add_disk == NULL)
				2976	return -EINVAL;
				2977
				2978	if (slot >= rdev->mddev->raid_disks &&
				2979	slot >= rdev->mddev->raid_disks + rdev->mddev->delta_disks)
				2980	return -ENOSPC;
				2981
				2982	rdev->raid_disk = slot;
				2983	if (test_bit(In_sync, &rdev->flags))
				2984	rdev->saved_raid_disk = slot;
				2985	else
				2986	rdev->saved_raid_disk = -1;
				2987	clear_bit(In_sync, &rdev->flags);
				2988	clear_bit(Bitmap_sync, &rdev->flags);
				2989	err = rdev->mddev->pers->
				2990	hot_add_disk(rdev->mddev, rdev);
				2991	if (err) {
				2992	rdev->raid_disk = -1;
				2993	return err;
				2994	} else
				2995	sysfs_notify_dirent_safe(rdev->sysfs_state);
				2996	if (sysfs_link_rdev(rdev->mddev, rdev))
				2997	/* failure here is OK */;
				2998	/* don't wakeup anyone, leave that to userspace. */
				2999	} else {
				3000	if (slot >= rdev->mddev->raid_disks &&
				3001	slot >= rdev->mddev->raid_disks + rdev->mddev->delta_disks)
				3002	return -ENOSPC;
				3003	rdev->raid_disk = slot;
				3004	/* assume it is working */
				3005	clear_bit(Faulty, &rdev->flags);
				3006	clear_bit(WriteMostly, &rdev->flags);
				3007	set_bit(In_sync, &rdev->flags);
				3008	sysfs_notify_dirent_safe(rdev->sysfs_state);
				3009	}
				3010	return len;
				3011	}
				3012
				3013	static struct rdev_sysfs_entry rdev_slot =
				3014	__ATTR(slot, S_IRUGO\|S_IWUSR, slot_show, slot_store);
				3015
				3016	static ssize_t
				3017	offset_show(struct md_rdev rdev, char page)
				3018	{
				3019	return sprintf(page, "%llu\n", (unsigned long long)rdev->data_offset);
				3020	}
				3021
				3022	static ssize_t
				3023	offset_store(struct md_rdev rdev, const char buf, size_t len)
				3024	{
				3025	unsigned long long offset;
				3026	if (kstrtoull(buf, 10, &offset) < 0)
				3027	return -EINVAL;
				3028	if (rdev->mddev->pers && rdev->raid_disk >= 0)
				3029	return -EBUSY;
				3030	if (rdev->sectors && rdev->mddev->external)
				3031	/* Must set offset before size, so overlap checks
				3032	* can be sane */
				3033	return -EBUSY;
				3034	rdev->data_offset = offset;
				3035	rdev->new_data_offset = offset;
				3036	return len;
				3037	}
				3038
				3039	static struct rdev_sysfs_entry rdev_offset =
				3040	__ATTR(offset, S_IRUGO\|S_IWUSR, offset_show, offset_store);
				3041
				3042	static ssize_t new_offset_show(struct md_rdev rdev, char page)
				3043	{
				3044	return sprintf(page, "%llu\n",
				3045	(unsigned long long)rdev->new_data_offset);
				3046	}
				3047
				3048	static ssize_t new_offset_store(struct md_rdev *rdev,
				3049	const char *buf, size_t len)
				3050	{
				3051	unsigned long long new_offset;
				3052	struct mddev *mddev = rdev->mddev;
				3053
				3054	if (kstrtoull(buf, 10, &new_offset) < 0)
				3055	return -EINVAL;
				3056
				3057	if (mddev->sync_thread \|\|
				3058	test_bit(MD_RECOVERY_RUNNING,&mddev->recovery))
				3059	return -EBUSY;
				3060	if (new_offset == rdev->data_offset)
				3061	/* reset is always permitted */
				3062	;
				3063	else if (new_offset > rdev->data_offset) {
				3064	/* must not push array size beyond rdev_sectors */
				3065	if (new_offset - rdev->data_offset
				3066	+ mddev->dev_sectors > rdev->sectors)
				3067	return -E2BIG;
				3068	}
				3069	/* Metadata worries about other space details. */
				3070
				3071	/* decreasing the offset is inconsistent with a backwards
				3072	* reshape.
				3073	*/
				3074	if (new_offset < rdev->data_offset &&
				3075	mddev->reshape_backwards)
				3076	return -EINVAL;
				3077	/* Increasing offset is inconsistent with forwards
				3078	* reshape. reshape_direction should be set to
				3079	* 'backwards' first.
				3080	*/
				3081	if (new_offset > rdev->data_offset &&
				3082	!mddev->reshape_backwards)
				3083	return -EINVAL;
				3084
				3085	if (mddev->pers && mddev->persistent &&
				3086	!super_types[mddev->major_version]
				3087	.allow_new_offset(rdev, new_offset))
				3088	return -E2BIG;
				3089	rdev->new_data_offset = new_offset;
				3090	if (new_offset > rdev->data_offset)
				3091	mddev->reshape_backwards = 1;
				3092	else if (new_offset < rdev->data_offset)
				3093	mddev->reshape_backwards = 0;
				3094
				3095	return len;
				3096	}
				3097	static struct rdev_sysfs_entry rdev_new_offset =
				3098	__ATTR(new_offset, S_IRUGO\|S_IWUSR, new_offset_show, new_offset_store);
				3099
				3100	static ssize_t
				3101	rdev_size_show(struct md_rdev rdev, char page)
				3102	{
				3103	return sprintf(page, "%llu\n", (unsigned long long)rdev->sectors / 2);
				3104	}
				3105
				3106	static int overlaps(sector_t s1, sector_t l1, sector_t s2, sector_t l2)
				3107	{
				3108	/* check if two start/length pairs overlap */
				3109	if (s1+l1 <= s2)
				3110	return 0;
				3111	if (s2+l2 <= s1)
				3112	return 0;
				3113	return 1;
				3114	}
				3115
				3116	static int strict_blocks_to_sectors(const char buf, sector_t sectors)
				3117	{
				3118	unsigned long long blocks;
				3119	sector_t new;
				3120
				3121	if (kstrtoull(buf, 10, &blocks) < 0)
				3122	return -EINVAL;
				3123
				3124	if (blocks & 1ULL << (8 * sizeof(blocks) - 1))
				3125	return -EINVAL; /* sector conversion overflow */
				3126
				3127	new = blocks * 2;
				3128	if (new != blocks * 2)
				3129	return -EINVAL; /* unsigned long long to sector_t overflow */
				3130
				3131	*sectors = new;
				3132	return 0;
				3133	}
				3134
				3135	static ssize_t
				3136	rdev_size_store(struct md_rdev rdev, const char buf, size_t len)
				3137	{
				3138	struct mddev *my_mddev = rdev->mddev;
				3139	sector_t oldsectors = rdev->sectors;
				3140	sector_t sectors;
				3141
				3142	if (test_bit(Journal, &rdev->flags))
				3143	return -EBUSY;
				3144	if (strict_blocks_to_sectors(buf, &sectors) < 0)
				3145	return -EINVAL;
				3146	if (rdev->data_offset != rdev->new_data_offset)
				3147	return -EINVAL; /* too confusing */
				3148	if (my_mddev->pers && rdev->raid_disk >= 0) {
				3149	if (my_mddev->persistent) {
				3150	sectors = super_types[my_mddev->major_version].
				3151	rdev_size_change(rdev, sectors);
				3152	if (!sectors)
				3153	return -EBUSY;
				3154	} else if (!sectors)
				3155	sectors = (i_size_read(rdev->bdev->bd_inode) >> 9) -
				3156	rdev->data_offset;
				3157	if (!my_mddev->pers->resize)
				3158	/* Cannot change size for RAID0 or Linear etc */
				3159	return -EINVAL;
				3160	}
				3161	if (sectors < my_mddev->dev_sectors)
				3162	return -EINVAL; /* component must fit device */
				3163
				3164	rdev->sectors = sectors;
				3165	if (sectors > oldsectors && my_mddev->external) {
				3166	/* Need to check that all other rdevs with the same
				3167	* ->bdev do not overlap. 'rcu' is sufficient to walk
				3168	* the rdev lists safely.
				3169	* This check does not provide a hard guarantee, it
				3170	* just helps avoid dangerous mistakes.
				3171	*/
				3172	struct mddev *mddev;
				3173	int overlap = 0;
				3174	struct list_head *tmp;
				3175
				3176	rcu_read_lock();
				3177	for_each_mddev(mddev, tmp) {
				3178	struct md_rdev *rdev2;
				3179
				3180	rdev_for_each(rdev2, mddev)
				3181	if (rdev->bdev == rdev2->bdev &&
				3182	rdev != rdev2 &&
				3183	overlaps(rdev->data_offset, rdev->sectors,
				3184	rdev2->data_offset,
				3185	rdev2->sectors)) {
				3186	overlap = 1;
				3187	break;
				3188	}
				3189	if (overlap) {
				3190	mddev_put(mddev);
				3191	break;
				3192	}
				3193	}
				3194	rcu_read_unlock();
				3195	if (overlap) {
				3196	/* Someone else could have slipped in a size
				3197	* change here, but doing so is just silly.
				3198	* We put oldsectors back because we know it is
				3199	* safe, and trust userspace not to race with
				3200	* itself
				3201	*/
				3202	rdev->sectors = oldsectors;
				3203	return -EBUSY;
				3204	}
				3205	}
				3206	return len;
				3207	}
				3208
				3209	static struct rdev_sysfs_entry rdev_size =
				3210	__ATTR(size, S_IRUGO\|S_IWUSR, rdev_size_show, rdev_size_store);
				3211
				3212	static ssize_t recovery_start_show(struct md_rdev rdev, char page)
				3213	{
				3214	unsigned long long recovery_start = rdev->recovery_offset;
				3215
				3216	if (test_bit(In_sync, &rdev->flags) \|\|
				3217	recovery_start == MaxSector)
				3218	return sprintf(page, "none\n");
				3219
				3220	return sprintf(page, "%llu\n", recovery_start);
				3221	}
				3222
				3223	static ssize_t recovery_start_store(struct md_rdev rdev, const char buf, size_t len)
				3224	{
				3225	unsigned long long recovery_start;
				3226
				3227	if (cmd_match(buf, "none"))
				3228	recovery_start = MaxSector;
				3229	else if (kstrtoull(buf, 10, &recovery_start))
				3230	return -EINVAL;
				3231
				3232	if (rdev->mddev->pers &&
				3233	rdev->raid_disk >= 0)
				3234	return -EBUSY;
				3235
				3236	rdev->recovery_offset = recovery_start;
				3237	if (recovery_start == MaxSector)
				3238	set_bit(In_sync, &rdev->flags);
				3239	else
				3240	clear_bit(In_sync, &rdev->flags);
				3241	return len;
				3242	}
				3243
				3244	static struct rdev_sysfs_entry rdev_recovery_start =
				3245	__ATTR(recovery_start, S_IRUGO\|S_IWUSR, recovery_start_show, recovery_start_store);
				3246
				3247	/* sysfs access to bad-blocks list.
				3248	* We present two files.
				3249	* 'bad-blocks' lists sector numbers and lengths of ranges that
				3250	* are recorded as bad. The list is truncated to fit within
				3251	* the one-page limit of sysfs.
				3252	* Writing "sector length" to this file adds an acknowledged
				3253	* bad block list.
				3254	* 'unacknowledged-bad-blocks' lists bad blocks that have not yet
				3255	* been acknowledged. Writing to this file adds bad blocks
				3256	* without acknowledging them. This is largely for testing.
				3257	*/
				3258	static ssize_t bb_show(struct md_rdev rdev, char page)
				3259	{
				3260	return badblocks_show(&rdev->badblocks, page, 0);
				3261	}
				3262	static ssize_t bb_store(struct md_rdev rdev, const char page, size_t len)
				3263	{
				3264	int rv = badblocks_store(&rdev->badblocks, page, len, 0);
				3265	/* Maybe that ack was all we needed */
				3266	if (test_and_clear_bit(BlockedBadBlocks, &rdev->flags))
				3267	wake_up(&rdev->blocked_wait);
				3268	return rv;
				3269	}
				3270	static struct rdev_sysfs_entry rdev_bad_blocks =
				3271	__ATTR(bad_blocks, S_IRUGO\|S_IWUSR, bb_show, bb_store);
				3272
				3273	static ssize_t ubb_show(struct md_rdev rdev, char page)
				3274	{
				3275	return badblocks_show(&rdev->badblocks, page, 1);
				3276	}
				3277	static ssize_t ubb_store(struct md_rdev rdev, const char page, size_t len)
				3278	{
				3279	return badblocks_store(&rdev->badblocks, page, len, 1);
				3280	}
				3281	static struct rdev_sysfs_entry rdev_unack_bad_blocks =
				3282	__ATTR(unacknowledged_bad_blocks, S_IRUGO\|S_IWUSR, ubb_show, ubb_store);
				3283
				3284	static ssize_t
				3285	ppl_sector_show(struct md_rdev rdev, char page)
				3286	{
				3287	return sprintf(page, "%llu\n", (unsigned long long)rdev->ppl.sector);
				3288	}
				3289
				3290	static ssize_t
				3291	ppl_sector_store(struct md_rdev rdev, const char buf, size_t len)
				3292	{
				3293	unsigned long long sector;
				3294
				3295	if (kstrtoull(buf, 10, &sector) < 0)
				3296	return -EINVAL;
				3297	if (sector != (sector_t)sector)
				3298	return -EINVAL;
				3299
				3300	if (rdev->mddev->pers && test_bit(MD_HAS_PPL, &rdev->mddev->flags) &&
				3301	rdev->raid_disk >= 0)
				3302	return -EBUSY;
				3303
				3304	if (rdev->mddev->persistent) {
				3305	if (rdev->mddev->major_version == 0)
				3306	return -EINVAL;
				3307	if ((sector > rdev->sb_start &&
				3308	sector - rdev->sb_start > S16_MAX) \|\|
				3309	(sector < rdev->sb_start &&
				3310	rdev->sb_start - sector > -S16_MIN))
				3311	return -EINVAL;
				3312	rdev->ppl.offset = sector - rdev->sb_start;
				3313	} else if (!rdev->mddev->external) {
				3314	return -EBUSY;
				3315	}
				3316	rdev->ppl.sector = sector;
				3317	return len;
				3318	}
				3319
				3320	static struct rdev_sysfs_entry rdev_ppl_sector =
				3321	__ATTR(ppl_sector, S_IRUGO\|S_IWUSR, ppl_sector_show, ppl_sector_store);
				3322
				3323	static ssize_t
				3324	ppl_size_show(struct md_rdev rdev, char page)
				3325	{
				3326	return sprintf(page, "%u\n", rdev->ppl.size);
				3327	}
				3328
				3329	static ssize_t
				3330	ppl_size_store(struct md_rdev rdev, const char buf, size_t len)
				3331	{
				3332	unsigned int size;
				3333
				3334	if (kstrtouint(buf, 10, &size) < 0)
				3335	return -EINVAL;
				3336
				3337	if (rdev->mddev->pers && test_bit(MD_HAS_PPL, &rdev->mddev->flags) &&
				3338	rdev->raid_disk >= 0)
				3339	return -EBUSY;
				3340
				3341	if (rdev->mddev->persistent) {
				3342	if (rdev->mddev->major_version == 0)
				3343	return -EINVAL;
				3344	if (size > U16_MAX)
				3345	return -EINVAL;
				3346	} else if (!rdev->mddev->external) {
				3347	return -EBUSY;
				3348	}
				3349	rdev->ppl.size = size;
				3350	return len;
				3351	}
				3352
				3353	static struct rdev_sysfs_entry rdev_ppl_size =
				3354	__ATTR(ppl_size, S_IRUGO\|S_IWUSR, ppl_size_show, ppl_size_store);
				3355
				3356	static struct attribute *rdev_default_attrs[] = {
				3357	&rdev_state.attr,
				3358	&rdev_errors.attr,
				3359	&rdev_slot.attr,
				3360	&rdev_offset.attr,
				3361	&rdev_new_offset.attr,
				3362	&rdev_size.attr,
				3363	&rdev_recovery_start.attr,
				3364	&rdev_bad_blocks.attr,
				3365	&rdev_unack_bad_blocks.attr,
				3366	&rdev_ppl_sector.attr,
				3367	&rdev_ppl_size.attr,
				3368	NULL,
				3369	};
				3370	static ssize_t
				3371	rdev_attr_show(struct kobject kobj, struct attribute attr, char *page)
				3372	{
				3373	struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
				3374	struct md_rdev *rdev = container_of(kobj, struct md_rdev, kobj);
				3375
				3376	if (!entry->show)
				3377	return -EIO;
				3378	if (!rdev->mddev)
				3379	return -EBUSY;
				3380	return entry->show(rdev, page);
				3381	}
				3382
				3383	static ssize_t
				3384	rdev_attr_store(struct kobject kobj, struct attribute attr,
				3385	const char *page, size_t length)
				3386	{
				3387	struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
				3388	struct md_rdev *rdev = container_of(kobj, struct md_rdev, kobj);
				3389	ssize_t rv;
				3390	struct mddev *mddev = rdev->mddev;
				3391
				3392	if (!entry->store)
				3393	return -EIO;
				3394	if (!capable(CAP_SYS_ADMIN))
				3395	return -EACCES;
				3396	rv = mddev ? mddev_lock(mddev): -EBUSY;
				3397	if (!rv) {
				3398	if (rdev->mddev == NULL)
				3399	rv = -EBUSY;
				3400	else
				3401	rv = entry->store(rdev, page, length);
				3402	mddev_unlock(mddev);
				3403	}
				3404	return rv;
				3405	}
				3406
				3407	static void rdev_free(struct kobject *ko)
				3408	{
				3409	struct md_rdev *rdev = container_of(ko, struct md_rdev, kobj);
				3410	kfree(rdev);
				3411	}
				3412	static const struct sysfs_ops rdev_sysfs_ops = {
				3413	.show = rdev_attr_show,
				3414	.store = rdev_attr_store,
				3415	};
				3416	static struct kobj_type rdev_ktype = {
				3417	.release = rdev_free,
				3418	.sysfs_ops = &rdev_sysfs_ops,
				3419	.default_attrs = rdev_default_attrs,
				3420	};
				3421
				3422	int md_rdev_init(struct md_rdev *rdev)
				3423	{
				3424	rdev->desc_nr = -1;
				3425	rdev->saved_raid_disk = -1;
				3426	rdev->raid_disk = -1;
				3427	rdev->flags = 0;
				3428	rdev->data_offset = 0;
				3429	rdev->new_data_offset = 0;
				3430	rdev->sb_events = 0;
				3431	rdev->last_read_error = 0;
				3432	rdev->sb_loaded = 0;
				3433	rdev->bb_page = NULL;
				3434	atomic_set(&rdev->nr_pending, 0);
				3435	atomic_set(&rdev->read_errors, 0);
				3436	atomic_set(&rdev->corrected_errors, 0);
				3437
				3438	INIT_LIST_HEAD(&rdev->same_set);
				3439	init_waitqueue_head(&rdev->blocked_wait);
				3440
				3441	/* Add space to store bad block list.
				3442	* This reserves the space even on arrays where it cannot
				3443	* be used - I wonder if that matters
				3444	*/
				3445	return badblocks_init(&rdev->badblocks, 0);
				3446	}
				3447	EXPORT_SYMBOL_GPL(md_rdev_init);
				3448	/*
				3449	* Import a device. If 'super_format' >= 0, then sanity check the superblock
				3450	*
				3451	* mark the device faulty if:
				3452	*
				3453	* - the device is nonexistent (zero size)
				3454	* - the device has no valid superblock
				3455	*
				3456	* a faulty rdev _never_ has rdev->sb set.
				3457	*/
				3458	static struct md_rdev *md_import_device(dev_t newdev, int super_format, int super_minor)
				3459	{
				3460	char b[BDEVNAME_SIZE];
				3461	int err;
				3462	struct md_rdev *rdev;
				3463	sector_t size;
				3464
				3465	rdev = kzalloc(sizeof(*rdev), GFP_KERNEL);
				3466	if (!rdev)
				3467	return ERR_PTR(-ENOMEM);
				3468
				3469	err = md_rdev_init(rdev);
				3470	if (err)
				3471	goto abort_free;
				3472	err = alloc_disk_sb(rdev);
				3473	if (err)
				3474	goto abort_free;
				3475
				3476	err = lock_rdev(rdev, newdev, super_format == -2);
				3477	if (err)
				3478	goto abort_free;
				3479
				3480	kobject_init(&rdev->kobj, &rdev_ktype);
				3481
				3482	size = i_size_read(rdev->bdev->bd_inode) >> BLOCK_SIZE_BITS;
				3483	if (!size) {
				3484	pr_warn("md: %s has zero or unknown size, marking faulty!\n",
				3485	bdevname(rdev->bdev,b));
				3486	err = -EINVAL;
				3487	goto abort_free;
				3488	}
				3489
				3490	if (super_format >= 0) {
				3491	err = super_types[super_format].
				3492	load_super(rdev, NULL, super_minor);
				3493	if (err == -EINVAL) {
				3494	pr_warn("md: %s does not have a valid v%d.%d superblock, not importing!\n",
				3495	bdevname(rdev->bdev,b),
				3496	super_format, super_minor);
				3497	goto abort_free;
				3498	}
				3499	if (err < 0) {
				3500	pr_warn("md: could not read %s's sb, not importing!\n",
				3501	bdevname(rdev->bdev,b));
				3502	goto abort_free;
				3503	}
				3504	}
				3505
				3506	return rdev;
				3507
				3508	abort_free:
				3509	if (rdev->bdev)
				3510	unlock_rdev(rdev);
				3511	md_rdev_clear(rdev);
				3512	kfree(rdev);
				3513	return ERR_PTR(err);
				3514	}
				3515
				3516	/*
				3517	* Check a full RAID array for plausibility
				3518	*/
				3519
				3520	static void analyze_sbs(struct mddev *mddev)
				3521	{
				3522	int i;
				3523	struct md_rdev rdev, freshest, *tmp;
				3524	char b[BDEVNAME_SIZE];
				3525
				3526	freshest = NULL;
				3527	rdev_for_each_safe(rdev, tmp, mddev)
				3528	switch (super_types[mddev->major_version].
				3529	load_super(rdev, freshest, mddev->minor_version)) {
				3530	case 1:
				3531	freshest = rdev;
				3532	break;
				3533	case 0:
				3534	break;
				3535	default:
				3536	pr_warn("md: fatal superblock inconsistency in %s -- removing from array\n",
				3537	bdevname(rdev->bdev,b));
				3538	md_kick_rdev_from_array(rdev);
				3539	}
				3540
				3541	super_types[mddev->major_version].
				3542	validate_super(mddev, freshest);
				3543
				3544	i = 0;
				3545	rdev_for_each_safe(rdev, tmp, mddev) {
				3546	if (mddev->max_disks &&
				3547	(rdev->desc_nr >= mddev->max_disks \|\|
				3548	i > mddev->max_disks)) {
				3549	pr_warn("md: %s: %s: only %d devices permitted\n",
				3550	mdname(mddev), bdevname(rdev->bdev, b),
				3551	mddev->max_disks);
				3552	md_kick_rdev_from_array(rdev);
				3553	continue;
				3554	}
				3555	if (rdev != freshest) {
				3556	if (super_types[mddev->major_version].
				3557	validate_super(mddev, rdev)) {
				3558	pr_warn("md: kicking non-fresh %s from array!\n",
				3559	bdevname(rdev->bdev,b));
				3560	md_kick_rdev_from_array(rdev);
				3561	continue;
				3562	}
				3563	}
				3564	if (mddev->level == LEVEL_MULTIPATH) {
				3565	rdev->desc_nr = i++;
				3566	rdev->raid_disk = rdev->desc_nr;
				3567	set_bit(In_sync, &rdev->flags);
				3568	} else if (rdev->raid_disk >=
				3569	(mddev->raid_disks - min(0, mddev->delta_disks)) &&
				3570	!test_bit(Journal, &rdev->flags)) {
				3571	rdev->raid_disk = -1;
				3572	clear_bit(In_sync, &rdev->flags);
				3573	}
				3574	}
				3575	}
				3576
				3577	/* Read a fixed-point number.
				3578	* Numbers in sysfs attributes should be in "standard" units where
				3579	* possible, so time should be in seconds.
				3580	* However we internally use a a much smaller unit such as
				3581	* milliseconds or jiffies.
				3582	* This function takes a decimal number with a possible fractional
				3583	* component, and produces an integer which is the result of
				3584	* multiplying that number by 10^'scale'.
				3585	* all without any floating-point arithmetic.
				3586	*/
				3587	int strict_strtoul_scaled(const char cp, unsigned long res, int scale)
				3588	{
				3589	unsigned long result = 0;
				3590	long decimals = -1;
				3591	while (isdigit(cp) \|\| (cp == '.' && decimals < 0)) {
				3592	if (*cp == '.')
				3593	decimals = 0;
				3594	else if (decimals < scale) {
				3595	unsigned int value;
				3596	value = *cp - '0';
				3597	result = result * 10 + value;
				3598	if (decimals >= 0)
				3599	decimals++;
				3600	}
				3601	cp++;
				3602	}
				3603	if (*cp == '\n')
				3604	cp++;
				3605	if (*cp)
				3606	return -EINVAL;
				3607	if (decimals < 0)
				3608	decimals = 0;
				3609	while (decimals < scale) {
				3610	result *= 10;
				3611	decimals ++;
				3612	}
				3613	*res = result;
				3614	return 0;
				3615	}
				3616
				3617	static ssize_t
				3618	safe_delay_show(struct mddev mddev, char page)
				3619	{
				3620	int msec = (mddev->safemode_delay*1000)/HZ;
				3621	return sprintf(page, "%d.%03d\n", msec/1000, msec%1000);
				3622	}
				3623	static ssize_t
				3624	safe_delay_store(struct mddev mddev, const char cbuf, size_t len)
				3625	{
				3626	unsigned long msec;
				3627
				3628	if (mddev_is_clustered(mddev)) {
				3629	pr_warn("md: Safemode is disabled for clustered mode\n");
				3630	return -EINVAL;
				3631	}
				3632
				3633	if (strict_strtoul_scaled(cbuf, &msec, 3) < 0)
				3634	return -EINVAL;
				3635	if (msec == 0)
				3636	mddev->safemode_delay = 0;
				3637	else {
				3638	unsigned long old_delay = mddev->safemode_delay;
				3639	unsigned long new_delay = (msec*HZ)/1000;
				3640
				3641	if (new_delay == 0)
				3642	new_delay = 1;
				3643	mddev->safemode_delay = new_delay;
				3644	if (new_delay < old_delay \|\| old_delay == 0)
				3645	mod_timer(&mddev->safemode_timer, jiffies+1);
				3646	}
				3647	return len;
				3648	}
				3649	static struct md_sysfs_entry md_safe_delay =
				3650	__ATTR(safe_mode_delay, S_IRUGO\|S_IWUSR,safe_delay_show, safe_delay_store);
				3651
				3652	static ssize_t
				3653	level_show(struct mddev mddev, char page)
				3654	{
				3655	struct md_personality *p;
				3656	int ret;
				3657	spin_lock(&mddev->lock);
				3658	p = mddev->pers;
				3659	if (p)
				3660	ret = sprintf(page, "%s\n", p->name);
				3661	else if (mddev->clevel[0])
				3662	ret = sprintf(page, "%s\n", mddev->clevel);
				3663	else if (mddev->level != LEVEL_NONE)
				3664	ret = sprintf(page, "%d\n", mddev->level);
				3665	else
				3666	ret = 0;
				3667	spin_unlock(&mddev->lock);
				3668	return ret;
				3669	}
				3670
				3671	static ssize_t
				3672	level_store(struct mddev mddev, const char buf, size_t len)
				3673	{
				3674	char clevel[16];
				3675	ssize_t rv;
				3676	size_t slen = len;
				3677	struct md_personality pers, oldpers;
				3678	long level;
				3679	void priv, oldpriv;
				3680	struct md_rdev *rdev;
				3681
				3682	if (slen == 0 \|\| slen >= sizeof(clevel))
				3683	return -EINVAL;
				3684
				3685	rv = mddev_lock(mddev);
				3686	if (rv)
				3687	return rv;
				3688
				3689	if (mddev->pers == NULL) {
				3690	strncpy(mddev->clevel, buf, slen);
				3691	if (mddev->clevel[slen-1] == '\n')
				3692	slen--;
				3693	mddev->clevel[slen] = 0;
				3694	mddev->level = LEVEL_NONE;
				3695	rv = len;
				3696	goto out_unlock;
				3697	}
				3698	rv = -EROFS;
				3699	if (mddev->ro)
				3700	goto out_unlock;
				3701
				3702	/* request to change the personality. Need to ensure:
				3703	* - array is not engaged in resync/recovery/reshape
				3704	* - old personality can be suspended
				3705	* - new personality will access other array.
				3706	*/
				3707
				3708	rv = -EBUSY;
				3709	if (mddev->sync_thread \|\|
				3710	test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) \|\|
				3711	mddev->reshape_position != MaxSector \|\|
				3712	mddev->sysfs_active)
				3713	goto out_unlock;
				3714
				3715	rv = -EINVAL;
				3716	if (!mddev->pers->quiesce) {
				3717	pr_warn("md: %s: %s does not support online personality change\n",
				3718	mdname(mddev), mddev->pers->name);
				3719	goto out_unlock;
				3720	}
				3721
				3722	/* Now find the new personality */
				3723	strncpy(clevel, buf, slen);
				3724	if (clevel[slen-1] == '\n')
				3725	slen--;
				3726	clevel[slen] = 0;
				3727	if (kstrtol(clevel, 10, &level))
				3728	level = LEVEL_NONE;
				3729
				3730	if (request_module("md-%s", clevel) != 0)
				3731	request_module("md-level-%s", clevel);
				3732	spin_lock(&pers_lock);
				3733	pers = find_pers(level, clevel);
				3734	if (!pers \|\| !try_module_get(pers->owner)) {
				3735	spin_unlock(&pers_lock);
				3736	pr_warn("md: personality %s not loaded\n", clevel);
				3737	rv = -EINVAL;
				3738	goto out_unlock;
				3739	}
				3740	spin_unlock(&pers_lock);
				3741
				3742	if (pers == mddev->pers) {
				3743	/* Nothing to do! */
				3744	module_put(pers->owner);
				3745	rv = len;
				3746	goto out_unlock;
				3747	}
				3748	if (!pers->takeover) {
				3749	module_put(pers->owner);
				3750	pr_warn("md: %s: %s does not support personality takeover\n",
				3751	mdname(mddev), clevel);
				3752	rv = -EINVAL;
				3753	goto out_unlock;
				3754	}
				3755
				3756	rdev_for_each(rdev, mddev)
				3757	rdev->new_raid_disk = rdev->raid_disk;
				3758
				3759	/* ->takeover must set new_* and/or delta_disks
				3760	* if it succeeds, and may set them when it fails.
				3761	*/
				3762	priv = pers->takeover(mddev);
				3763	if (IS_ERR(priv)) {
				3764	mddev->new_level = mddev->level;
				3765	mddev->new_layout = mddev->layout;
				3766	mddev->new_chunk_sectors = mddev->chunk_sectors;
				3767	mddev->raid_disks -= mddev->delta_disks;
				3768	mddev->delta_disks = 0;
				3769	mddev->reshape_backwards = 0;
				3770	module_put(pers->owner);
				3771	pr_warn("md: %s: %s would not accept array\n",
				3772	mdname(mddev), clevel);
				3773	rv = PTR_ERR(priv);
				3774	goto out_unlock;
				3775	}
				3776
				3777	/* Looks like we have a winner */
				3778	mddev_suspend(mddev);
				3779	mddev_detach(mddev);
				3780
				3781	spin_lock(&mddev->lock);
				3782	oldpers = mddev->pers;
				3783	oldpriv = mddev->private;
				3784	mddev->pers = pers;
				3785	mddev->private = priv;
				3786	strlcpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
				3787	mddev->level = mddev->new_level;
				3788	mddev->layout = mddev->new_layout;
				3789	mddev->chunk_sectors = mddev->new_chunk_sectors;
				3790	mddev->delta_disks = 0;
				3791	mddev->reshape_backwards = 0;
				3792	mddev->degraded = 0;
				3793	spin_unlock(&mddev->lock);
				3794
				3795	if (oldpers->sync_request == NULL &&
				3796	mddev->external) {
				3797	/* We are converting from a no-redundancy array
				3798	* to a redundancy array and metadata is managed
				3799	* externally so we need to be sure that writes
				3800	* won't block due to a need to transition
				3801	* clean->dirty
				3802	* until external management is started.
				3803	*/
				3804	mddev->in_sync = 0;
				3805	mddev->safemode_delay = 0;
				3806	mddev->safemode = 0;
				3807	}
				3808
				3809	oldpers->free(mddev, oldpriv);
				3810
				3811	if (oldpers->sync_request == NULL &&
				3812	pers->sync_request != NULL) {
				3813	/* need to add the md_redundancy_group */
				3814	if (sysfs_create_group(&mddev->kobj, &md_redundancy_group))
				3815	pr_warn("md: cannot register extra attributes for %s\n",
				3816	mdname(mddev));
				3817	mddev->sysfs_action = sysfs_get_dirent(mddev->kobj.sd, "sync_action");
				3818	}
				3819	if (oldpers->sync_request != NULL &&
				3820	pers->sync_request == NULL) {
				3821	/* need to remove the md_redundancy_group */
				3822	if (mddev->to_remove == NULL)
				3823	mddev->to_remove = &md_redundancy_group;
				3824	}
				3825
				3826	module_put(oldpers->owner);
				3827
				3828	rdev_for_each(rdev, mddev) {
				3829	if (rdev->raid_disk < 0)
				3830	continue;
				3831	if (rdev->new_raid_disk >= mddev->raid_disks)
				3832	rdev->new_raid_disk = -1;
				3833	if (rdev->new_raid_disk == rdev->raid_disk)
				3834	continue;
				3835	sysfs_unlink_rdev(mddev, rdev);
				3836	}
				3837	rdev_for_each(rdev, mddev) {
				3838	if (rdev->raid_disk < 0)
				3839	continue;
				3840	if (rdev->new_raid_disk == rdev->raid_disk)
				3841	continue;
				3842	rdev->raid_disk = rdev->new_raid_disk;
				3843	if (rdev->raid_disk < 0)
				3844	clear_bit(In_sync, &rdev->flags);
				3845	else {
				3846	if (sysfs_link_rdev(mddev, rdev))
				3847	pr_warn("md: cannot register rd%d for %s after level change\n",
				3848	rdev->raid_disk, mdname(mddev));
				3849	}
				3850	}
				3851
				3852	if (pers->sync_request == NULL) {
				3853	/* this is now an array without redundancy, so
				3854	* it must always be in_sync
				3855	*/
				3856	mddev->in_sync = 1;
				3857	del_timer_sync(&mddev->safemode_timer);
				3858	}
				3859	blk_set_stacking_limits(&mddev->queue->limits);
				3860	pers->run(mddev);
				3861	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				3862	mddev_resume(mddev);
				3863	if (!mddev->thread)
				3864	md_update_sb(mddev, 1);
				3865	sysfs_notify(&mddev->kobj, NULL, "level");
				3866	md_new_event(mddev);
				3867	rv = len;
				3868	out_unlock:
				3869	mddev_unlock(mddev);
				3870	return rv;
				3871	}
				3872
				3873	static struct md_sysfs_entry md_level =
				3874	__ATTR(level, S_IRUGO\|S_IWUSR, level_show, level_store);
				3875
				3876	static ssize_t
				3877	layout_show(struct mddev mddev, char page)
				3878	{
				3879	/* just a number, not meaningful for all levels */
				3880	if (mddev->reshape_position != MaxSector &&
				3881	mddev->layout != mddev->new_layout)
				3882	return sprintf(page, "%d (%d)\n",
				3883	mddev->new_layout, mddev->layout);
				3884	return sprintf(page, "%d\n", mddev->layout);
				3885	}
				3886
				3887	static ssize_t
				3888	layout_store(struct mddev mddev, const char buf, size_t len)
				3889	{
				3890	unsigned int n;
				3891	int err;
				3892
				3893	err = kstrtouint(buf, 10, &n);
				3894	if (err < 0)
				3895	return err;
				3896	err = mddev_lock(mddev);
				3897	if (err)
				3898	return err;
				3899
				3900	if (mddev->pers) {
				3901	if (mddev->pers->check_reshape == NULL)
				3902	err = -EBUSY;
				3903	else if (mddev->ro)
				3904	err = -EROFS;
				3905	else {
				3906	mddev->new_layout = n;
				3907	err = mddev->pers->check_reshape(mddev);
				3908	if (err)
				3909	mddev->new_layout = mddev->layout;
				3910	}
				3911	} else {
				3912	mddev->new_layout = n;
				3913	if (mddev->reshape_position == MaxSector)
				3914	mddev->layout = n;
				3915	}
				3916	mddev_unlock(mddev);
				3917	return err ?: len;
				3918	}
				3919	static struct md_sysfs_entry md_layout =
				3920	__ATTR(layout, S_IRUGO\|S_IWUSR, layout_show, layout_store);
				3921
				3922	static ssize_t
				3923	raid_disks_show(struct mddev mddev, char page)
				3924	{
				3925	if (mddev->raid_disks == 0)
				3926	return 0;
				3927	if (mddev->reshape_position != MaxSector &&
				3928	mddev->delta_disks != 0)
				3929	return sprintf(page, "%d (%d)\n", mddev->raid_disks,
				3930	mddev->raid_disks - mddev->delta_disks);
				3931	return sprintf(page, "%d\n", mddev->raid_disks);
				3932	}
				3933
				3934	static int update_raid_disks(struct mddev *mddev, int raid_disks);
				3935
				3936	static ssize_t
				3937	raid_disks_store(struct mddev mddev, const char buf, size_t len)
				3938	{
				3939	unsigned int n;
				3940	int err;
				3941
				3942	err = kstrtouint(buf, 10, &n);
				3943	if (err < 0)
				3944	return err;
				3945
				3946	err = mddev_lock(mddev);
				3947	if (err)
				3948	return err;
				3949	if (mddev->pers)
				3950	err = update_raid_disks(mddev, n);
				3951	else if (mddev->reshape_position != MaxSector) {
				3952	struct md_rdev *rdev;
				3953	int olddisks = mddev->raid_disks - mddev->delta_disks;
				3954
				3955	err = -EINVAL;
				3956	rdev_for_each(rdev, mddev) {
				3957	if (olddisks < n &&
				3958	rdev->data_offset < rdev->new_data_offset)
				3959	goto out_unlock;
				3960	if (olddisks > n &&
				3961	rdev->data_offset > rdev->new_data_offset)
				3962	goto out_unlock;
				3963	}
				3964	err = 0;
				3965	mddev->delta_disks = n - olddisks;
				3966	mddev->raid_disks = n;
				3967	mddev->reshape_backwards = (mddev->delta_disks < 0);
				3968	} else
				3969	mddev->raid_disks = n;
				3970	out_unlock:
				3971	mddev_unlock(mddev);
				3972	return err ? err : len;
				3973	}
				3974	static struct md_sysfs_entry md_raid_disks =
				3975	__ATTR(raid_disks, S_IRUGO\|S_IWUSR, raid_disks_show, raid_disks_store);
				3976
				3977	static ssize_t
				3978	chunk_size_show(struct mddev mddev, char page)
				3979	{
				3980	if (mddev->reshape_position != MaxSector &&
				3981	mddev->chunk_sectors != mddev->new_chunk_sectors)
				3982	return sprintf(page, "%d (%d)\n",
				3983	mddev->new_chunk_sectors << 9,
				3984	mddev->chunk_sectors << 9);
				3985	return sprintf(page, "%d\n", mddev->chunk_sectors << 9);
				3986	}
				3987
				3988	static ssize_t
				3989	chunk_size_store(struct mddev mddev, const char buf, size_t len)
				3990	{
				3991	unsigned long n;
				3992	int err;
				3993
				3994	err = kstrtoul(buf, 10, &n);
				3995	if (err < 0)
				3996	return err;
				3997
				3998	err = mddev_lock(mddev);
				3999	if (err)
				4000	return err;
				4001	if (mddev->pers) {
				4002	if (mddev->pers->check_reshape == NULL)
				4003	err = -EBUSY;
				4004	else if (mddev->ro)
				4005	err = -EROFS;
				4006	else {
				4007	mddev->new_chunk_sectors = n >> 9;
				4008	err = mddev->pers->check_reshape(mddev);
				4009	if (err)
				4010	mddev->new_chunk_sectors = mddev->chunk_sectors;
				4011	}
				4012	} else {
				4013	mddev->new_chunk_sectors = n >> 9;
				4014	if (mddev->reshape_position == MaxSector)
				4015	mddev->chunk_sectors = n >> 9;
				4016	}
				4017	mddev_unlock(mddev);
				4018	return err ?: len;
				4019	}
				4020	static struct md_sysfs_entry md_chunk_size =
				4021	__ATTR(chunk_size, S_IRUGO\|S_IWUSR, chunk_size_show, chunk_size_store);
				4022
				4023	static ssize_t
				4024	resync_start_show(struct mddev mddev, char page)
				4025	{
				4026	if (mddev->recovery_cp == MaxSector)
				4027	return sprintf(page, "none\n");
				4028	return sprintf(page, "%llu\n", (unsigned long long)mddev->recovery_cp);
				4029	}
				4030
				4031	static ssize_t
				4032	resync_start_store(struct mddev mddev, const char buf, size_t len)
				4033	{
				4034	unsigned long long n;
				4035	int err;
				4036
				4037	if (cmd_match(buf, "none"))
				4038	n = MaxSector;
				4039	else {
				4040	err = kstrtoull(buf, 10, &n);
				4041	if (err < 0)
				4042	return err;
				4043	if (n != (sector_t)n)
				4044	return -EINVAL;
				4045	}
				4046
				4047	err = mddev_lock(mddev);
				4048	if (err)
				4049	return err;
				4050	if (mddev->pers && !test_bit(MD_RECOVERY_FROZEN, &mddev->recovery))
				4051	err = -EBUSY;
				4052
				4053	if (!err) {
				4054	mddev->recovery_cp = n;
				4055	if (mddev->pers)
				4056	set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				4057	}
				4058	mddev_unlock(mddev);
				4059	return err ?: len;
				4060	}
				4061	static struct md_sysfs_entry md_resync_start =
				4062	__ATTR_PREALLOC(resync_start, S_IRUGO\|S_IWUSR,
				4063	resync_start_show, resync_start_store);
				4064
				4065	/*
				4066	* The array state can be:
				4067	*
				4068	* clear
				4069	* No devices, no size, no level
				4070	* Equivalent to STOP_ARRAY ioctl
				4071	* inactive
				4072	* May have some settings, but array is not active
				4073	* all IO results in error
				4074	* When written, doesn't tear down array, but just stops it
				4075	* suspended (not supported yet)
				4076	* All IO requests will block. The array can be reconfigured.
				4077	* Writing this, if accepted, will block until array is quiescent
				4078	* readonly
				4079	* no resync can happen. no superblocks get written.
				4080	* write requests fail
				4081	* read-auto
				4082	* like readonly, but behaves like 'clean' on a write request.
				4083	*
				4084	* clean - no pending writes, but otherwise active.
				4085	* When written to inactive array, starts without resync
				4086	* If a write request arrives then
				4087	* if metadata is known, mark 'dirty' and switch to 'active'.
				4088	* if not known, block and switch to write-pending
				4089	* If written to an active array that has pending writes, then fails.
				4090	* active
				4091	* fully active: IO and resync can be happening.
				4092	* When written to inactive array, starts with resync
				4093	*
				4094	* write-pending
				4095	* clean, but writes are blocked waiting for 'active' to be written.
				4096	*
				4097	* active-idle
				4098	* like active, but no writes have been seen for a while (100msec).
				4099	*
				4100	*/
				4101	enum array_state { clear, inactive, suspended, readonly, read_auto, clean, active,
				4102	write_pending, active_idle, bad_word};
				4103	static char *array_states[] = {
				4104	"clear", "inactive", "suspended", "readonly", "read-auto", "clean", "active",
				4105	"write-pending", "active-idle", NULL };
				4106
				4107	static int match_word(const char word, char *list)
				4108	{
				4109	int n;
				4110	for (n=0; list[n]; n++)
				4111	if (cmd_match(word, list[n]))
				4112	break;
				4113	return n;
				4114	}
				4115
				4116	static ssize_t
				4117	array_state_show(struct mddev mddev, char page)
				4118	{
				4119	enum array_state st = inactive;
				4120
				4121	if (mddev->pers && !test_bit(MD_NOT_READY, &mddev->flags))
				4122	switch(mddev->ro) {
				4123	case 1:
				4124	st = readonly;
				4125	break;
				4126	case 2:
				4127	st = read_auto;
				4128	break;
				4129	case 0:
				4130	spin_lock(&mddev->lock);
				4131	if (test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags))
				4132	st = write_pending;
				4133	else if (mddev->in_sync)
				4134	st = clean;
				4135	else if (mddev->safemode)
				4136	st = active_idle;
				4137	else
				4138	st = active;
				4139	spin_unlock(&mddev->lock);
				4140	}
				4141	else {
				4142	if (list_empty(&mddev->disks) &&
				4143	mddev->raid_disks == 0 &&
				4144	mddev->dev_sectors == 0)
				4145	st = clear;
				4146	else
				4147	st = inactive;
				4148	}
				4149	return sprintf(page, "%s\n", array_states[st]);
				4150	}
				4151
				4152	static int do_md_stop(struct mddev mddev, int ro, struct block_device bdev);
				4153	static int md_set_readonly(struct mddev mddev, struct block_device bdev);
				4154	static int do_md_run(struct mddev *mddev);
				4155	static int restart_array(struct mddev *mddev);
				4156
				4157	static ssize_t
				4158	array_state_store(struct mddev mddev, const char buf, size_t len)
				4159	{
				4160	int err = 0;
				4161	enum array_state st = match_word(buf, array_states);
				4162
				4163	if (mddev->pers && (st == active \|\| st == clean) && mddev->ro != 1) {
				4164	/* don't take reconfig_mutex when toggling between
				4165	* clean and active
				4166	*/
				4167	spin_lock(&mddev->lock);
				4168	if (st == active) {
				4169	restart_array(mddev);
				4170	clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				4171	md_wakeup_thread(mddev->thread);
				4172	wake_up(&mddev->sb_wait);
				4173	} else /* st == clean */ {
				4174	restart_array(mddev);
				4175	if (!set_in_sync(mddev))
				4176	err = -EBUSY;
				4177	}
				4178	if (!err)
				4179	sysfs_notify_dirent_safe(mddev->sysfs_state);
				4180	spin_unlock(&mddev->lock);
				4181	return err ?: len;
				4182	}
				4183	err = mddev_lock(mddev);
				4184	if (err)
				4185	return err;
				4186	err = -EINVAL;
				4187	switch(st) {
				4188	case bad_word:
				4189	break;
				4190	case clear:
				4191	/* stopping an active array */
				4192	err = do_md_stop(mddev, 0, NULL);
				4193	break;
				4194	case inactive:
				4195	/* stopping an active array */
				4196	if (mddev->pers)
				4197	err = do_md_stop(mddev, 2, NULL);
				4198	else
				4199	err = 0; /* already inactive */
				4200	break;
				4201	case suspended:
				4202	break; /* not supported yet */
				4203	case readonly:
				4204	if (mddev->pers)
				4205	err = md_set_readonly(mddev, NULL);
				4206	else {
				4207	mddev->ro = 1;
				4208	set_disk_ro(mddev->gendisk, 1);
				4209	err = do_md_run(mddev);
				4210	}
				4211	break;
				4212	case read_auto:
				4213	if (mddev->pers) {
				4214	if (mddev->ro == 0)
				4215	err = md_set_readonly(mddev, NULL);
				4216	else if (mddev->ro == 1)
				4217	err = restart_array(mddev);
				4218	if (err == 0) {
				4219	mddev->ro = 2;
				4220	set_disk_ro(mddev->gendisk, 0);
				4221	}
				4222	} else {
				4223	mddev->ro = 2;
				4224	err = do_md_run(mddev);
				4225	}
				4226	break;
				4227	case clean:
				4228	if (mddev->pers) {
				4229	err = restart_array(mddev);
				4230	if (err)
				4231	break;
				4232	spin_lock(&mddev->lock);
				4233	if (!set_in_sync(mddev))
				4234	err = -EBUSY;
				4235	spin_unlock(&mddev->lock);
				4236	} else
				4237	err = -EINVAL;
				4238	break;
				4239	case active:
				4240	if (mddev->pers) {
				4241	err = restart_array(mddev);
				4242	if (err)
				4243	break;
				4244	clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				4245	wake_up(&mddev->sb_wait);
				4246	err = 0;
				4247	} else {
				4248	mddev->ro = 0;
				4249	set_disk_ro(mddev->gendisk, 0);
				4250	err = do_md_run(mddev);
				4251	}
				4252	break;
				4253	case write_pending:
				4254	case active_idle:
				4255	/* these cannot be set */
				4256	break;
				4257	}
				4258
				4259	if (!err) {
				4260	if (mddev->hold_active == UNTIL_IOCTL)
				4261	mddev->hold_active = 0;
				4262	sysfs_notify_dirent_safe(mddev->sysfs_state);
				4263	}
				4264	mddev_unlock(mddev);
				4265	return err ?: len;
				4266	}
				4267	static struct md_sysfs_entry md_array_state =
				4268	__ATTR_PREALLOC(array_state, S_IRUGO\|S_IWUSR, array_state_show, array_state_store);
				4269
				4270	static ssize_t
				4271	max_corrected_read_errors_show(struct mddev mddev, char page) {
				4272	return sprintf(page, "%d\n",
				4273	atomic_read(&mddev->max_corr_read_errors));
				4274	}
				4275
				4276	static ssize_t
				4277	max_corrected_read_errors_store(struct mddev mddev, const char buf, size_t len)
				4278	{
				4279	unsigned int n;
				4280	int rv;
				4281
				4282	rv = kstrtouint(buf, 10, &n);
				4283	if (rv < 0)
				4284	return rv;
				4285	atomic_set(&mddev->max_corr_read_errors, n);
				4286	return len;
				4287	}
				4288
				4289	static struct md_sysfs_entry max_corr_read_errors =
				4290	__ATTR(max_read_errors, S_IRUGO\|S_IWUSR, max_corrected_read_errors_show,
				4291	max_corrected_read_errors_store);
				4292
				4293	static ssize_t
				4294	null_show(struct mddev mddev, char page)
				4295	{
				4296	return -EINVAL;
				4297	}
				4298
				4299	static ssize_t
				4300	new_dev_store(struct mddev mddev, const char buf, size_t len)
				4301	{
				4302	/* buf must be %d:%d\n? giving major and minor numbers */
				4303	/* The new device is added to the array.
				4304	* If the array has a persistent superblock, we read the
				4305	* superblock to initialise info and check validity.
				4306	* Otherwise, only checking done is that in bind_rdev_to_array,
				4307	* which mainly checks size.
				4308	*/
				4309	char *e;
				4310	int major = simple_strtoul(buf, &e, 10);
				4311	int minor;
				4312	dev_t dev;
				4313	struct md_rdev *rdev;
				4314	int err;
				4315
				4316	if (!buf \|\| e != ':' \|\| !e[1] \|\| e[1] == '\n')
				4317	return -EINVAL;
				4318	minor = simple_strtoul(e+1, &e, 10);
				4319	if (e && e != '\n')
				4320	return -EINVAL;
				4321	dev = MKDEV(major, minor);
				4322	if (major != MAJOR(dev) \|\|
				4323	minor != MINOR(dev))
				4324	return -EOVERFLOW;
				4325
				4326	flush_workqueue(md_misc_wq);
				4327
				4328	err = mddev_lock(mddev);
				4329	if (err)
				4330	return err;
				4331	if (mddev->persistent) {
				4332	rdev = md_import_device(dev, mddev->major_version,
				4333	mddev->minor_version);
				4334	if (!IS_ERR(rdev) && !list_empty(&mddev->disks)) {
				4335	struct md_rdev *rdev0
				4336	= list_entry(mddev->disks.next,
				4337	struct md_rdev, same_set);
				4338	err = super_types[mddev->major_version]
				4339	.load_super(rdev, rdev0, mddev->minor_version);
				4340	if (err < 0)
				4341	goto out;
				4342	}
				4343	} else if (mddev->external)
				4344	rdev = md_import_device(dev, -2, -1);
				4345	else
				4346	rdev = md_import_device(dev, -1, -1);
				4347
				4348	if (IS_ERR(rdev)) {
				4349	mddev_unlock(mddev);
				4350	return PTR_ERR(rdev);
				4351	}
				4352	err = bind_rdev_to_array(rdev, mddev);
				4353	out:
				4354	if (err)
				4355	export_rdev(rdev);
				4356	mddev_unlock(mddev);
				4357	if (!err)
				4358	md_new_event(mddev);
				4359	return err ? err : len;
				4360	}
				4361
				4362	static struct md_sysfs_entry md_new_device =
				4363	__ATTR(new_dev, S_IWUSR, null_show, new_dev_store);
				4364
				4365	static ssize_t
				4366	bitmap_store(struct mddev mddev, const char buf, size_t len)
				4367	{
				4368	char *end;
				4369	unsigned long chunk, end_chunk;
				4370	int err;
				4371
				4372	err = mddev_lock(mddev);
				4373	if (err)
				4374	return err;
				4375	if (!mddev->bitmap)
				4376	goto out;
				4377	/* buf should be <chunk> <chunk> ... or <chunk>-<chunk> ... (range) */
				4378	while (*buf) {
				4379	chunk = end_chunk = simple_strtoul(buf, &end, 0);
				4380	if (buf == end) break;
				4381	if (end == '-') { / range */
				4382	buf = end + 1;
				4383	end_chunk = simple_strtoul(buf, &end, 0);
				4384	if (buf == end) break;
				4385	}
				4386	if (end && !isspace(end)) break;
				4387	bitmap_dirty_bits(mddev->bitmap, chunk, end_chunk);
				4388	buf = skip_spaces(end);
				4389	}
				4390	bitmap_unplug(mddev->bitmap); /* flush the bits to disk */
				4391	out:
				4392	mddev_unlock(mddev);
				4393	return len;
				4394	}
				4395
				4396	static struct md_sysfs_entry md_bitmap =
				4397	__ATTR(bitmap_set_bits, S_IWUSR, null_show, bitmap_store);
				4398
				4399	static ssize_t
				4400	size_show(struct mddev mddev, char page)
				4401	{
				4402	return sprintf(page, "%llu\n",
				4403	(unsigned long long)mddev->dev_sectors / 2);
				4404	}
				4405
				4406	static int update_size(struct mddev *mddev, sector_t num_sectors);
				4407
				4408	static ssize_t
				4409	size_store(struct mddev mddev, const char buf, size_t len)
				4410	{
				4411	/* If array is inactive, we can reduce the component size, but
				4412	* not increase it (except from 0).
				4413	* If array is active, we can try an on-line resize
				4414	*/
				4415	sector_t sectors;
				4416	int err = strict_blocks_to_sectors(buf, &sectors);
				4417
				4418	if (err < 0)
				4419	return err;
				4420	err = mddev_lock(mddev);
				4421	if (err)
				4422	return err;
				4423	if (mddev->pers) {
				4424	err = update_size(mddev, sectors);
				4425	if (err == 0)
				4426	md_update_sb(mddev, 1);
				4427	} else {
				4428	if (mddev->dev_sectors == 0 \|\|
				4429	mddev->dev_sectors > sectors)
				4430	mddev->dev_sectors = sectors;
				4431	else
				4432	err = -ENOSPC;
				4433	}
				4434	mddev_unlock(mddev);
				4435	return err ? err : len;
				4436	}
				4437
				4438	static struct md_sysfs_entry md_size =
				4439	__ATTR(component_size, S_IRUGO\|S_IWUSR, size_show, size_store);
				4440
				4441	/* Metadata version.
				4442	* This is one of
				4443	* 'none' for arrays with no metadata (good luck...)
				4444	* 'external' for arrays with externally managed metadata,
				4445	* or N.M for internally known formats
				4446	*/
				4447	static ssize_t
				4448	metadata_show(struct mddev mddev, char page)
				4449	{
				4450	if (mddev->persistent)
				4451	return sprintf(page, "%d.%d\n",
				4452	mddev->major_version, mddev->minor_version);
				4453	else if (mddev->external)
				4454	return sprintf(page, "external:%s\n", mddev->metadata_type);
				4455	else
				4456	return sprintf(page, "none\n");
				4457	}
				4458
				4459	static ssize_t
				4460	metadata_store(struct mddev mddev, const char buf, size_t len)
				4461	{
				4462	int major, minor;
				4463	char *e;
				4464	int err;
				4465	/* Changing the details of 'external' metadata is
				4466	* always permitted. Otherwise there must be
				4467	* no devices attached to the array.
				4468	*/
				4469
				4470	err = mddev_lock(mddev);
				4471	if (err)
				4472	return err;
				4473	err = -EBUSY;
				4474	if (mddev->external && strncmp(buf, "external:", 9) == 0)
				4475	;
				4476	else if (!list_empty(&mddev->disks))
				4477	goto out_unlock;
				4478
				4479	err = 0;
				4480	if (cmd_match(buf, "none")) {
				4481	mddev->persistent = 0;
				4482	mddev->external = 0;
				4483	mddev->major_version = 0;
				4484	mddev->minor_version = 90;
				4485	goto out_unlock;
				4486	}
				4487	if (strncmp(buf, "external:", 9) == 0) {
				4488	size_t namelen = len-9;
				4489	if (namelen >= sizeof(mddev->metadata_type))
				4490	namelen = sizeof(mddev->metadata_type)-1;
				4491	strncpy(mddev->metadata_type, buf+9, namelen);
				4492	mddev->metadata_type[namelen] = 0;
				4493	if (namelen && mddev->metadata_type[namelen-1] == '\n')
				4494	mddev->metadata_type[--namelen] = 0;
				4495	mddev->persistent = 0;
				4496	mddev->external = 1;
				4497	mddev->major_version = 0;
				4498	mddev->minor_version = 90;
				4499	goto out_unlock;
				4500	}
				4501	major = simple_strtoul(buf, &e, 10);
				4502	err = -EINVAL;
				4503	if (e==buf \|\| *e != '.')
				4504	goto out_unlock;
				4505	buf = e+1;
				4506	minor = simple_strtoul(buf, &e, 10);
				4507	if (e==buf \|\| (e && e != '\n') )
				4508	goto out_unlock;
				4509	err = -ENOENT;
				4510	if (major >= ARRAY_SIZE(super_types) \|\| super_types[major].name == NULL)
				4511	goto out_unlock;
				4512	mddev->major_version = major;
				4513	mddev->minor_version = minor;
				4514	mddev->persistent = 1;
				4515	mddev->external = 0;
				4516	err = 0;
				4517	out_unlock:
				4518	mddev_unlock(mddev);
				4519	return err ?: len;
				4520	}
				4521
				4522	static struct md_sysfs_entry md_metadata =
				4523	__ATTR_PREALLOC(metadata_version, S_IRUGO\|S_IWUSR, metadata_show, metadata_store);
				4524
				4525	static ssize_t
				4526	action_show(struct mddev mddev, char page)
				4527	{
				4528	char *type = "idle";
				4529	unsigned long recovery = mddev->recovery;
				4530	if (test_bit(MD_RECOVERY_FROZEN, &recovery))
				4531	type = "frozen";
				4532	else if (test_bit(MD_RECOVERY_RUNNING, &recovery) \|\|
				4533	(!mddev->ro && test_bit(MD_RECOVERY_NEEDED, &recovery))) {
				4534	if (test_bit(MD_RECOVERY_RESHAPE, &recovery))
				4535	type = "reshape";
				4536	else if (test_bit(MD_RECOVERY_SYNC, &recovery)) {
				4537	if (!test_bit(MD_RECOVERY_REQUESTED, &recovery))
				4538	type = "resync";
				4539	else if (test_bit(MD_RECOVERY_CHECK, &recovery))
				4540	type = "check";
				4541	else
				4542	type = "repair";
				4543	} else if (test_bit(MD_RECOVERY_RECOVER, &recovery))
				4544	type = "recover";
				4545	else if (mddev->reshape_position != MaxSector)
				4546	type = "reshape";
				4547	}
				4548	return sprintf(page, "%s\n", type);
				4549	}
				4550
				4551	static ssize_t
				4552	action_store(struct mddev mddev, const char page, size_t len)
				4553	{
				4554	if (!mddev->pers \|\| !mddev->pers->sync_request)
				4555	return -EINVAL;
				4556
				4557
				4558	if (cmd_match(page, "idle") \|\| cmd_match(page, "frozen")) {
				4559	if (cmd_match(page, "frozen"))
				4560	set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4561	else
				4562	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4563	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) &&
				4564	mddev_lock(mddev) == 0) {
				4565	flush_workqueue(md_misc_wq);
				4566	if (mddev->sync_thread) {
				4567	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				4568	md_reap_sync_thread(mddev);
				4569	}
				4570	mddev_unlock(mddev);
				4571	}
				4572	} else if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				4573	return -EBUSY;
				4574	else if (cmd_match(page, "resync"))
				4575	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4576	else if (cmd_match(page, "recover")) {
				4577	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4578	set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				4579	} else if (cmd_match(page, "reshape")) {
				4580	int err;
				4581	if (mddev->pers->start_reshape == NULL)
				4582	return -EINVAL;
				4583	err = mddev_lock(mddev);
				4584	if (!err) {
				4585	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				4586	err = -EBUSY;
				4587	else {
				4588	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4589	err = mddev->pers->start_reshape(mddev);
				4590	}
				4591	mddev_unlock(mddev);
				4592	}
				4593	if (err)
				4594	return err;
				4595	sysfs_notify(&mddev->kobj, NULL, "degraded");
				4596	} else {
				4597	if (cmd_match(page, "check"))
				4598	set_bit(MD_RECOVERY_CHECK, &mddev->recovery);
				4599	else if (!cmd_match(page, "repair"))
				4600	return -EINVAL;
				4601	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				4602	set_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
				4603	set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
				4604	}
				4605	if (mddev->ro == 2) {
				4606	/* A write to sync_action is enough to justify
				4607	* canceling read-auto mode
				4608	*/
				4609	mddev->ro = 0;
				4610	md_wakeup_thread(mddev->sync_thread);
				4611	}
				4612	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				4613	md_wakeup_thread(mddev->thread);
				4614	sysfs_notify_dirent_safe(mddev->sysfs_action);
				4615	return len;
				4616	}
				4617
				4618	static struct md_sysfs_entry md_scan_mode =
				4619	__ATTR_PREALLOC(sync_action, S_IRUGO\|S_IWUSR, action_show, action_store);
				4620
				4621	static ssize_t
				4622	last_sync_action_show(struct mddev mddev, char page)
				4623	{
				4624	return sprintf(page, "%s\n", mddev->last_sync_action);
				4625	}
				4626
				4627	static struct md_sysfs_entry md_last_scan_mode = __ATTR_RO(last_sync_action);
				4628
				4629	static ssize_t
				4630	mismatch_cnt_show(struct mddev mddev, char page)
				4631	{
				4632	return sprintf(page, "%llu\n",
				4633	(unsigned long long)
				4634	atomic64_read(&mddev->resync_mismatches));
				4635	}
				4636
				4637	static struct md_sysfs_entry md_mismatches = __ATTR_RO(mismatch_cnt);
				4638
				4639	static ssize_t
				4640	sync_min_show(struct mddev mddev, char page)
				4641	{
				4642	return sprintf(page, "%d (%s)\n", speed_min(mddev),
				4643	mddev->sync_speed_min ? "local": "system");
				4644	}
				4645
				4646	static ssize_t
				4647	sync_min_store(struct mddev mddev, const char buf, size_t len)
				4648	{
				4649	unsigned int min;
				4650	int rv;
				4651
				4652	if (strncmp(buf, "system", 6)==0) {
				4653	min = 0;
				4654	} else {
				4655	rv = kstrtouint(buf, 10, &min);
				4656	if (rv < 0)
				4657	return rv;
				4658	if (min == 0)
				4659	return -EINVAL;
				4660	}
				4661	mddev->sync_speed_min = min;
				4662	return len;
				4663	}
				4664
				4665	static struct md_sysfs_entry md_sync_min =
				4666	__ATTR(sync_speed_min, S_IRUGO\|S_IWUSR, sync_min_show, sync_min_store);
				4667
				4668	static ssize_t
				4669	sync_max_show(struct mddev mddev, char page)
				4670	{
				4671	return sprintf(page, "%d (%s)\n", speed_max(mddev),
				4672	mddev->sync_speed_max ? "local": "system");
				4673	}
				4674
				4675	static ssize_t
				4676	sync_max_store(struct mddev mddev, const char buf, size_t len)
				4677	{
				4678	unsigned int max;
				4679	int rv;
				4680
				4681	if (strncmp(buf, "system", 6)==0) {
				4682	max = 0;
				4683	} else {
				4684	rv = kstrtouint(buf, 10, &max);
				4685	if (rv < 0)
				4686	return rv;
				4687	if (max == 0)
				4688	return -EINVAL;
				4689	}
				4690	mddev->sync_speed_max = max;
				4691	return len;
				4692	}
				4693
				4694	static struct md_sysfs_entry md_sync_max =
				4695	__ATTR(sync_speed_max, S_IRUGO\|S_IWUSR, sync_max_show, sync_max_store);
				4696
				4697	static ssize_t
				4698	degraded_show(struct mddev mddev, char page)
				4699	{
				4700	return sprintf(page, "%d\n", mddev->degraded);
				4701	}
				4702	static struct md_sysfs_entry md_degraded = __ATTR_RO(degraded);
				4703
				4704	static ssize_t
				4705	sync_force_parallel_show(struct mddev mddev, char page)
				4706	{
				4707	return sprintf(page, "%d\n", mddev->parallel_resync);
				4708	}
				4709
				4710	static ssize_t
				4711	sync_force_parallel_store(struct mddev mddev, const char buf, size_t len)
				4712	{
				4713	long n;
				4714
				4715	if (kstrtol(buf, 10, &n))
				4716	return -EINVAL;
				4717
				4718	if (n != 0 && n != 1)
				4719	return -EINVAL;
				4720
				4721	mddev->parallel_resync = n;
				4722
				4723	if (mddev->sync_thread)
				4724	wake_up(&resync_wait);
				4725
				4726	return len;
				4727	}
				4728
				4729	/* force parallel resync, even with shared block devices */
				4730	static struct md_sysfs_entry md_sync_force_parallel =
				4731	__ATTR(sync_force_parallel, S_IRUGO\|S_IWUSR,
				4732	sync_force_parallel_show, sync_force_parallel_store);
				4733
				4734	static ssize_t
				4735	sync_speed_show(struct mddev mddev, char page)
				4736	{
				4737	unsigned long resync, dt, db;
				4738	if (mddev->curr_resync == 0)
				4739	return sprintf(page, "none\n");
				4740	resync = mddev->curr_mark_cnt - atomic_read(&mddev->recovery_active);
				4741	dt = (jiffies - mddev->resync_mark) / HZ;
				4742	if (!dt) dt++;
				4743	db = resync - mddev->resync_mark_cnt;
				4744	return sprintf(page, "%lu\n", db/dt/2); /* K/sec */
				4745	}
				4746
				4747	static struct md_sysfs_entry md_sync_speed = __ATTR_RO(sync_speed);
				4748
				4749	static ssize_t
				4750	sync_completed_show(struct mddev mddev, char page)
				4751	{
				4752	unsigned long long max_sectors, resync;
				4753
				4754	if (!test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				4755	return sprintf(page, "none\n");
				4756
				4757	if (mddev->curr_resync == 1 \|\|
				4758	mddev->curr_resync == 2)
				4759	return sprintf(page, "delayed\n");
				4760
				4761	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) \|\|
				4762	test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
				4763	max_sectors = mddev->resync_max_sectors;
				4764	else
				4765	max_sectors = mddev->dev_sectors;
				4766
				4767	resync = mddev->curr_resync_completed;
				4768	return sprintf(page, "%llu / %llu\n", resync, max_sectors);
				4769	}
				4770
				4771	static struct md_sysfs_entry md_sync_completed =
				4772	__ATTR_PREALLOC(sync_completed, S_IRUGO, sync_completed_show, NULL);
				4773
				4774	static ssize_t
				4775	min_sync_show(struct mddev mddev, char page)
				4776	{
				4777	return sprintf(page, "%llu\n",
				4778	(unsigned long long)mddev->resync_min);
				4779	}
				4780	static ssize_t
				4781	min_sync_store(struct mddev mddev, const char buf, size_t len)
				4782	{
				4783	unsigned long long min;
				4784	int err;
				4785
				4786	if (kstrtoull(buf, 10, &min))
				4787	return -EINVAL;
				4788
				4789	spin_lock(&mddev->lock);
				4790	err = -EINVAL;
				4791	if (min > mddev->resync_max)
				4792	goto out_unlock;
				4793
				4794	err = -EBUSY;
				4795	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				4796	goto out_unlock;
				4797
				4798	/* Round down to multiple of 4K for safety */
				4799	mddev->resync_min = round_down(min, 8);
				4800	err = 0;
				4801
				4802	out_unlock:
				4803	spin_unlock(&mddev->lock);
				4804	return err ?: len;
				4805	}
				4806
				4807	static struct md_sysfs_entry md_min_sync =
				4808	__ATTR(sync_min, S_IRUGO\|S_IWUSR, min_sync_show, min_sync_store);
				4809
				4810	static ssize_t
				4811	max_sync_show(struct mddev mddev, char page)
				4812	{
				4813	if (mddev->resync_max == MaxSector)
				4814	return sprintf(page, "max\n");
				4815	else
				4816	return sprintf(page, "%llu\n",
				4817	(unsigned long long)mddev->resync_max);
				4818	}
				4819	static ssize_t
				4820	max_sync_store(struct mddev mddev, const char buf, size_t len)
				4821	{
				4822	int err;
				4823	spin_lock(&mddev->lock);
				4824	if (strncmp(buf, "max", 3) == 0)
				4825	mddev->resync_max = MaxSector;
				4826	else {
				4827	unsigned long long max;
				4828	int chunk;
				4829
				4830	err = -EINVAL;
				4831	if (kstrtoull(buf, 10, &max))
				4832	goto out_unlock;
				4833	if (max < mddev->resync_min)
				4834	goto out_unlock;
				4835
				4836	err = -EBUSY;
				4837	if (max < mddev->resync_max &&
				4838	mddev->ro == 0 &&
				4839	test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				4840	goto out_unlock;
				4841
				4842	/* Must be a multiple of chunk_size */
				4843	chunk = mddev->chunk_sectors;
				4844	if (chunk) {
				4845	sector_t temp = max;
				4846
				4847	err = -EINVAL;
				4848	if (sector_div(temp, chunk))
				4849	goto out_unlock;
				4850	}
				4851	mddev->resync_max = max;
				4852	}
				4853	wake_up(&mddev->recovery_wait);
				4854	err = 0;
				4855	out_unlock:
				4856	spin_unlock(&mddev->lock);
				4857	return err ?: len;
				4858	}
				4859
				4860	static struct md_sysfs_entry md_max_sync =
				4861	__ATTR(sync_max, S_IRUGO\|S_IWUSR, max_sync_show, max_sync_store);
				4862
				4863	static ssize_t
				4864	suspend_lo_show(struct mddev mddev, char page)
				4865	{
				4866	return sprintf(page, "%llu\n", (unsigned long long)mddev->suspend_lo);
				4867	}
				4868
				4869	static ssize_t
				4870	suspend_lo_store(struct mddev mddev, const char buf, size_t len)
				4871	{
				4872	unsigned long long new;
				4873	int err;
				4874
				4875	err = kstrtoull(buf, 10, &new);
				4876	if (err < 0)
				4877	return err;
				4878	if (new != (sector_t)new)
				4879	return -EINVAL;
				4880
				4881	err = mddev_lock(mddev);
				4882	if (err)
				4883	return err;
				4884	err = -EINVAL;
				4885	if (mddev->pers == NULL \|\|
				4886	mddev->pers->quiesce == NULL)
				4887	goto unlock;
				4888	mddev_suspend(mddev);
				4889	mddev->suspend_lo = new;
				4890	mddev_resume(mddev);
				4891
				4892	err = 0;
				4893	unlock:
				4894	mddev_unlock(mddev);
				4895	return err ?: len;
				4896	}
				4897	static struct md_sysfs_entry md_suspend_lo =
				4898	__ATTR(suspend_lo, S_IRUGO\|S_IWUSR, suspend_lo_show, suspend_lo_store);
				4899
				4900	static ssize_t
				4901	suspend_hi_show(struct mddev mddev, char page)
				4902	{
				4903	return sprintf(page, "%llu\n", (unsigned long long)mddev->suspend_hi);
				4904	}
				4905
				4906	static ssize_t
				4907	suspend_hi_store(struct mddev mddev, const char buf, size_t len)
				4908	{
				4909	unsigned long long new;
				4910	int err;
				4911
				4912	err = kstrtoull(buf, 10, &new);
				4913	if (err < 0)
				4914	return err;
				4915	if (new != (sector_t)new)
				4916	return -EINVAL;
				4917
				4918	err = mddev_lock(mddev);
				4919	if (err)
				4920	return err;
				4921	err = -EINVAL;
				4922	if (mddev->pers == NULL)
				4923	goto unlock;
				4924
				4925	mddev_suspend(mddev);
				4926	mddev->suspend_hi = new;
				4927	mddev_resume(mddev);
				4928
				4929	err = 0;
				4930	unlock:
				4931	mddev_unlock(mddev);
				4932	return err ?: len;
				4933	}
				4934	static struct md_sysfs_entry md_suspend_hi =
				4935	__ATTR(suspend_hi, S_IRUGO\|S_IWUSR, suspend_hi_show, suspend_hi_store);
				4936
				4937	static ssize_t
				4938	reshape_position_show(struct mddev mddev, char page)
				4939	{
				4940	if (mddev->reshape_position != MaxSector)
				4941	return sprintf(page, "%llu\n",
				4942	(unsigned long long)mddev->reshape_position);
				4943	strcpy(page, "none\n");
				4944	return 5;
				4945	}
				4946
				4947	static ssize_t
				4948	reshape_position_store(struct mddev mddev, const char buf, size_t len)
				4949	{
				4950	struct md_rdev *rdev;
				4951	unsigned long long new;
				4952	int err;
				4953
				4954	err = kstrtoull(buf, 10, &new);
				4955	if (err < 0)
				4956	return err;
				4957	if (new != (sector_t)new)
				4958	return -EINVAL;
				4959	err = mddev_lock(mddev);
				4960	if (err)
				4961	return err;
				4962	err = -EBUSY;
				4963	if (mddev->pers)
				4964	goto unlock;
				4965	mddev->reshape_position = new;
				4966	mddev->delta_disks = 0;
				4967	mddev->reshape_backwards = 0;
				4968	mddev->new_level = mddev->level;
				4969	mddev->new_layout = mddev->layout;
				4970	mddev->new_chunk_sectors = mddev->chunk_sectors;
				4971	rdev_for_each(rdev, mddev)
				4972	rdev->new_data_offset = rdev->data_offset;
				4973	err = 0;
				4974	unlock:
				4975	mddev_unlock(mddev);
				4976	return err ?: len;
				4977	}
				4978
				4979	static struct md_sysfs_entry md_reshape_position =
				4980	__ATTR(reshape_position, S_IRUGO\|S_IWUSR, reshape_position_show,
				4981	reshape_position_store);
				4982
				4983	static ssize_t
				4984	reshape_direction_show(struct mddev mddev, char page)
				4985	{
				4986	return sprintf(page, "%s\n",
				4987	mddev->reshape_backwards ? "backwards" : "forwards");
				4988	}
				4989
				4990	static ssize_t
				4991	reshape_direction_store(struct mddev mddev, const char buf, size_t len)
				4992	{
				4993	int backwards = 0;
				4994	int err;
				4995
				4996	if (cmd_match(buf, "forwards"))
				4997	backwards = 0;
				4998	else if (cmd_match(buf, "backwards"))
				4999	backwards = 1;
				5000	else
				5001	return -EINVAL;
				5002	if (mddev->reshape_backwards == backwards)
				5003	return len;
				5004
				5005	err = mddev_lock(mddev);
				5006	if (err)
				5007	return err;
				5008	/* check if we are allowed to change */
				5009	if (mddev->delta_disks)
				5010	err = -EBUSY;
				5011	else if (mddev->persistent &&
				5012	mddev->major_version == 0)
				5013	err = -EINVAL;
				5014	else
				5015	mddev->reshape_backwards = backwards;
				5016	mddev_unlock(mddev);
				5017	return err ?: len;
				5018	}
				5019
				5020	static struct md_sysfs_entry md_reshape_direction =
				5021	__ATTR(reshape_direction, S_IRUGO\|S_IWUSR, reshape_direction_show,
				5022	reshape_direction_store);
				5023
				5024	static ssize_t
				5025	array_size_show(struct mddev mddev, char page)
				5026	{
				5027	if (mddev->external_size)
				5028	return sprintf(page, "%llu\n",
				5029	(unsigned long long)mddev->array_sectors/2);
				5030	else
				5031	return sprintf(page, "default\n");
				5032	}
				5033
				5034	static ssize_t
				5035	array_size_store(struct mddev mddev, const char buf, size_t len)
				5036	{
				5037	sector_t sectors;
				5038	int err;
				5039
				5040	err = mddev_lock(mddev);
				5041	if (err)
				5042	return err;
				5043
				5044	/* cluster raid doesn't support change array_sectors */
				5045	if (mddev_is_clustered(mddev)) {
				5046	mddev_unlock(mddev);
				5047	return -EINVAL;
				5048	}
				5049
				5050	if (strncmp(buf, "default", 7) == 0) {
				5051	if (mddev->pers)
				5052	sectors = mddev->pers->size(mddev, 0, 0);
				5053	else
				5054	sectors = mddev->array_sectors;
				5055
				5056	mddev->external_size = 0;
				5057	} else {
				5058	if (strict_blocks_to_sectors(buf, &sectors) < 0)
				5059	err = -EINVAL;
				5060	else if (mddev->pers && mddev->pers->size(mddev, 0, 0) < sectors)
				5061	err = -E2BIG;
				5062	else
				5063	mddev->external_size = 1;
				5064	}
				5065
				5066	if (!err) {
				5067	mddev->array_sectors = sectors;
				5068	if (mddev->pers) {
				5069	set_capacity(mddev->gendisk, mddev->array_sectors);
				5070	revalidate_disk(mddev->gendisk);
				5071	}
				5072	}
				5073	mddev_unlock(mddev);
				5074	return err ?: len;
				5075	}
				5076
				5077	static struct md_sysfs_entry md_array_size =
				5078	__ATTR(array_size, S_IRUGO\|S_IWUSR, array_size_show,
				5079	array_size_store);
				5080
				5081	static ssize_t
				5082	consistency_policy_show(struct mddev mddev, char page)
				5083	{
				5084	int ret;
				5085
				5086	if (test_bit(MD_HAS_JOURNAL, &mddev->flags)) {
				5087	ret = sprintf(page, "journal\n");
				5088	} else if (test_bit(MD_HAS_PPL, &mddev->flags)) {
				5089	ret = sprintf(page, "ppl\n");
				5090	} else if (mddev->bitmap) {
				5091	ret = sprintf(page, "bitmap\n");
				5092	} else if (mddev->pers) {
				5093	if (mddev->pers->sync_request)
				5094	ret = sprintf(page, "resync\n");
				5095	else
				5096	ret = sprintf(page, "none\n");
				5097	} else {
				5098	ret = sprintf(page, "unknown\n");
				5099	}
				5100
				5101	return ret;
				5102	}
				5103
				5104	static ssize_t
				5105	consistency_policy_store(struct mddev mddev, const char buf, size_t len)
				5106	{
				5107	int err = 0;
				5108
				5109	if (mddev->pers) {
				5110	if (mddev->pers->change_consistency_policy)
				5111	err = mddev->pers->change_consistency_policy(mddev, buf);
				5112	else
				5113	err = -EBUSY;
				5114	} else if (mddev->external && strncmp(buf, "ppl", 3) == 0) {
				5115	set_bit(MD_HAS_PPL, &mddev->flags);
				5116	} else {
				5117	err = -EINVAL;
				5118	}
				5119
				5120	return err ? err : len;
				5121	}
				5122
				5123	static struct md_sysfs_entry md_consistency_policy =
				5124	__ATTR(consistency_policy, S_IRUGO \| S_IWUSR, consistency_policy_show,
				5125	consistency_policy_store);
				5126
				5127	static struct attribute *md_default_attrs[] = {
				5128	&md_level.attr,
				5129	&md_layout.attr,
				5130	&md_raid_disks.attr,
				5131	&md_chunk_size.attr,
				5132	&md_size.attr,
				5133	&md_resync_start.attr,
				5134	&md_metadata.attr,
				5135	&md_new_device.attr,
				5136	&md_safe_delay.attr,
				5137	&md_array_state.attr,
				5138	&md_reshape_position.attr,
				5139	&md_reshape_direction.attr,
				5140	&md_array_size.attr,
				5141	&max_corr_read_errors.attr,
				5142	&md_consistency_policy.attr,
				5143	NULL,
				5144	};
				5145
				5146	static struct attribute *md_redundancy_attrs[] = {
				5147	&md_scan_mode.attr,
				5148	&md_last_scan_mode.attr,
				5149	&md_mismatches.attr,
				5150	&md_sync_min.attr,
				5151	&md_sync_max.attr,
				5152	&md_sync_speed.attr,
				5153	&md_sync_force_parallel.attr,
				5154	&md_sync_completed.attr,
				5155	&md_min_sync.attr,
				5156	&md_max_sync.attr,
				5157	&md_suspend_lo.attr,
				5158	&md_suspend_hi.attr,
				5159	&md_bitmap.attr,
				5160	&md_degraded.attr,
				5161	NULL,
				5162	};
				5163	static struct attribute_group md_redundancy_group = {
				5164	.name = NULL,
				5165	.attrs = md_redundancy_attrs,
				5166	};
				5167
				5168	static ssize_t
				5169	md_attr_show(struct kobject kobj, struct attribute attr, char *page)
				5170	{
				5171	struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
				5172	struct mddev *mddev = container_of(kobj, struct mddev, kobj);
				5173	ssize_t rv;
				5174
				5175	if (!entry->show)
				5176	return -EIO;
				5177	spin_lock(&all_mddevs_lock);
				5178	if (list_empty(&mddev->all_mddevs)) {
				5179	spin_unlock(&all_mddevs_lock);
				5180	return -EBUSY;
				5181	}
				5182	mddev_get(mddev);
				5183	spin_unlock(&all_mddevs_lock);
				5184
				5185	rv = entry->show(mddev, page);
				5186	mddev_put(mddev);
				5187	return rv;
				5188	}
				5189
				5190	static ssize_t
				5191	md_attr_store(struct kobject kobj, struct attribute attr,
				5192	const char *page, size_t length)
				5193	{
				5194	struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
				5195	struct mddev *mddev = container_of(kobj, struct mddev, kobj);
				5196	ssize_t rv;
				5197
				5198	if (!entry->store)
				5199	return -EIO;
				5200	if (!capable(CAP_SYS_ADMIN))
				5201	return -EACCES;
				5202	spin_lock(&all_mddevs_lock);
				5203	if (list_empty(&mddev->all_mddevs)) {
				5204	spin_unlock(&all_mddevs_lock);
				5205	return -EBUSY;
				5206	}
				5207	mddev_get(mddev);
				5208	spin_unlock(&all_mddevs_lock);
				5209	rv = entry->store(mddev, page, length);
				5210	mddev_put(mddev);
				5211	return rv;
				5212	}
				5213
				5214	static void md_free(struct kobject *ko)
				5215	{
				5216	struct mddev *mddev = container_of(ko, struct mddev, kobj);
				5217
				5218	if (mddev->sysfs_state)
				5219	sysfs_put(mddev->sysfs_state);
				5220
				5221	if (mddev->queue)
				5222	blk_cleanup_queue(mddev->queue);
				5223	if (mddev->gendisk) {
				5224	del_gendisk(mddev->gendisk);
				5225	put_disk(mddev->gendisk);
				5226	}
				5227	percpu_ref_exit(&mddev->writes_pending);
				5228
				5229	kfree(mddev);
				5230	}
				5231
				5232	static const struct sysfs_ops md_sysfs_ops = {
				5233	.show = md_attr_show,
				5234	.store = md_attr_store,
				5235	};
				5236	static struct kobj_type md_ktype = {
				5237	.release = md_free,
				5238	.sysfs_ops = &md_sysfs_ops,
				5239	.default_attrs = md_default_attrs,
				5240	};
				5241
				5242	int mdp_major = 0;
				5243
				5244	static void mddev_delayed_delete(struct work_struct *ws)
				5245	{
				5246	struct mddev *mddev = container_of(ws, struct mddev, del_work);
				5247
				5248	sysfs_remove_group(&mddev->kobj, &md_bitmap_group);
				5249	kobject_del(&mddev->kobj);
				5250	kobject_put(&mddev->kobj);
				5251	}
				5252
				5253	static void no_op(struct percpu_ref *r) {}
				5254
				5255	int mddev_init_writes_pending(struct mddev *mddev)
				5256	{
				5257	if (mddev->writes_pending.percpu_count_ptr)
				5258	return 0;
				5259	if (percpu_ref_init(&mddev->writes_pending, no_op, 0, GFP_KERNEL) < 0)
				5260	return -ENOMEM;
				5261	/* We want to start with the refcount at zero */
				5262	percpu_ref_put(&mddev->writes_pending);
				5263	return 0;
				5264	}
				5265	EXPORT_SYMBOL_GPL(mddev_init_writes_pending);
				5266
				5267	static int md_alloc(dev_t dev, char *name)
				5268	{
				5269	/*
				5270	* If dev is zero, name is the name of a device to allocate with
				5271	* an arbitrary minor number. It will be "md_???"
				5272	* If dev is non-zero it must be a device number with a MAJOR of
				5273	* MD_MAJOR or mdp_major. In this case, if "name" is NULL, then
				5274	* the device is being created by opening a node in /dev.
				5275	* If "name" is not NULL, the device is being created by
				5276	* writing to /sys/module/md_mod/parameters/new_array.
				5277	*/
				5278	static DEFINE_MUTEX(disks_mutex);
				5279	struct mddev *mddev = mddev_find(dev);
				5280	struct gendisk *disk;
				5281	int partitioned;
				5282	int shift;
				5283	int unit;
				5284	int error;
				5285
				5286	if (!mddev)
				5287	return -ENODEV;
				5288
				5289	partitioned = (MAJOR(mddev->unit) != MD_MAJOR);
				5290	shift = partitioned ? MdpMinorShift : 0;
				5291	unit = MINOR(mddev->unit) >> shift;
				5292
				5293	/* wait for any previous instance of this device to be
				5294	* completely removed (mddev_delayed_delete).
				5295	*/
				5296	flush_workqueue(md_misc_wq);
				5297
				5298	mutex_lock(&disks_mutex);
				5299	error = -EEXIST;
				5300	if (mddev->gendisk)
				5301	goto abort;
				5302
				5303	if (name && !dev) {
				5304	/* Need to ensure that 'name' is not a duplicate.
				5305	*/
				5306	struct mddev *mddev2;
				5307	spin_lock(&all_mddevs_lock);
				5308
				5309	list_for_each_entry(mddev2, &all_mddevs, all_mddevs)
				5310	if (mddev2->gendisk &&
				5311	strcmp(mddev2->gendisk->disk_name, name) == 0) {
				5312	spin_unlock(&all_mddevs_lock);
				5313	goto abort;
				5314	}
				5315	spin_unlock(&all_mddevs_lock);
				5316	}
				5317	if (name && dev)
				5318	/*
				5319	* Creating /dev/mdNNN via "newarray", so adjust hold_active.
				5320	*/
				5321	mddev->hold_active = UNTIL_STOP;
				5322
				5323	error = -ENOMEM;
				5324	mddev->queue = blk_alloc_queue(GFP_KERNEL);
				5325	if (!mddev->queue)
				5326	goto abort;
				5327	mddev->queue->queuedata = mddev;
				5328
				5329	blk_queue_make_request(mddev->queue, md_make_request);
				5330	blk_set_stacking_limits(&mddev->queue->limits);
				5331
				5332	disk = alloc_disk(1 << shift);
				5333	if (!disk) {
				5334	blk_cleanup_queue(mddev->queue);
				5335	mddev->queue = NULL;
				5336	goto abort;
				5337	}
				5338	disk->major = MAJOR(mddev->unit);
				5339	disk->first_minor = unit << shift;
				5340	if (name)
				5341	strcpy(disk->disk_name, name);
				5342	else if (partitioned)
				5343	sprintf(disk->disk_name, "md_d%d", unit);
				5344	else
				5345	sprintf(disk->disk_name, "md%d", unit);
				5346	disk->fops = &md_fops;
				5347	disk->private_data = mddev;
				5348	disk->queue = mddev->queue;
				5349	blk_queue_write_cache(mddev->queue, true, true);
				5350	/* Allow extended partitions. This makes the
				5351	* 'mdp' device redundant, but we can't really
				5352	* remove it now.
				5353	*/
				5354	disk->flags \|= GENHD_FL_EXT_DEVT;
				5355	mddev->gendisk = disk;
				5356	/* As soon as we call add_disk(), another thread could get
				5357	* through to md_open, so make sure it doesn't get too far
				5358	*/
				5359	mutex_lock(&mddev->open_mutex);
				5360	add_disk(disk);
				5361
				5362	error = kobject_init_and_add(&mddev->kobj, &md_ktype,
				5363	&disk_to_dev(disk)->kobj, "%s", "md");
				5364	if (error) {
				5365	/* This isn't possible, but as kobject_init_and_add is marked
				5366	* __must_check, we must do something with the result
				5367	*/
				5368	pr_debug("md: cannot register %s/md - name in use\n",
				5369	disk->disk_name);
				5370	error = 0;
				5371	}
				5372	if (mddev->kobj.sd &&
				5373	sysfs_create_group(&mddev->kobj, &md_bitmap_group))
				5374	pr_debug("pointless warning\n");
				5375	mutex_unlock(&mddev->open_mutex);
				5376	abort:
				5377	mutex_unlock(&disks_mutex);
				5378	if (!error && mddev->kobj.sd) {
				5379	kobject_uevent(&mddev->kobj, KOBJ_ADD);
				5380	mddev->sysfs_state = sysfs_get_dirent_safe(mddev->kobj.sd, "array_state");
				5381	}
				5382	mddev_put(mddev);
				5383	return error;
				5384	}
				5385
				5386	static struct kobject md_probe(dev_t dev, int part, void *data)
				5387	{
				5388	if (create_on_open)
				5389	md_alloc(dev, NULL);
				5390	return NULL;
				5391	}
				5392
				5393	static int add_named_array(const char val, const struct kernel_param kp)
				5394	{
				5395	/*
				5396	* val must be "md_*" or "mdNNN".
				5397	* For "md_*" we allocate an array with a large free minor number, and
				5398	* set the name to val. val must not already be an active name.
				5399	* For "mdNNN" we allocate an array with the minor number NNN
				5400	* which must not already be in use.
				5401	*/
				5402	int len = strlen(val);
				5403	char buf[DISK_NAME_LEN];
				5404	unsigned long devnum;
				5405
				5406	while (len && val[len-1] == '\n')
				5407	len--;
				5408	if (len >= DISK_NAME_LEN)
				5409	return -E2BIG;
				5410	strlcpy(buf, val, len+1);
				5411	if (strncmp(buf, "md_", 3) == 0)
				5412	return md_alloc(0, buf);
				5413	if (strncmp(buf, "md", 2) == 0 &&
				5414	isdigit(buf[2]) &&
				5415	kstrtoul(buf+2, 10, &devnum) == 0 &&
				5416	devnum <= MINORMASK)
				5417	return md_alloc(MKDEV(MD_MAJOR, devnum), NULL);
				5418
				5419	return -EINVAL;
				5420	}
				5421
				5422	static void md_safemode_timeout(unsigned long data)
				5423	{
				5424	struct mddev mddev = (struct mddev ) data;
				5425
				5426	mddev->safemode = 1;
				5427	if (mddev->external)
				5428	sysfs_notify_dirent_safe(mddev->sysfs_state);
				5429
				5430	md_wakeup_thread(mddev->thread);
				5431	}
				5432
				5433	static int start_dirty_degraded;
				5434
				5435	int md_run(struct mddev *mddev)
				5436	{
				5437	int err;
				5438	struct md_rdev *rdev;
				5439	struct md_personality *pers;
				5440
				5441	if (list_empty(&mddev->disks))
				5442	/* cannot run an array with no devices.. */
				5443	return -EINVAL;
				5444
				5445	if (mddev->pers)
				5446	return -EBUSY;
				5447	/* Cannot run until previous stop completes properly */
				5448	if (mddev->sysfs_active)
				5449	return -EBUSY;
				5450
				5451	/*
				5452	* Analyze all RAID superblock(s)
				5453	*/
				5454	if (!mddev->raid_disks) {
				5455	if (!mddev->persistent)
				5456	return -EINVAL;
				5457	analyze_sbs(mddev);
				5458	}
				5459
				5460	if (mddev->level != LEVEL_NONE)
				5461	request_module("md-level-%d", mddev->level);
				5462	else if (mddev->clevel[0])
				5463	request_module("md-%s", mddev->clevel);
				5464
				5465	/*
				5466	* Drop all container device buffers, from now on
				5467	* the only valid external interface is through the md
				5468	* device.
				5469	*/
				5470	mddev->has_superblocks = false;
				5471	rdev_for_each(rdev, mddev) {
				5472	if (test_bit(Faulty, &rdev->flags))
				5473	continue;
				5474	sync_blockdev(rdev->bdev);
				5475	invalidate_bdev(rdev->bdev);
				5476	if (mddev->ro != 1 &&
				5477	(bdev_read_only(rdev->bdev) \|\|
				5478	bdev_read_only(rdev->meta_bdev))) {
				5479	mddev->ro = 1;
				5480	if (mddev->gendisk)
				5481	set_disk_ro(mddev->gendisk, 1);
				5482	}
				5483
				5484	if (rdev->sb_page)
				5485	mddev->has_superblocks = true;
				5486
				5487	/* perform some consistency tests on the device.
				5488	* We don't want the data to overlap the metadata,
				5489	* Internal Bitmap issues have been handled elsewhere.
				5490	*/
				5491	if (rdev->meta_bdev) {
				5492	/* Nothing to check */;
				5493	} else if (rdev->data_offset < rdev->sb_start) {
				5494	if (mddev->dev_sectors &&
				5495	rdev->data_offset + mddev->dev_sectors
				5496	> rdev->sb_start) {
				5497	pr_warn("md: %s: data overlaps metadata\n",
				5498	mdname(mddev));
				5499	return -EINVAL;
				5500	}
				5501	} else {
				5502	if (rdev->sb_start + rdev->sb_size/512
				5503	> rdev->data_offset) {
				5504	pr_warn("md: %s: metadata overlaps data\n",
				5505	mdname(mddev));
				5506	return -EINVAL;
				5507	}
				5508	}
				5509	sysfs_notify_dirent_safe(rdev->sysfs_state);
				5510	}
				5511
				5512	if (mddev->bio_set == NULL) {
				5513	mddev->bio_set = bioset_create(BIO_POOL_SIZE, 0, BIOSET_NEED_BVECS);
				5514	if (!mddev->bio_set)
				5515	return -ENOMEM;
				5516	}
				5517	if (mddev->sync_set == NULL) {
				5518	mddev->sync_set = bioset_create(BIO_POOL_SIZE, 0, BIOSET_NEED_BVECS);
				5519	if (!mddev->sync_set) {
				5520	err = -ENOMEM;
				5521	goto abort;
				5522	}
				5523	}
				5524
				5525	spin_lock(&pers_lock);
				5526	pers = find_pers(mddev->level, mddev->clevel);
				5527	if (!pers \|\| !try_module_get(pers->owner)) {
				5528	spin_unlock(&pers_lock);
				5529	if (mddev->level != LEVEL_NONE)
				5530	pr_warn("md: personality for level %d is not loaded!\n",
				5531	mddev->level);
				5532	else
				5533	pr_warn("md: personality for level %s is not loaded!\n",
				5534	mddev->clevel);
				5535	err = -EINVAL;
				5536	goto abort;
				5537	}
				5538	spin_unlock(&pers_lock);
				5539	if (mddev->level != pers->level) {
				5540	mddev->level = pers->level;
				5541	mddev->new_level = pers->level;
				5542	}
				5543	strlcpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
				5544
				5545	if (mddev->reshape_position != MaxSector &&
				5546	pers->start_reshape == NULL) {
				5547	/* This personality cannot handle reshaping... */
				5548	module_put(pers->owner);
				5549	err = -EINVAL;
				5550	goto abort;
				5551	}
				5552
				5553	if (pers->sync_request) {
				5554	/* Warn if this is a potentially silly
				5555	* configuration.
				5556	*/
				5557	char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
				5558	struct md_rdev *rdev2;
				5559	int warned = 0;
				5560
				5561	rdev_for_each(rdev, mddev)
				5562	rdev_for_each(rdev2, mddev) {
				5563	if (rdev < rdev2 &&
				5564	rdev->bdev->bd_contains ==
				5565	rdev2->bdev->bd_contains) {
				5566	pr_warn("%s: WARNING: %s appears to be on the same physical disk as %s.\n",
				5567	mdname(mddev),
				5568	bdevname(rdev->bdev,b),
				5569	bdevname(rdev2->bdev,b2));
				5570	warned = 1;
				5571	}
				5572	}
				5573
				5574	if (warned)
				5575	pr_warn("True protection against single-disk failure might be compromised.\n");
				5576	}
				5577
				5578	mddev->recovery = 0;
				5579	/* may be over-ridden by personality */
				5580	mddev->resync_max_sectors = mddev->dev_sectors;
				5581
				5582	mddev->ok_start_degraded = start_dirty_degraded;
				5583
				5584	if (start_readonly && mddev->ro == 0)
				5585	mddev->ro = 2; /* read-only, but switch on first write */
				5586
				5587	/*
				5588	* NOTE: some pers->run(), for example r5l_recovery_log(), wakes
				5589	* up mddev->thread. It is important to initialize critical
				5590	* resources for mddev->thread BEFORE calling pers->run().
				5591	*/
				5592	err = pers->run(mddev);
				5593	if (err)
				5594	pr_warn("md: pers->run() failed ...\n");
				5595	else if (pers->size(mddev, 0, 0) < mddev->array_sectors) {
				5596	WARN_ONCE(!mddev->external_size,
				5597	"%s: default size too small, but 'external_size' not in effect?\n",
				5598	__func__);
				5599	pr_warn("md: invalid array_size %llu > default size %llu\n",
				5600	(unsigned long long)mddev->array_sectors / 2,
				5601	(unsigned long long)pers->size(mddev, 0, 0) / 2);
				5602	err = -EINVAL;
				5603	}
				5604	if (err == 0 && pers->sync_request &&
				5605	(mddev->bitmap_info.file \|\| mddev->bitmap_info.offset)) {
				5606	struct bitmap *bitmap;
				5607
				5608	bitmap = bitmap_create(mddev, -1);
				5609	if (IS_ERR(bitmap)) {
				5610	err = PTR_ERR(bitmap);
				5611	pr_warn("%s: failed to create bitmap (%d)\n",
				5612	mdname(mddev), err);
				5613	} else
				5614	mddev->bitmap = bitmap;
				5615
				5616	}
				5617	if (err) {
				5618	mddev_detach(mddev);
				5619	if (mddev->private)
				5620	pers->free(mddev, mddev->private);
				5621	mddev->private = NULL;
				5622	module_put(pers->owner);
				5623	bitmap_destroy(mddev);
				5624	goto abort;
				5625	}
				5626	if (mddev->queue) {
				5627	bool nonrot = true;
				5628
				5629	rdev_for_each(rdev, mddev) {
				5630	if (rdev->raid_disk >= 0 &&
				5631	!blk_queue_nonrot(bdev_get_queue(rdev->bdev))) {
				5632	nonrot = false;
				5633	break;
				5634	}
				5635	}
				5636	if (mddev->degraded)
				5637	nonrot = false;
				5638	if (nonrot)
				5639	queue_flag_set_unlocked(QUEUE_FLAG_NONROT, mddev->queue);
				5640	else
				5641	queue_flag_clear_unlocked(QUEUE_FLAG_NONROT, mddev->queue);
				5642	mddev->queue->backing_dev_info->congested_data = mddev;
				5643	mddev->queue->backing_dev_info->congested_fn = md_congested;
				5644	}
				5645	if (pers->sync_request) {
				5646	if (mddev->kobj.sd &&
				5647	sysfs_create_group(&mddev->kobj, &md_redundancy_group))
				5648	pr_warn("md: cannot register extra attributes for %s\n",
				5649	mdname(mddev));
				5650	mddev->sysfs_action = sysfs_get_dirent_safe(mddev->kobj.sd, "sync_action");
				5651	} else if (mddev->ro == 2) /* auto-readonly not meaningful */
				5652	mddev->ro = 0;
				5653
				5654	atomic_set(&mddev->max_corr_read_errors,
				5655	MD_DEFAULT_MAX_CORRECTED_READ_ERRORS);
				5656	mddev->safemode = 0;
				5657	if (mddev_is_clustered(mddev))
				5658	mddev->safemode_delay = 0;
				5659	else
				5660	mddev->safemode_delay = (200 * HZ)/1000 +1; /* 200 msec delay */
				5661	mddev->in_sync = 1;
				5662	smp_wmb();
				5663	spin_lock(&mddev->lock);
				5664	mddev->pers = pers;
				5665	spin_unlock(&mddev->lock);
				5666	rdev_for_each(rdev, mddev)
				5667	if (rdev->raid_disk >= 0)
				5668	if (sysfs_link_rdev(mddev, rdev))
				5669	/* failure here is OK */;
				5670
				5671	if (mddev->degraded && !mddev->ro)
				5672	/* This ensures that recovering status is reported immediately
				5673	* via sysfs - until a lack of spares is confirmed.
				5674	*/
				5675	set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				5676	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				5677
				5678	if (mddev->sb_flags)
				5679	md_update_sb(mddev, 0);
				5680
				5681	md_new_event(mddev);
				5682	return 0;
				5683
				5684	abort:
				5685	if (mddev->bio_set) {
				5686	bioset_free(mddev->bio_set);
				5687	mddev->bio_set = NULL;
				5688	}
				5689	if (mddev->sync_set) {
				5690	bioset_free(mddev->sync_set);
				5691	mddev->sync_set = NULL;
				5692	}
				5693
				5694	return err;
				5695	}
				5696	EXPORT_SYMBOL_GPL(md_run);
				5697
				5698	static int do_md_run(struct mddev *mddev)
				5699	{
				5700	int err;
				5701
				5702	set_bit(MD_NOT_READY, &mddev->flags);
				5703	err = md_run(mddev);
				5704	if (err)
				5705	goto out;
				5706	err = bitmap_load(mddev);
				5707	if (err) {
				5708	bitmap_destroy(mddev);
				5709	goto out;
				5710	}
				5711
				5712	if (mddev_is_clustered(mddev))
				5713	md_allow_write(mddev);
				5714
				5715	md_wakeup_thread(mddev->thread);
				5716	md_wakeup_thread(mddev->sync_thread); /* possibly kick off a reshape */
				5717
				5718	set_capacity(mddev->gendisk, mddev->array_sectors);
				5719	revalidate_disk(mddev->gendisk);
				5720	clear_bit(MD_NOT_READY, &mddev->flags);
				5721	mddev->changed = 1;
				5722	kobject_uevent(&disk_to_dev(mddev->gendisk)->kobj, KOBJ_CHANGE);
				5723	sysfs_notify_dirent_safe(mddev->sysfs_state);
				5724	sysfs_notify_dirent_safe(mddev->sysfs_action);
				5725	sysfs_notify(&mddev->kobj, NULL, "degraded");
				5726	out:
				5727	clear_bit(MD_NOT_READY, &mddev->flags);
				5728	return err;
				5729	}
				5730
				5731	static int restart_array(struct mddev *mddev)
				5732	{
				5733	struct gendisk *disk = mddev->gendisk;
				5734	struct md_rdev *rdev;
				5735	bool has_journal = false;
				5736	bool has_readonly = false;
				5737
				5738	/* Complain if it has no devices */
				5739	if (list_empty(&mddev->disks))
				5740	return -ENXIO;
				5741	if (!mddev->pers)
				5742	return -EINVAL;
				5743	if (!mddev->ro)
				5744	return -EBUSY;
				5745
				5746	rcu_read_lock();
				5747	rdev_for_each_rcu(rdev, mddev) {
				5748	if (test_bit(Journal, &rdev->flags) &&
				5749	!test_bit(Faulty, &rdev->flags))
				5750	has_journal = true;
				5751	if (bdev_read_only(rdev->bdev))
				5752	has_readonly = true;
				5753	}
				5754	rcu_read_unlock();
				5755	if (test_bit(MD_HAS_JOURNAL, &mddev->flags) && !has_journal)
				5756	/* Don't restart rw with journal missing/faulty */
				5757	return -EINVAL;
				5758	if (has_readonly)
				5759	return -EROFS;
				5760
				5761	mddev->safemode = 0;
				5762	mddev->ro = 0;
				5763	set_disk_ro(disk, 0);
				5764	pr_debug("md: %s switched to read-write mode.\n", mdname(mddev));
				5765	/* Kick recovery or resync if necessary */
				5766	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				5767	md_wakeup_thread(mddev->thread);
				5768	md_wakeup_thread(mddev->sync_thread);
				5769	sysfs_notify_dirent_safe(mddev->sysfs_state);
				5770	return 0;
				5771	}
				5772
				5773	static void md_clean(struct mddev *mddev)
				5774	{
				5775	mddev->array_sectors = 0;
				5776	mddev->external_size = 0;
				5777	mddev->dev_sectors = 0;
				5778	mddev->raid_disks = 0;
				5779	mddev->recovery_cp = 0;
				5780	mddev->resync_min = 0;
				5781	mddev->resync_max = MaxSector;
				5782	mddev->reshape_position = MaxSector;
				5783	mddev->external = 0;
				5784	mddev->persistent = 0;
				5785	mddev->level = LEVEL_NONE;
				5786	mddev->clevel[0] = 0;
				5787	mddev->flags = 0;
				5788	mddev->sb_flags = 0;
				5789	mddev->ro = 0;
				5790	mddev->metadata_type[0] = 0;
				5791	mddev->chunk_sectors = 0;
				5792	mddev->ctime = mddev->utime = 0;
				5793	mddev->layout = 0;
				5794	mddev->max_disks = 0;
				5795	mddev->events = 0;
				5796	mddev->can_decrease_events = 0;
				5797	mddev->delta_disks = 0;
				5798	mddev->reshape_backwards = 0;
				5799	mddev->new_level = LEVEL_NONE;
				5800	mddev->new_layout = 0;
				5801	mddev->new_chunk_sectors = 0;
				5802	mddev->curr_resync = 0;
				5803	atomic64_set(&mddev->resync_mismatches, 0);
				5804	mddev->suspend_lo = mddev->suspend_hi = 0;
				5805	mddev->sync_speed_min = mddev->sync_speed_max = 0;
				5806	mddev->recovery = 0;
				5807	mddev->in_sync = 0;
				5808	mddev->changed = 0;
				5809	mddev->degraded = 0;
				5810	mddev->safemode = 0;
				5811	mddev->private = NULL;
				5812	mddev->cluster_info = NULL;
				5813	mddev->bitmap_info.offset = 0;
				5814	mddev->bitmap_info.default_offset = 0;
				5815	mddev->bitmap_info.default_space = 0;
				5816	mddev->bitmap_info.chunksize = 0;
				5817	mddev->bitmap_info.daemon_sleep = 0;
				5818	mddev->bitmap_info.max_write_behind = 0;
				5819	mddev->bitmap_info.nodes = 0;
				5820	}
				5821
				5822	static void __md_stop_writes(struct mddev *mddev)
				5823	{
				5824	set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5825	flush_workqueue(md_misc_wq);
				5826	if (mddev->sync_thread) {
				5827	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				5828	md_reap_sync_thread(mddev);
				5829	}
				5830
				5831	del_timer_sync(&mddev->safemode_timer);
				5832
				5833	if (mddev->pers && mddev->pers->quiesce) {
				5834	mddev->pers->quiesce(mddev, 1);
				5835	mddev->pers->quiesce(mddev, 0);
				5836	}
				5837	bitmap_flush(mddev);
				5838
				5839	if (mddev->ro == 0 &&
				5840	((!mddev->in_sync && !mddev_is_clustered(mddev)) \|\|
				5841	mddev->sb_flags)) {
				5842	/* mark array as shutdown cleanly */
				5843	if (!mddev_is_clustered(mddev))
				5844	mddev->in_sync = 1;
				5845	md_update_sb(mddev, 1);
				5846	}
				5847	}
				5848
				5849	void md_stop_writes(struct mddev *mddev)
				5850	{
				5851	mddev_lock_nointr(mddev);
				5852	__md_stop_writes(mddev);
				5853	mddev_unlock(mddev);
				5854	}
				5855	EXPORT_SYMBOL_GPL(md_stop_writes);
				5856
				5857	static void mddev_detach(struct mddev *mddev)
				5858	{
				5859	bitmap_wait_behind_writes(mddev);
				5860	if (mddev->pers && mddev->pers->quiesce) {
				5861	mddev->pers->quiesce(mddev, 1);
				5862	mddev->pers->quiesce(mddev, 0);
				5863	}
				5864	md_unregister_thread(&mddev->thread);
				5865	if (mddev->queue)
				5866	blk_sync_queue(mddev->queue); /* the unplug fn references 'conf'*/
				5867	}
				5868
				5869	static void __md_stop(struct mddev *mddev)
				5870	{
				5871	struct md_personality *pers = mddev->pers;
				5872	bitmap_destroy(mddev);
				5873	mddev_detach(mddev);
				5874	/* Ensure ->event_work is done */
				5875	flush_workqueue(md_misc_wq);
				5876	spin_lock(&mddev->lock);
				5877	mddev->pers = NULL;
				5878	spin_unlock(&mddev->lock);
				5879	pers->free(mddev, mddev->private);
				5880	mddev->private = NULL;
				5881	if (pers->sync_request && mddev->to_remove == NULL)
				5882	mddev->to_remove = &md_redundancy_group;
				5883	module_put(pers->owner);
				5884	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5885	}
				5886
				5887	void md_stop(struct mddev *mddev)
				5888	{
				5889	/* stop the array and free an attached data structures.
				5890	* This is called from dm-raid
				5891	*/
				5892	__md_stop(mddev);
				5893	if (mddev->bio_set)
				5894	bioset_free(mddev->bio_set);
				5895	}
				5896
				5897	EXPORT_SYMBOL_GPL(md_stop);
				5898
				5899	static int md_set_readonly(struct mddev mddev, struct block_device bdev)
				5900	{
				5901	int err = 0;
				5902	int did_freeze = 0;
				5903
				5904	if (!test_bit(MD_RECOVERY_FROZEN, &mddev->recovery)) {
				5905	did_freeze = 1;
				5906	set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5907	md_wakeup_thread(mddev->thread);
				5908	}
				5909	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				5910	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				5911	if (mddev->sync_thread)
				5912	/* Thread might be blocked waiting for metadata update
				5913	* which will now never happen */
				5914	wake_up_process(mddev->sync_thread->tsk);
				5915
				5916	if (mddev->external && test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags))
				5917	return -EBUSY;
				5918	mddev_unlock(mddev);
				5919	wait_event(resync_wait, !test_bit(MD_RECOVERY_RUNNING,
				5920	&mddev->recovery));
				5921	wait_event(mddev->sb_wait,
				5922	!test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
				5923	mddev_lock_nointr(mddev);
				5924
				5925	mutex_lock(&mddev->open_mutex);
				5926	if ((mddev->pers && atomic_read(&mddev->openers) > !!bdev) \|\|
				5927	mddev->sync_thread \|\|
				5928	test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
				5929	pr_warn("md: %s still in use.\n",mdname(mddev));
				5930	if (did_freeze) {
				5931	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5932	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				5933	md_wakeup_thread(mddev->thread);
				5934	}
				5935	err = -EBUSY;
				5936	goto out;
				5937	}
				5938	if (mddev->pers) {
				5939	__md_stop_writes(mddev);
				5940
				5941	err = -ENXIO;
				5942	if (mddev->ro==1)
				5943	goto out;
				5944	mddev->ro = 1;
				5945	set_disk_ro(mddev->gendisk, 1);
				5946	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5947	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				5948	md_wakeup_thread(mddev->thread);
				5949	sysfs_notify_dirent_safe(mddev->sysfs_state);
				5950	err = 0;
				5951	}
				5952	out:
				5953	mutex_unlock(&mddev->open_mutex);
				5954	return err;
				5955	}
				5956
				5957	/* mode:
				5958	* 0 - completely stop and dis-assemble array
				5959	* 2 - stop but do not disassemble array
				5960	*/
				5961	static int do_md_stop(struct mddev *mddev, int mode,
				5962	struct block_device *bdev)
				5963	{
				5964	struct gendisk *disk = mddev->gendisk;
				5965	struct md_rdev *rdev;
				5966	int did_freeze = 0;
				5967
				5968	if (!test_bit(MD_RECOVERY_FROZEN, &mddev->recovery)) {
				5969	did_freeze = 1;
				5970	set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5971	md_wakeup_thread(mddev->thread);
				5972	}
				5973	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				5974	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				5975	if (mddev->sync_thread)
				5976	/* Thread might be blocked waiting for metadata update
				5977	* which will now never happen */
				5978	wake_up_process(mddev->sync_thread->tsk);
				5979
				5980	mddev_unlock(mddev);
				5981	wait_event(resync_wait, (mddev->sync_thread == NULL &&
				5982	!test_bit(MD_RECOVERY_RUNNING,
				5983	&mddev->recovery)));
				5984	mddev_lock_nointr(mddev);
				5985
				5986	mutex_lock(&mddev->open_mutex);
				5987	if ((mddev->pers && atomic_read(&mddev->openers) > !!bdev) \|\|
				5988	mddev->sysfs_active \|\|
				5989	mddev->sync_thread \|\|
				5990	test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
				5991	pr_warn("md: %s still in use.\n",mdname(mddev));
				5992	mutex_unlock(&mddev->open_mutex);
				5993	if (did_freeze) {
				5994	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
				5995	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				5996	md_wakeup_thread(mddev->thread);
				5997	}
				5998	return -EBUSY;
				5999	}
				6000	if (mddev->pers) {
				6001	if (mddev->ro)
				6002	set_disk_ro(disk, 0);
				6003
				6004	__md_stop_writes(mddev);
				6005	__md_stop(mddev);
				6006	mddev->queue->backing_dev_info->congested_fn = NULL;
				6007
				6008	/* tell userspace to handle 'inactive' */
				6009	sysfs_notify_dirent_safe(mddev->sysfs_state);
				6010
				6011	rdev_for_each(rdev, mddev)
				6012	if (rdev->raid_disk >= 0)
				6013	sysfs_unlink_rdev(mddev, rdev);
				6014
				6015	set_capacity(disk, 0);
				6016	mutex_unlock(&mddev->open_mutex);
				6017	mddev->changed = 1;
				6018	revalidate_disk(disk);
				6019
				6020	if (mddev->ro)
				6021	mddev->ro = 0;
				6022	} else
				6023	mutex_unlock(&mddev->open_mutex);
				6024	/*
				6025	* Free resources if final stop
				6026	*/
				6027	if (mode == 0) {
				6028	pr_info("md: %s stopped.\n", mdname(mddev));
				6029
				6030	if (mddev->bitmap_info.file) {
				6031	struct file *f = mddev->bitmap_info.file;
				6032	spin_lock(&mddev->lock);
				6033	mddev->bitmap_info.file = NULL;
				6034	spin_unlock(&mddev->lock);
				6035	fput(f);
				6036	}
				6037	mddev->bitmap_info.offset = 0;
				6038
				6039	export_array(mddev);
				6040
				6041	md_clean(mddev);
				6042	if (mddev->hold_active == UNTIL_STOP)
				6043	mddev->hold_active = 0;
				6044	}
				6045	md_new_event(mddev);
				6046	sysfs_notify_dirent_safe(mddev->sysfs_state);
				6047	return 0;
				6048	}
				6049
				6050	#ifndef MODULE
				6051	static void autorun_array(struct mddev *mddev)
				6052	{
				6053	struct md_rdev *rdev;
				6054	int err;
				6055
				6056	if (list_empty(&mddev->disks))
				6057	return;
				6058
				6059	pr_info("md: running: ");
				6060
				6061	rdev_for_each(rdev, mddev) {
				6062	char b[BDEVNAME_SIZE];
				6063	pr_cont("<%s>", bdevname(rdev->bdev,b));
				6064	}
				6065	pr_cont("\n");
				6066
				6067	err = do_md_run(mddev);
				6068	if (err) {
				6069	pr_warn("md: do_md_run() returned %d\n", err);
				6070	do_md_stop(mddev, 0, NULL);
				6071	}
				6072	}
				6073
				6074	/*
				6075	* lets try to run arrays based on all disks that have arrived
				6076	* until now. (those are in pending_raid_disks)
				6077	*
				6078	* the method: pick the first pending disk, collect all disks with
				6079	* the same UUID, remove all from the pending list and put them into
				6080	* the 'same_array' list. Then order this list based on superblock
				6081	* update time (freshest comes first), kick out 'old' disks and
				6082	* compare superblocks. If everything's fine then run it.
				6083	*
				6084	* If "unit" is allocated, then bump its reference count
				6085	*/
				6086	static void autorun_devices(int part)
				6087	{
				6088	struct md_rdev rdev0, rdev, *tmp;
				6089	struct mddev *mddev;
				6090	char b[BDEVNAME_SIZE];
				6091
				6092	pr_info("md: autorun ...\n");
				6093	while (!list_empty(&pending_raid_disks)) {
				6094	int unit;
				6095	dev_t dev;
				6096	LIST_HEAD(candidates);
				6097	rdev0 = list_entry(pending_raid_disks.next,
				6098	struct md_rdev, same_set);
				6099
				6100	pr_debug("md: considering %s ...\n", bdevname(rdev0->bdev,b));
				6101	INIT_LIST_HEAD(&candidates);
				6102	rdev_for_each_list(rdev, tmp, &pending_raid_disks)
				6103	if (super_90_load(rdev, rdev0, 0) >= 0) {
				6104	pr_debug("md: adding %s ...\n",
				6105	bdevname(rdev->bdev,b));
				6106	list_move(&rdev->same_set, &candidates);
				6107	}
				6108	/*
				6109	* now we have a set of devices, with all of them having
				6110	* mostly sane superblocks. It's time to allocate the
				6111	* mddev.
				6112	*/
				6113	if (part) {
				6114	dev = MKDEV(mdp_major,
				6115	rdev0->preferred_minor << MdpMinorShift);
				6116	unit = MINOR(dev) >> MdpMinorShift;
				6117	} else {
				6118	dev = MKDEV(MD_MAJOR, rdev0->preferred_minor);
				6119	unit = MINOR(dev);
				6120	}
				6121	if (rdev0->preferred_minor != unit) {
				6122	pr_warn("md: unit number in %s is bad: %d\n",
				6123	bdevname(rdev0->bdev, b), rdev0->preferred_minor);
				6124	break;
				6125	}
				6126
				6127	md_probe(dev, NULL, NULL);
				6128	mddev = mddev_find(dev);
				6129	if (!mddev \|\| !mddev->gendisk) {
				6130	if (mddev)
				6131	mddev_put(mddev);
				6132	break;
				6133	}
				6134	if (mddev_lock(mddev))
				6135	pr_warn("md: %s locked, cannot run\n", mdname(mddev));
				6136	else if (mddev->raid_disks \|\| mddev->major_version
				6137	\|\| !list_empty(&mddev->disks)) {
				6138	pr_warn("md: %s already running, cannot run %s\n",
				6139	mdname(mddev), bdevname(rdev0->bdev,b));
				6140	mddev_unlock(mddev);
				6141	} else {
				6142	pr_debug("md: created %s\n", mdname(mddev));
				6143	mddev->persistent = 1;
				6144	rdev_for_each_list(rdev, tmp, &candidates) {
				6145	list_del_init(&rdev->same_set);
				6146	if (bind_rdev_to_array(rdev, mddev))
				6147	export_rdev(rdev);
				6148	}
				6149	autorun_array(mddev);
				6150	mddev_unlock(mddev);
				6151	}
				6152	/* on success, candidates will be empty, on error
				6153	* it won't...
				6154	*/
				6155	rdev_for_each_list(rdev, tmp, &candidates) {
				6156	list_del_init(&rdev->same_set);
				6157	export_rdev(rdev);
				6158	}
				6159	mddev_put(mddev);
				6160	}
				6161	pr_info("md: ... autorun DONE.\n");
				6162	}
				6163	#endif /* !MODULE */
				6164
				6165	static int get_version(void __user *arg)
				6166	{
				6167	mdu_version_t ver;
				6168
				6169	ver.major = MD_MAJOR_VERSION;
				6170	ver.minor = MD_MINOR_VERSION;
				6171	ver.patchlevel = MD_PATCHLEVEL_VERSION;
				6172
				6173	if (copy_to_user(arg, &ver, sizeof(ver)))
				6174	return -EFAULT;
				6175
				6176	return 0;
				6177	}
				6178
				6179	static int get_array_info(struct mddev mddev, void __user arg)
				6180	{
				6181	mdu_array_info_t info;
				6182	int nr,working,insync,failed,spare;
				6183	struct md_rdev *rdev;
				6184
				6185	nr = working = insync = failed = spare = 0;
				6186	rcu_read_lock();
				6187	rdev_for_each_rcu(rdev, mddev) {
				6188	nr++;
				6189	if (test_bit(Faulty, &rdev->flags))
				6190	failed++;
				6191	else {
				6192	working++;
				6193	if (test_bit(In_sync, &rdev->flags))
				6194	insync++;
				6195	else if (test_bit(Journal, &rdev->flags))
				6196	/* TODO: add journal count to md_u.h */
				6197	;
				6198	else
				6199	spare++;
				6200	}
				6201	}
				6202	rcu_read_unlock();
				6203
				6204	info.major_version = mddev->major_version;
				6205	info.minor_version = mddev->minor_version;
				6206	info.patch_version = MD_PATCHLEVEL_VERSION;
				6207	info.ctime = clamp_t(time64_t, mddev->ctime, 0, U32_MAX);
				6208	info.level = mddev->level;
				6209	info.size = mddev->dev_sectors / 2;
				6210	if (info.size != mddev->dev_sectors / 2) /* overflow */
				6211	info.size = -1;
				6212	info.nr_disks = nr;
				6213	info.raid_disks = mddev->raid_disks;
				6214	info.md_minor = mddev->md_minor;
				6215	info.not_persistent= !mddev->persistent;
				6216
				6217	info.utime = clamp_t(time64_t, mddev->utime, 0, U32_MAX);
				6218	info.state = 0;
				6219	if (mddev->in_sync)
				6220	info.state = (1<<MD_SB_CLEAN);
				6221	if (mddev->bitmap && mddev->bitmap_info.offset)
				6222	info.state \|= (1<<MD_SB_BITMAP_PRESENT);
				6223	if (mddev_is_clustered(mddev))
				6224	info.state \|= (1<<MD_SB_CLUSTERED);
				6225	info.active_disks = insync;
				6226	info.working_disks = working;
				6227	info.failed_disks = failed;
				6228	info.spare_disks = spare;
				6229
				6230	info.layout = mddev->layout;
				6231	info.chunk_size = mddev->chunk_sectors << 9;
				6232
				6233	if (copy_to_user(arg, &info, sizeof(info)))
				6234	return -EFAULT;
				6235
				6236	return 0;
				6237	}
				6238
				6239	static int get_bitmap_file(struct mddev mddev, void __user arg)
				6240	{
				6241	mdu_bitmap_file_t file = NULL; / too big for stack allocation */
				6242	char *ptr;
				6243	int err;
				6244
				6245	file = kzalloc(sizeof(*file), GFP_NOIO);
				6246	if (!file)
				6247	return -ENOMEM;
				6248
				6249	err = 0;
				6250	spin_lock(&mddev->lock);
				6251	/* bitmap enabled */
				6252	if (mddev->bitmap_info.file) {
				6253	ptr = file_path(mddev->bitmap_info.file, file->pathname,
				6254	sizeof(file->pathname));
				6255	if (IS_ERR(ptr))
				6256	err = PTR_ERR(ptr);
				6257	else
				6258	memmove(file->pathname, ptr,
				6259	sizeof(file->pathname)-(ptr-file->pathname));
				6260	}
				6261	spin_unlock(&mddev->lock);
				6262
				6263	if (err == 0 &&
				6264	copy_to_user(arg, file, sizeof(*file)))
				6265	err = -EFAULT;
				6266
				6267	kfree(file);
				6268	return err;
				6269	}
				6270
				6271	static int get_disk_info(struct mddev mddev, void __user arg)
				6272	{
				6273	mdu_disk_info_t info;
				6274	struct md_rdev *rdev;
				6275
				6276	if (copy_from_user(&info, arg, sizeof(info)))
				6277	return -EFAULT;
				6278
				6279	rcu_read_lock();
				6280	rdev = md_find_rdev_nr_rcu(mddev, info.number);
				6281	if (rdev) {
				6282	info.major = MAJOR(rdev->bdev->bd_dev);
				6283	info.minor = MINOR(rdev->bdev->bd_dev);
				6284	info.raid_disk = rdev->raid_disk;
				6285	info.state = 0;
				6286	if (test_bit(Faulty, &rdev->flags))
				6287	info.state \|= (1<<MD_DISK_FAULTY);
				6288	else if (test_bit(In_sync, &rdev->flags)) {
				6289	info.state \|= (1<<MD_DISK_ACTIVE);
				6290	info.state \|= (1<<MD_DISK_SYNC);
				6291	}
				6292	if (test_bit(Journal, &rdev->flags))
				6293	info.state \|= (1<<MD_DISK_JOURNAL);
				6294	if (test_bit(WriteMostly, &rdev->flags))
				6295	info.state \|= (1<<MD_DISK_WRITEMOSTLY);
				6296	if (test_bit(FailFast, &rdev->flags))
				6297	info.state \|= (1<<MD_DISK_FAILFAST);
				6298	} else {
				6299	info.major = info.minor = 0;
				6300	info.raid_disk = -1;
				6301	info.state = (1<<MD_DISK_REMOVED);
				6302	}
				6303	rcu_read_unlock();
				6304
				6305	if (copy_to_user(arg, &info, sizeof(info)))
				6306	return -EFAULT;
				6307
				6308	return 0;
				6309	}
				6310
				6311	static int add_new_disk(struct mddev mddev, mdu_disk_info_t info)
				6312	{
				6313	char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
				6314	struct md_rdev *rdev;
				6315	dev_t dev = MKDEV(info->major,info->minor);
				6316
				6317	if (mddev_is_clustered(mddev) &&
				6318	!(info->state & ((1 << MD_DISK_CLUSTER_ADD) \| (1 << MD_DISK_CANDIDATE)))) {
				6319	pr_warn("%s: Cannot add to clustered mddev.\n",
				6320	mdname(mddev));
				6321	return -EINVAL;
				6322	}
				6323
				6324	if (info->major != MAJOR(dev) \|\| info->minor != MINOR(dev))
				6325	return -EOVERFLOW;
				6326
				6327	if (!mddev->raid_disks) {
				6328	int err;
				6329	/* expecting a device which has a superblock */
				6330	rdev = md_import_device(dev, mddev->major_version, mddev->minor_version);
				6331	if (IS_ERR(rdev)) {
				6332	pr_warn("md: md_import_device returned %ld\n",
				6333	PTR_ERR(rdev));
				6334	return PTR_ERR(rdev);
				6335	}
				6336	if (!list_empty(&mddev->disks)) {
				6337	struct md_rdev *rdev0
				6338	= list_entry(mddev->disks.next,
				6339	struct md_rdev, same_set);
				6340	err = super_types[mddev->major_version]
				6341	.load_super(rdev, rdev0, mddev->minor_version);
				6342	if (err < 0) {
				6343	pr_warn("md: %s has different UUID to %s\n",
				6344	bdevname(rdev->bdev,b),
				6345	bdevname(rdev0->bdev,b2));
				6346	export_rdev(rdev);
				6347	return -EINVAL;
				6348	}
				6349	}
				6350	err = bind_rdev_to_array(rdev, mddev);
				6351	if (err)
				6352	export_rdev(rdev);
				6353	return err;
				6354	}
				6355
				6356	/*
				6357	* add_new_disk can be used once the array is assembled
				6358	* to add "hot spares". They must already have a superblock
				6359	* written
				6360	*/
				6361	if (mddev->pers) {
				6362	int err;
				6363	if (!mddev->pers->hot_add_disk) {
				6364	pr_warn("%s: personality does not support diskops!\n",
				6365	mdname(mddev));
				6366	return -EINVAL;
				6367	}
				6368	if (mddev->persistent)
				6369	rdev = md_import_device(dev, mddev->major_version,
				6370	mddev->minor_version);
				6371	else
				6372	rdev = md_import_device(dev, -1, -1);
				6373	if (IS_ERR(rdev)) {
				6374	pr_warn("md: md_import_device returned %ld\n",
				6375	PTR_ERR(rdev));
				6376	return PTR_ERR(rdev);
				6377	}
				6378	/* set saved_raid_disk if appropriate */
				6379	if (!mddev->persistent) {
				6380	if (info->state & (1<<MD_DISK_SYNC) &&
				6381	info->raid_disk < mddev->raid_disks) {
				6382	rdev->raid_disk = info->raid_disk;
				6383	set_bit(In_sync, &rdev->flags);
				6384	clear_bit(Bitmap_sync, &rdev->flags);
				6385	} else
				6386	rdev->raid_disk = -1;
				6387	rdev->saved_raid_disk = rdev->raid_disk;
				6388	} else
				6389	super_types[mddev->major_version].
				6390	validate_super(mddev, rdev);
				6391	if ((info->state & (1<<MD_DISK_SYNC)) &&
				6392	rdev->raid_disk != info->raid_disk) {
				6393	/* This was a hot-add request, but events doesn't
				6394	* match, so reject it.
				6395	*/
				6396	export_rdev(rdev);
				6397	return -EINVAL;
				6398	}
				6399
				6400	clear_bit(In_sync, &rdev->flags); /* just to be sure */
				6401	if (info->state & (1<<MD_DISK_WRITEMOSTLY))
				6402	set_bit(WriteMostly, &rdev->flags);
				6403	else
				6404	clear_bit(WriteMostly, &rdev->flags);
				6405	if (info->state & (1<<MD_DISK_FAILFAST))
				6406	set_bit(FailFast, &rdev->flags);
				6407	else
				6408	clear_bit(FailFast, &rdev->flags);
				6409
				6410	if (info->state & (1<<MD_DISK_JOURNAL)) {
				6411	struct md_rdev *rdev2;
				6412	bool has_journal = false;
				6413
				6414	/* make sure no existing journal disk */
				6415	rdev_for_each(rdev2, mddev) {
				6416	if (test_bit(Journal, &rdev2->flags)) {
				6417	has_journal = true;
				6418	break;
				6419	}
				6420	}
				6421	if (has_journal \|\| mddev->bitmap) {
				6422	export_rdev(rdev);
				6423	return -EBUSY;
				6424	}
				6425	set_bit(Journal, &rdev->flags);
				6426	}
				6427	/*
				6428	* check whether the device shows up in other nodes
				6429	*/
				6430	if (mddev_is_clustered(mddev)) {
				6431	if (info->state & (1 << MD_DISK_CANDIDATE))
				6432	set_bit(Candidate, &rdev->flags);
				6433	else if (info->state & (1 << MD_DISK_CLUSTER_ADD)) {
				6434	/* --add initiated by this node */
				6435	err = md_cluster_ops->add_new_disk(mddev, rdev);
				6436	if (err) {
				6437	export_rdev(rdev);
				6438	return err;
				6439	}
				6440	}
				6441	}
				6442
				6443	rdev->raid_disk = -1;
				6444	err = bind_rdev_to_array(rdev, mddev);
				6445
				6446	if (err)
				6447	export_rdev(rdev);
				6448
				6449	if (mddev_is_clustered(mddev)) {
				6450	if (info->state & (1 << MD_DISK_CANDIDATE)) {
				6451	if (!err) {
				6452	err = md_cluster_ops->new_disk_ack(mddev,
				6453	err == 0);
				6454	if (err)
				6455	md_kick_rdev_from_array(rdev);
				6456	}
				6457	} else {
				6458	if (err)
				6459	md_cluster_ops->add_new_disk_cancel(mddev);
				6460	else
				6461	err = add_bound_rdev(rdev);
				6462	}
				6463
				6464	} else if (!err)
				6465	err = add_bound_rdev(rdev);
				6466
				6467	return err;
				6468	}
				6469
				6470	/* otherwise, add_new_disk is only allowed
				6471	* for major_version==0 superblocks
				6472	*/
				6473	if (mddev->major_version != 0) {
				6474	pr_warn("%s: ADD_NEW_DISK not supported\n", mdname(mddev));
				6475	return -EINVAL;
				6476	}
				6477
				6478	if (!(info->state & (1<<MD_DISK_FAULTY))) {
				6479	int err;
				6480	rdev = md_import_device(dev, -1, 0);
				6481	if (IS_ERR(rdev)) {
				6482	pr_warn("md: error, md_import_device() returned %ld\n",
				6483	PTR_ERR(rdev));
				6484	return PTR_ERR(rdev);
				6485	}
				6486	rdev->desc_nr = info->number;
				6487	if (info->raid_disk < mddev->raid_disks)
				6488	rdev->raid_disk = info->raid_disk;
				6489	else
				6490	rdev->raid_disk = -1;
				6491
				6492	if (rdev->raid_disk < mddev->raid_disks)
				6493	if (info->state & (1<<MD_DISK_SYNC))
				6494	set_bit(In_sync, &rdev->flags);
				6495
				6496	if (info->state & (1<<MD_DISK_WRITEMOSTLY))
				6497	set_bit(WriteMostly, &rdev->flags);
				6498	if (info->state & (1<<MD_DISK_FAILFAST))
				6499	set_bit(FailFast, &rdev->flags);
				6500
				6501	if (!mddev->persistent) {
				6502	pr_debug("md: nonpersistent superblock ...\n");
				6503	rdev->sb_start = i_size_read(rdev->bdev->bd_inode) / 512;
				6504	} else
				6505	rdev->sb_start = calc_dev_sboffset(rdev);
				6506	rdev->sectors = rdev->sb_start;
				6507
				6508	err = bind_rdev_to_array(rdev, mddev);
				6509	if (err) {
				6510	export_rdev(rdev);
				6511	return err;
				6512	}
				6513	}
				6514
				6515	return 0;
				6516	}
				6517
				6518	static int hot_remove_disk(struct mddev *mddev, dev_t dev)
				6519	{
				6520	char b[BDEVNAME_SIZE];
				6521	struct md_rdev *rdev;
				6522
				6523	if (!mddev->pers)
				6524	return -ENODEV;
				6525
				6526	rdev = find_rdev(mddev, dev);
				6527	if (!rdev)
				6528	return -ENXIO;
				6529
				6530	if (rdev->raid_disk < 0)
				6531	goto kick_rdev;
				6532
				6533	clear_bit(Blocked, &rdev->flags);
				6534	remove_and_add_spares(mddev, rdev);
				6535
				6536	if (rdev->raid_disk >= 0)
				6537	goto busy;
				6538
				6539	kick_rdev:
				6540	if (mddev_is_clustered(mddev))
				6541	md_cluster_ops->remove_disk(mddev, rdev);
				6542
				6543	md_kick_rdev_from_array(rdev);
				6544	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				6545	if (mddev->thread)
				6546	md_wakeup_thread(mddev->thread);
				6547	else
				6548	md_update_sb(mddev, 1);
				6549	md_new_event(mddev);
				6550
				6551	return 0;
				6552	busy:
				6553	pr_debug("md: cannot remove active disk %s from %s ...\n",
				6554	bdevname(rdev->bdev,b), mdname(mddev));
				6555	return -EBUSY;
				6556	}
				6557
				6558	static int hot_add_disk(struct mddev *mddev, dev_t dev)
				6559	{
				6560	char b[BDEVNAME_SIZE];
				6561	int err;
				6562	struct md_rdev *rdev;
				6563
				6564	if (!mddev->pers)
				6565	return -ENODEV;
				6566
				6567	if (mddev->major_version != 0) {
				6568	pr_warn("%s: HOT_ADD may only be used with version-0 superblocks.\n",
				6569	mdname(mddev));
				6570	return -EINVAL;
				6571	}
				6572	if (!mddev->pers->hot_add_disk) {
				6573	pr_warn("%s: personality does not support diskops!\n",
				6574	mdname(mddev));
				6575	return -EINVAL;
				6576	}
				6577
				6578	rdev = md_import_device(dev, -1, 0);
				6579	if (IS_ERR(rdev)) {
				6580	pr_warn("md: error, md_import_device() returned %ld\n",
				6581	PTR_ERR(rdev));
				6582	return -EINVAL;
				6583	}
				6584
				6585	if (mddev->persistent)
				6586	rdev->sb_start = calc_dev_sboffset(rdev);
				6587	else
				6588	rdev->sb_start = i_size_read(rdev->bdev->bd_inode) / 512;
				6589
				6590	rdev->sectors = rdev->sb_start;
				6591
				6592	if (test_bit(Faulty, &rdev->flags)) {
				6593	pr_warn("md: can not hot-add faulty %s disk to %s!\n",
				6594	bdevname(rdev->bdev,b), mdname(mddev));
				6595	err = -EINVAL;
				6596	goto abort_export;
				6597	}
				6598
				6599	clear_bit(In_sync, &rdev->flags);
				6600	rdev->desc_nr = -1;
				6601	rdev->saved_raid_disk = -1;
				6602	err = bind_rdev_to_array(rdev, mddev);
				6603	if (err)
				6604	goto abort_export;
				6605
				6606	/*
				6607	* The rest should better be atomic, we can have disk failures
				6608	* noticed in interrupt contexts ...
				6609	*/
				6610
				6611	rdev->raid_disk = -1;
				6612
				6613	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				6614	if (!mddev->thread)
				6615	md_update_sb(mddev, 1);
				6616	/*
				6617	* Kick recovery, maybe this spare has to be added to the
				6618	* array immediately.
				6619	*/
				6620	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				6621	md_wakeup_thread(mddev->thread);
				6622	md_new_event(mddev);
				6623	return 0;
				6624
				6625	abort_export:
				6626	export_rdev(rdev);
				6627	return err;
				6628	}
				6629
				6630	static int set_bitmap_file(struct mddev *mddev, int fd)
				6631	{
				6632	int err = 0;
				6633
				6634	if (mddev->pers) {
				6635	if (!mddev->pers->quiesce \|\| !mddev->thread)
				6636	return -EBUSY;
				6637	if (mddev->recovery \|\| mddev->sync_thread)
				6638	return -EBUSY;
				6639	/* we should be able to change the bitmap.. */
				6640	}
				6641
				6642	if (fd >= 0) {
				6643	struct inode *inode;
				6644	struct file *f;
				6645
				6646	if (mddev->bitmap \|\| mddev->bitmap_info.file)
				6647	return -EEXIST; /* cannot add when bitmap is present */
				6648	f = fget(fd);
				6649
				6650	if (f == NULL) {
				6651	pr_warn("%s: error: failed to get bitmap file\n",
				6652	mdname(mddev));
				6653	return -EBADF;
				6654	}
				6655
				6656	inode = f->f_mapping->host;
				6657	if (!S_ISREG(inode->i_mode)) {
				6658	pr_warn("%s: error: bitmap file must be a regular file\n",
				6659	mdname(mddev));
				6660	err = -EBADF;
				6661	} else if (!(f->f_mode & FMODE_WRITE)) {
				6662	pr_warn("%s: error: bitmap file must open for write\n",
				6663	mdname(mddev));
				6664	err = -EBADF;
				6665	} else if (atomic_read(&inode->i_writecount) != 1) {
				6666	pr_warn("%s: error: bitmap file is already in use\n",
				6667	mdname(mddev));
				6668	err = -EBUSY;
				6669	}
				6670	if (err) {
				6671	fput(f);
				6672	return err;
				6673	}
				6674	mddev->bitmap_info.file = f;
				6675	mddev->bitmap_info.offset = 0; /* file overrides offset */
				6676	} else if (mddev->bitmap == NULL)
				6677	return -ENOENT; /* cannot remove what isn't there */
				6678	err = 0;
				6679	if (mddev->pers) {
				6680	if (fd >= 0) {
				6681	struct bitmap *bitmap;
				6682
				6683	bitmap = bitmap_create(mddev, -1);
				6684	mddev_suspend(mddev);
				6685	if (!IS_ERR(bitmap)) {
				6686	mddev->bitmap = bitmap;
				6687	err = bitmap_load(mddev);
				6688	} else
				6689	err = PTR_ERR(bitmap);
				6690	if (err) {
				6691	bitmap_destroy(mddev);
				6692	fd = -1;
				6693	}
				6694	mddev_resume(mddev);
				6695	} else if (fd < 0) {
				6696	mddev_suspend(mddev);
				6697	bitmap_destroy(mddev);
				6698	mddev_resume(mddev);
				6699	}
				6700	}
				6701	if (fd < 0) {
				6702	struct file *f = mddev->bitmap_info.file;
				6703	if (f) {
				6704	spin_lock(&mddev->lock);
				6705	mddev->bitmap_info.file = NULL;
				6706	spin_unlock(&mddev->lock);
				6707	fput(f);
				6708	}
				6709	}
				6710
				6711	return err;
				6712	}
				6713
				6714	/*
				6715	* set_array_info is used two different ways
				6716	* The original usage is when creating a new array.
				6717	* In this usage, raid_disks is > 0 and it together with
				6718	* level, size, not_persistent,layout,chunksize determine the
				6719	* shape of the array.
				6720	* This will always create an array with a type-0.90.0 superblock.
				6721	* The newer usage is when assembling an array.
				6722	* In this case raid_disks will be 0, and the major_version field is
				6723	* use to determine which style super-blocks are to be found on the devices.
				6724	* The minor and patch _version numbers are also kept incase the
				6725	* super_block handler wishes to interpret them.
				6726	*/
				6727	static int set_array_info(struct mddev mddev, mdu_array_info_t info)
				6728	{
				6729
				6730	if (info->raid_disks == 0) {
				6731	/* just setting version number for superblock loading */
				6732	if (info->major_version < 0 \|\|
				6733	info->major_version >= ARRAY_SIZE(super_types) \|\|
				6734	super_types[info->major_version].name == NULL) {
				6735	/* maybe try to auto-load a module? */
				6736	pr_warn("md: superblock version %d not known\n",
				6737	info->major_version);
				6738	return -EINVAL;
				6739	}
				6740	mddev->major_version = info->major_version;
				6741	mddev->minor_version = info->minor_version;
				6742	mddev->patch_version = info->patch_version;
				6743	mddev->persistent = !info->not_persistent;
				6744	/* ensure mddev_put doesn't delete this now that there
				6745	* is some minimal configuration.
				6746	*/
				6747	mddev->ctime = ktime_get_real_seconds();
				6748	return 0;
				6749	}
				6750	mddev->major_version = MD_MAJOR_VERSION;
				6751	mddev->minor_version = MD_MINOR_VERSION;
				6752	mddev->patch_version = MD_PATCHLEVEL_VERSION;
				6753	mddev->ctime = ktime_get_real_seconds();
				6754
				6755	mddev->level = info->level;
				6756	mddev->clevel[0] = 0;
				6757	mddev->dev_sectors = 2 * (sector_t)info->size;
				6758	mddev->raid_disks = info->raid_disks;
				6759	/* don't set md_minor, it is determined by which /dev/md* was
				6760	* openned
				6761	*/
				6762	if (info->state & (1<<MD_SB_CLEAN))
				6763	mddev->recovery_cp = MaxSector;
				6764	else
				6765	mddev->recovery_cp = 0;
				6766	mddev->persistent = ! info->not_persistent;
				6767	mddev->external = 0;
				6768
				6769	mddev->layout = info->layout;
				6770	if (mddev->level == 0)
				6771	/* Cannot trust RAID0 layout info here */
				6772	mddev->layout = -1;
				6773	mddev->chunk_sectors = info->chunk_size >> 9;
				6774
				6775	if (mddev->persistent) {
				6776	mddev->max_disks = MD_SB_DISKS;
				6777	mddev->flags = 0;
				6778	mddev->sb_flags = 0;
				6779	}
				6780	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				6781
				6782	mddev->bitmap_info.default_offset = MD_SB_BYTES >> 9;
				6783	mddev->bitmap_info.default_space = 64*2 - (MD_SB_BYTES >> 9);
				6784	mddev->bitmap_info.offset = 0;
				6785
				6786	mddev->reshape_position = MaxSector;
				6787
				6788	/*
				6789	* Generate a 128 bit UUID
				6790	*/
				6791	get_random_bytes(mddev->uuid, 16);
				6792
				6793	mddev->new_level = mddev->level;
				6794	mddev->new_chunk_sectors = mddev->chunk_sectors;
				6795	mddev->new_layout = mddev->layout;
				6796	mddev->delta_disks = 0;
				6797	mddev->reshape_backwards = 0;
				6798
				6799	return 0;
				6800	}
				6801
				6802	void md_set_array_sectors(struct mddev *mddev, sector_t array_sectors)
				6803	{
				6804	WARN(!mddev_is_locked(mddev), "%s: unlocked mddev!\n", __func__);
				6805
				6806	if (mddev->external_size)
				6807	return;
				6808
				6809	mddev->array_sectors = array_sectors;
				6810	}
				6811	EXPORT_SYMBOL(md_set_array_sectors);
				6812
				6813	static int update_size(struct mddev *mddev, sector_t num_sectors)
				6814	{
				6815	struct md_rdev *rdev;
				6816	int rv;
				6817	int fit = (num_sectors == 0);
				6818	sector_t old_dev_sectors = mddev->dev_sectors;
				6819
				6820	if (mddev->pers->resize == NULL)
				6821	return -EINVAL;
				6822	/* The "num_sectors" is the number of sectors of each device that
				6823	* is used. This can only make sense for arrays with redundancy.
				6824	* linear and raid0 always use whatever space is available. We can only
				6825	* consider changing this number if no resync or reconstruction is
				6826	* happening, and if the new size is acceptable. It must fit before the
				6827	* sb_start or, if that is <data_offset, it must fit before the size
				6828	* of each device. If num_sectors is zero, we find the largest size
				6829	* that fits.
				6830	*/
				6831	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) \|\|
				6832	mddev->sync_thread)
				6833	return -EBUSY;
				6834	if (mddev->ro)
				6835	return -EROFS;
				6836
				6837	rdev_for_each(rdev, mddev) {
				6838	sector_t avail = rdev->sectors;
				6839
				6840	if (fit && (num_sectors == 0 \|\| num_sectors > avail))
				6841	num_sectors = avail;
				6842	if (avail < num_sectors)
				6843	return -ENOSPC;
				6844	}
				6845	rv = mddev->pers->resize(mddev, num_sectors);
				6846	if (!rv) {
				6847	if (mddev_is_clustered(mddev))
				6848	md_cluster_ops->update_size(mddev, old_dev_sectors);
				6849	else if (mddev->queue) {
				6850	set_capacity(mddev->gendisk, mddev->array_sectors);
				6851	revalidate_disk(mddev->gendisk);
				6852	}
				6853	}
				6854	return rv;
				6855	}
				6856
				6857	static int update_raid_disks(struct mddev *mddev, int raid_disks)
				6858	{
				6859	int rv;
				6860	struct md_rdev *rdev;
				6861	/* change the number of raid disks */
				6862	if (mddev->pers->check_reshape == NULL)
				6863	return -EINVAL;
				6864	if (mddev->ro)
				6865	return -EROFS;
				6866	if (raid_disks <= 0 \|\|
				6867	(mddev->max_disks && raid_disks >= mddev->max_disks))
				6868	return -EINVAL;
				6869	if (mddev->sync_thread \|\|
				6870	test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) \|\|
				6871	mddev->reshape_position != MaxSector)
				6872	return -EBUSY;
				6873
				6874	rdev_for_each(rdev, mddev) {
				6875	if (mddev->raid_disks < raid_disks &&
				6876	rdev->data_offset < rdev->new_data_offset)
				6877	return -EINVAL;
				6878	if (mddev->raid_disks > raid_disks &&
				6879	rdev->data_offset > rdev->new_data_offset)
				6880	return -EINVAL;
				6881	}
				6882
				6883	mddev->delta_disks = raid_disks - mddev->raid_disks;
				6884	if (mddev->delta_disks < 0)
				6885	mddev->reshape_backwards = 1;
				6886	else if (mddev->delta_disks > 0)
				6887	mddev->reshape_backwards = 0;
				6888
				6889	rv = mddev->pers->check_reshape(mddev);
				6890	if (rv < 0) {
				6891	mddev->delta_disks = 0;
				6892	mddev->reshape_backwards = 0;
				6893	}
				6894	return rv;
				6895	}
				6896
				6897	/*
				6898	* update_array_info is used to change the configuration of an
				6899	* on-line array.
				6900	* The version, ctime,level,size,raid_disks,not_persistent, layout,chunk_size
				6901	* fields in the info are checked against the array.
				6902	* Any differences that cannot be handled will cause an error.
				6903	* Normally, only one change can be managed at a time.
				6904	*/
				6905	static int update_array_info(struct mddev mddev, mdu_array_info_t info)
				6906	{
				6907	int rv = 0;
				6908	int cnt = 0;
				6909	int state = 0;
				6910
				6911	/* calculate expected state,ignoring low bits */
				6912	if (mddev->bitmap && mddev->bitmap_info.offset)
				6913	state \|= (1 << MD_SB_BITMAP_PRESENT);
				6914
				6915	if (mddev->major_version != info->major_version \|\|
				6916	mddev->minor_version != info->minor_version \|\|
				6917	/* mddev->patch_version != info->patch_version \|\| */
				6918	mddev->ctime != info->ctime \|\|
				6919	mddev->level != info->level \|\|
				6920	/* mddev->layout != info->layout \|\| */
				6921	mddev->persistent != !info->not_persistent \|\|
				6922	mddev->chunk_sectors != info->chunk_size >> 9 \|\|
				6923	/* ignore bottom 8 bits of state, and allow SB_BITMAP_PRESENT to change */
				6924	((state^info->state) & 0xfffffe00)
				6925	)
				6926	return -EINVAL;
				6927	/* Check there is only one change */
				6928	if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
				6929	cnt++;
				6930	if (mddev->raid_disks != info->raid_disks)
				6931	cnt++;
				6932	if (mddev->layout != info->layout)
				6933	cnt++;
				6934	if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT))
				6935	cnt++;
				6936	if (cnt == 0)
				6937	return 0;
				6938	if (cnt > 1)
				6939	return -EINVAL;
				6940
				6941	if (mddev->layout != info->layout) {
				6942	/* Change layout
				6943	* we don't need to do anything at the md level, the
				6944	* personality will take care of it all.
				6945	*/
				6946	if (mddev->pers->check_reshape == NULL)
				6947	return -EINVAL;
				6948	else {
				6949	mddev->new_layout = info->layout;
				6950	rv = mddev->pers->check_reshape(mddev);
				6951	if (rv)
				6952	mddev->new_layout = mddev->layout;
				6953	return rv;
				6954	}
				6955	}
				6956	if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
				6957	rv = update_size(mddev, (sector_t)info->size * 2);
				6958
				6959	if (mddev->raid_disks != info->raid_disks)
				6960	rv = update_raid_disks(mddev, info->raid_disks);
				6961
				6962	if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT)) {
				6963	if (mddev->pers->quiesce == NULL \|\| mddev->thread == NULL) {
				6964	rv = -EINVAL;
				6965	goto err;
				6966	}
				6967	if (mddev->recovery \|\| mddev->sync_thread) {
				6968	rv = -EBUSY;
				6969	goto err;
				6970	}
				6971	if (info->state & (1<<MD_SB_BITMAP_PRESENT)) {
				6972	struct bitmap *bitmap;
				6973	/* add the bitmap */
				6974	if (mddev->bitmap) {
				6975	rv = -EEXIST;
				6976	goto err;
				6977	}
				6978	if (mddev->bitmap_info.default_offset == 0) {
				6979	rv = -EINVAL;
				6980	goto err;
				6981	}
				6982	mddev->bitmap_info.offset =
				6983	mddev->bitmap_info.default_offset;
				6984	mddev->bitmap_info.space =
				6985	mddev->bitmap_info.default_space;
				6986	bitmap = bitmap_create(mddev, -1);
				6987	mddev_suspend(mddev);
				6988	if (!IS_ERR(bitmap)) {
				6989	mddev->bitmap = bitmap;
				6990	rv = bitmap_load(mddev);
				6991	} else
				6992	rv = PTR_ERR(bitmap);
				6993	if (rv)
				6994	bitmap_destroy(mddev);
				6995	mddev_resume(mddev);
				6996	} else {
				6997	/* remove the bitmap */
				6998	if (!mddev->bitmap) {
				6999	rv = -ENOENT;
				7000	goto err;
				7001	}
				7002	if (mddev->bitmap->storage.file) {
				7003	rv = -EINVAL;
				7004	goto err;
				7005	}
				7006	if (mddev->bitmap_info.nodes) {
				7007	/* hold PW on all the bitmap lock */
				7008	if (md_cluster_ops->lock_all_bitmaps(mddev) <= 0) {
				7009	pr_warn("md: can't change bitmap to none since the array is in use by more than one node\n");
				7010	rv = -EPERM;
				7011	md_cluster_ops->unlock_all_bitmaps(mddev);
				7012	goto err;
				7013	}
				7014
				7015	mddev->bitmap_info.nodes = 0;
				7016	md_cluster_ops->leave(mddev);
				7017	}
				7018	mddev_suspend(mddev);
				7019	bitmap_destroy(mddev);
				7020	mddev_resume(mddev);
				7021	mddev->bitmap_info.offset = 0;
				7022	}
				7023	}
				7024	md_update_sb(mddev, 1);
				7025	return rv;
				7026	err:
				7027	return rv;
				7028	}
				7029
				7030	static int set_disk_faulty(struct mddev *mddev, dev_t dev)
				7031	{
				7032	struct md_rdev *rdev;
				7033	int err = 0;
				7034
				7035	if (mddev->pers == NULL)
				7036	return -ENODEV;
				7037
				7038	rcu_read_lock();
				7039	rdev = find_rdev_rcu(mddev, dev);
				7040	if (!rdev)
				7041	err = -ENODEV;
				7042	else {
				7043	md_error(mddev, rdev);
				7044	if (!test_bit(Faulty, &rdev->flags))
				7045	err = -EBUSY;
				7046	}
				7047	rcu_read_unlock();
				7048	return err;
				7049	}
				7050
				7051	/*
				7052	* We have a problem here : there is no easy way to give a CHS
				7053	* virtual geometry. We currently pretend that we have a 2 heads
				7054	* 4 sectors (with a BIG number of cylinders...). This drives
				7055	* dosfs just mad... ;-)
				7056	*/
				7057	static int md_getgeo(struct block_device bdev, struct hd_geometry geo)
				7058	{
				7059	struct mddev *mddev = bdev->bd_disk->private_data;
				7060
				7061	geo->heads = 2;
				7062	geo->sectors = 4;
				7063	geo->cylinders = mddev->array_sectors / 8;
				7064	return 0;
				7065	}
				7066
				7067	static inline bool md_ioctl_valid(unsigned int cmd)
				7068	{
				7069	switch (cmd) {
				7070	case ADD_NEW_DISK:
				7071	case BLKROSET:
				7072	case GET_ARRAY_INFO:
				7073	case GET_BITMAP_FILE:
				7074	case GET_DISK_INFO:
				7075	case HOT_ADD_DISK:
				7076	case HOT_REMOVE_DISK:
				7077	case RAID_AUTORUN:
				7078	case RAID_VERSION:
				7079	case RESTART_ARRAY_RW:
				7080	case RUN_ARRAY:
				7081	case SET_ARRAY_INFO:
				7082	case SET_BITMAP_FILE:
				7083	case SET_DISK_FAULTY:
				7084	case STOP_ARRAY:
				7085	case STOP_ARRAY_RO:
				7086	case CLUSTERED_DISK_NACK:
				7087	return true;
				7088	default:
				7089	return false;
				7090	}
				7091	}
				7092
				7093	static int md_ioctl(struct block_device *bdev, fmode_t mode,
				7094	unsigned int cmd, unsigned long arg)
				7095	{
				7096	int err = 0;
				7097	void __user argp = (void __user )arg;
				7098	struct mddev *mddev = NULL;
				7099	int ro;
				7100	bool did_set_md_closing = false;
				7101
				7102	if (!md_ioctl_valid(cmd))
				7103	return -ENOTTY;
				7104
				7105	switch (cmd) {
				7106	case RAID_VERSION:
				7107	case GET_ARRAY_INFO:
				7108	case GET_DISK_INFO:
				7109	break;
				7110	default:
				7111	if (!capable(CAP_SYS_ADMIN))
				7112	return -EACCES;
				7113	}
				7114
				7115	/*
				7116	* Commands dealing with the RAID driver but not any
				7117	* particular array:
				7118	*/
				7119	switch (cmd) {
				7120	case RAID_VERSION:
				7121	err = get_version(argp);
				7122	goto out;
				7123
				7124	#ifndef MODULE
				7125	case RAID_AUTORUN:
				7126	err = 0;
				7127	autostart_arrays(arg);
				7128	goto out;
				7129	#endif
				7130	default:;
				7131	}
				7132
				7133	/*
				7134	* Commands creating/starting a new array:
				7135	*/
				7136
				7137	mddev = bdev->bd_disk->private_data;
				7138
				7139	if (!mddev) {
				7140	BUG();
				7141	goto out;
				7142	}
				7143
				7144	/* Some actions do not requires the mutex */
				7145	switch (cmd) {
				7146	case GET_ARRAY_INFO:
				7147	if (!mddev->raid_disks && !mddev->external)
				7148	err = -ENODEV;
				7149	else
				7150	err = get_array_info(mddev, argp);
				7151	goto out;
				7152
				7153	case GET_DISK_INFO:
				7154	if (!mddev->raid_disks && !mddev->external)
				7155	err = -ENODEV;
				7156	else
				7157	err = get_disk_info(mddev, argp);
				7158	goto out;
				7159
				7160	case SET_DISK_FAULTY:
				7161	err = set_disk_faulty(mddev, new_decode_dev(arg));
				7162	goto out;
				7163
				7164	case GET_BITMAP_FILE:
				7165	err = get_bitmap_file(mddev, argp);
				7166	goto out;
				7167
				7168	}
				7169
				7170	if (cmd == ADD_NEW_DISK)
				7171	/* need to ensure md_delayed_delete() has completed */
				7172	flush_workqueue(md_misc_wq);
				7173
				7174	if (cmd == HOT_REMOVE_DISK)
				7175	/* need to ensure recovery thread has run */
				7176	wait_event_interruptible_timeout(mddev->sb_wait,
				7177	!test_bit(MD_RECOVERY_NEEDED,
				7178	&mddev->recovery),
				7179	msecs_to_jiffies(5000));
				7180	if (cmd == STOP_ARRAY \|\| cmd == STOP_ARRAY_RO) {
				7181	/* Need to flush page cache, and ensure no-one else opens
				7182	* and writes
				7183	*/
				7184	mutex_lock(&mddev->open_mutex);
				7185	if (mddev->pers && atomic_read(&mddev->openers) > 1) {
				7186	mutex_unlock(&mddev->open_mutex);
				7187	err = -EBUSY;
				7188	goto out;
				7189	}
				7190	WARN_ON_ONCE(test_bit(MD_CLOSING, &mddev->flags));
				7191	set_bit(MD_CLOSING, &mddev->flags);
				7192	did_set_md_closing = true;
				7193	mutex_unlock(&mddev->open_mutex);
				7194	sync_blockdev(bdev);
				7195	}
				7196	err = mddev_lock(mddev);
				7197	if (err) {
				7198	pr_debug("md: ioctl lock interrupted, reason %d, cmd %d\n",
				7199	err, cmd);
				7200	goto out;
				7201	}
				7202
				7203	if (cmd == SET_ARRAY_INFO) {
				7204	mdu_array_info_t info;
				7205	if (!arg)
				7206	memset(&info, 0, sizeof(info));
				7207	else if (copy_from_user(&info, argp, sizeof(info))) {
				7208	err = -EFAULT;
				7209	goto unlock;
				7210	}
				7211	if (mddev->pers) {
				7212	err = update_array_info(mddev, &info);
				7213	if (err) {
				7214	pr_warn("md: couldn't update array info. %d\n", err);
				7215	goto unlock;
				7216	}
				7217	goto unlock;
				7218	}
				7219	if (!list_empty(&mddev->disks)) {
				7220	pr_warn("md: array %s already has disks!\n", mdname(mddev));
				7221	err = -EBUSY;
				7222	goto unlock;
				7223	}
				7224	if (mddev->raid_disks) {
				7225	pr_warn("md: array %s already initialised!\n", mdname(mddev));
				7226	err = -EBUSY;
				7227	goto unlock;
				7228	}
				7229	err = set_array_info(mddev, &info);
				7230	if (err) {
				7231	pr_warn("md: couldn't set array info. %d\n", err);
				7232	goto unlock;
				7233	}
				7234	goto unlock;
				7235	}
				7236
				7237	/*
				7238	* Commands querying/configuring an existing array:
				7239	*/
				7240	/* if we are not initialised yet, only ADD_NEW_DISK, STOP_ARRAY,
				7241	* RUN_ARRAY, and GET_ and SET_BITMAP_FILE are allowed */
				7242	if ((!mddev->raid_disks && !mddev->external)
				7243	&& cmd != ADD_NEW_DISK && cmd != STOP_ARRAY
				7244	&& cmd != RUN_ARRAY && cmd != SET_BITMAP_FILE
				7245	&& cmd != GET_BITMAP_FILE) {
				7246	err = -ENODEV;
				7247	goto unlock;
				7248	}
				7249
				7250	/*
				7251	* Commands even a read-only array can execute:
				7252	*/
				7253	switch (cmd) {
				7254	case RESTART_ARRAY_RW:
				7255	err = restart_array(mddev);
				7256	goto unlock;
				7257
				7258	case STOP_ARRAY:
				7259	err = do_md_stop(mddev, 0, bdev);
				7260	goto unlock;
				7261
				7262	case STOP_ARRAY_RO:
				7263	err = md_set_readonly(mddev, bdev);
				7264	goto unlock;
				7265
				7266	case HOT_REMOVE_DISK:
				7267	err = hot_remove_disk(mddev, new_decode_dev(arg));
				7268	goto unlock;
				7269
				7270	case ADD_NEW_DISK:
				7271	/* We can support ADD_NEW_DISK on read-only arrays
				7272	* only if we are re-adding a preexisting device.
				7273	* So require mddev->pers and MD_DISK_SYNC.
				7274	*/
				7275	if (mddev->pers) {
				7276	mdu_disk_info_t info;
				7277	if (copy_from_user(&info, argp, sizeof(info)))
				7278	err = -EFAULT;
				7279	else if (!(info.state & (1<<MD_DISK_SYNC)))
				7280	/* Need to clear read-only for this */
				7281	break;
				7282	else
				7283	err = add_new_disk(mddev, &info);
				7284	goto unlock;
				7285	}
				7286	break;
				7287
				7288	case BLKROSET:
				7289	if (get_user(ro, (int __user *)(arg))) {
				7290	err = -EFAULT;
				7291	goto unlock;
				7292	}
				7293	err = -EINVAL;
				7294
				7295	/* if the bdev is going readonly the value of mddev->ro
				7296	* does not matter, no writes are coming
				7297	*/
				7298	if (ro)
				7299	goto unlock;
				7300
				7301	/* are we are already prepared for writes? */
				7302	if (mddev->ro != 1)
				7303	goto unlock;
				7304
				7305	/* transitioning to readauto need only happen for
				7306	* arrays that call md_write_start
				7307	*/
				7308	if (mddev->pers) {
				7309	err = restart_array(mddev);
				7310	if (err == 0) {
				7311	mddev->ro = 2;
				7312	set_disk_ro(mddev->gendisk, 0);
				7313	}
				7314	}
				7315	goto unlock;
				7316	}
				7317
				7318	/*
				7319	* The remaining ioctls are changing the state of the
				7320	* superblock, so we do not allow them on read-only arrays.
				7321	*/
				7322	if (mddev->ro && mddev->pers) {
				7323	if (mddev->ro == 2) {
				7324	mddev->ro = 0;
				7325	sysfs_notify_dirent_safe(mddev->sysfs_state);
				7326	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				7327	/* mddev_unlock will wake thread */
				7328	/* If a device failed while we were read-only, we
				7329	* need to make sure the metadata is updated now.
				7330	*/
				7331	if (test_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags)) {
				7332	mddev_unlock(mddev);
				7333	wait_event(mddev->sb_wait,
				7334	!test_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags) &&
				7335	!test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
				7336	mddev_lock_nointr(mddev);
				7337	}
				7338	} else {
				7339	err = -EROFS;
				7340	goto unlock;
				7341	}
				7342	}
				7343
				7344	switch (cmd) {
				7345	case ADD_NEW_DISK:
				7346	{
				7347	mdu_disk_info_t info;
				7348	if (copy_from_user(&info, argp, sizeof(info)))
				7349	err = -EFAULT;
				7350	else
				7351	err = add_new_disk(mddev, &info);
				7352	goto unlock;
				7353	}
				7354
				7355	case CLUSTERED_DISK_NACK:
				7356	if (mddev_is_clustered(mddev))
				7357	md_cluster_ops->new_disk_ack(mddev, false);
				7358	else
				7359	err = -EINVAL;
				7360	goto unlock;
				7361
				7362	case HOT_ADD_DISK:
				7363	err = hot_add_disk(mddev, new_decode_dev(arg));
				7364	goto unlock;
				7365
				7366	case RUN_ARRAY:
				7367	err = do_md_run(mddev);
				7368	goto unlock;
				7369
				7370	case SET_BITMAP_FILE:
				7371	err = set_bitmap_file(mddev, (int)arg);
				7372	goto unlock;
				7373
				7374	default:
				7375	err = -EINVAL;
				7376	goto unlock;
				7377	}
				7378
				7379	unlock:
				7380	if (mddev->hold_active == UNTIL_IOCTL &&
				7381	err != -EINVAL)
				7382	mddev->hold_active = 0;
				7383	mddev_unlock(mddev);
				7384	out:
				7385	if(did_set_md_closing)
				7386	clear_bit(MD_CLOSING, &mddev->flags);
				7387	return err;
				7388	}
				7389	#ifdef CONFIG_COMPAT
				7390	static int md_compat_ioctl(struct block_device *bdev, fmode_t mode,
				7391	unsigned int cmd, unsigned long arg)
				7392	{
				7393	switch (cmd) {
				7394	case HOT_REMOVE_DISK:
				7395	case HOT_ADD_DISK:
				7396	case SET_DISK_FAULTY:
				7397	case SET_BITMAP_FILE:
				7398	/* These take in integer arg, do not convert */
				7399	break;
				7400	default:
				7401	arg = (unsigned long)compat_ptr(arg);
				7402	break;
				7403	}
				7404
				7405	return md_ioctl(bdev, mode, cmd, arg);
				7406	}
				7407	#endif /* CONFIG_COMPAT */
				7408
				7409	static int md_open(struct block_device *bdev, fmode_t mode)
				7410	{
				7411	/*
				7412	* Succeed if we can lock the mddev, which confirms that
				7413	* it isn't being stopped right now.
				7414	*/
				7415	struct mddev *mddev = mddev_find(bdev->bd_dev);
				7416	int err;
				7417
				7418	if (!mddev)
				7419	return -ENODEV;
				7420
				7421	if (mddev->gendisk != bdev->bd_disk) {
				7422	/* we are racing with mddev_put which is discarding this
				7423	* bd_disk.
				7424	*/
				7425	mddev_put(mddev);
				7426	/* Wait until bdev->bd_disk is definitely gone */
				7427	if (work_pending(&mddev->del_work))
				7428	flush_workqueue(md_misc_wq);
				7429	/* Then retry the open from the top */
				7430	return -ERESTARTSYS;
				7431	}
				7432	BUG_ON(mddev != bdev->bd_disk->private_data);
				7433
				7434	if ((err = mutex_lock_interruptible(&mddev->open_mutex)))
				7435	goto out;
				7436
				7437	if (test_bit(MD_CLOSING, &mddev->flags)) {
				7438	mutex_unlock(&mddev->open_mutex);
				7439	err = -ENODEV;
				7440	goto out;
				7441	}
				7442
				7443	err = 0;
				7444	atomic_inc(&mddev->openers);
				7445	mutex_unlock(&mddev->open_mutex);
				7446
				7447	check_disk_change(bdev);
				7448	out:
				7449	if (err)
				7450	mddev_put(mddev);
				7451	return err;
				7452	}
				7453
				7454	static void md_release(struct gendisk *disk, fmode_t mode)
				7455	{
				7456	struct mddev *mddev = disk->private_data;
				7457
				7458	BUG_ON(!mddev);
				7459	atomic_dec(&mddev->openers);
				7460	mddev_put(mddev);
				7461	}
				7462
				7463	static int md_media_changed(struct gendisk *disk)
				7464	{
				7465	struct mddev *mddev = disk->private_data;
				7466
				7467	return mddev->changed;
				7468	}
				7469
				7470	static int md_revalidate(struct gendisk *disk)
				7471	{
				7472	struct mddev *mddev = disk->private_data;
				7473
				7474	mddev->changed = 0;
				7475	return 0;
				7476	}
				7477	static const struct block_device_operations md_fops =
				7478	{
				7479	.owner = THIS_MODULE,
				7480	.open = md_open,
				7481	.release = md_release,
				7482	.ioctl = md_ioctl,
				7483	#ifdef CONFIG_COMPAT
				7484	.compat_ioctl = md_compat_ioctl,
				7485	#endif
				7486	.getgeo = md_getgeo,
				7487	.media_changed = md_media_changed,
				7488	.revalidate_disk= md_revalidate,
				7489	};
				7490
				7491	static int md_thread(void *arg)
				7492	{
				7493	struct md_thread *thread = arg;
				7494
				7495	/*
				7496	* md_thread is a 'system-thread', it's priority should be very
				7497	* high. We avoid resource deadlocks individually in each
				7498	* raid personality. (RAID5 does preallocation) We also use RR and
				7499	* the very same RT priority as kswapd, thus we will never get
				7500	* into a priority inversion deadlock.
				7501	*
				7502	* we definitely have to have equal or higher priority than
				7503	* bdflush, otherwise bdflush will deadlock if there are too
				7504	* many dirty RAID5 blocks.
				7505	*/
				7506
				7507	allow_signal(SIGKILL);
				7508	while (!kthread_should_stop()) {
				7509
				7510	/* We need to wait INTERRUPTIBLE so that
				7511	* we don't add to the load-average.
				7512	* That means we need to be sure no signals are
				7513	* pending
				7514	*/
				7515	if (signal_pending(current))
				7516	flush_signals(current);
				7517
				7518	wait_event_interruptible_timeout
				7519	(thread->wqueue,
				7520	test_bit(THREAD_WAKEUP, &thread->flags)
				7521	\|\| kthread_should_stop() \|\| kthread_should_park(),
				7522	thread->timeout);
				7523
				7524	clear_bit(THREAD_WAKEUP, &thread->flags);
				7525	if (kthread_should_park())
				7526	kthread_parkme();
				7527	if (!kthread_should_stop())
				7528	thread->run(thread);
				7529	}
				7530
				7531	return 0;
				7532	}
				7533
				7534	void md_wakeup_thread(struct md_thread *thread)
				7535	{
				7536	if (thread) {
				7537	pr_debug("md: waking up MD thread %s.\n", thread->tsk->comm);
				7538	set_bit(THREAD_WAKEUP, &thread->flags);
				7539	wake_up(&thread->wqueue);
				7540	}
				7541	}
				7542	EXPORT_SYMBOL(md_wakeup_thread);
				7543
				7544	struct md_thread md_register_thread(void (run) (struct md_thread *),
				7545	struct mddev mddev, const char name)
				7546	{
				7547	struct md_thread *thread;
				7548
				7549	thread = kzalloc(sizeof(struct md_thread), GFP_KERNEL);
				7550	if (!thread)
				7551	return NULL;
				7552
				7553	init_waitqueue_head(&thread->wqueue);
				7554
				7555	thread->run = run;
				7556	thread->mddev = mddev;
				7557	thread->timeout = MAX_SCHEDULE_TIMEOUT;
				7558	thread->tsk = kthread_run(md_thread, thread,
				7559	"%s_%s",
				7560	mdname(thread->mddev),
				7561	name);
				7562	if (IS_ERR(thread->tsk)) {
				7563	kfree(thread);
				7564	return NULL;
				7565	}
				7566	return thread;
				7567	}
				7568	EXPORT_SYMBOL(md_register_thread);
				7569
				7570	void md_unregister_thread(struct md_thread **threadp)
				7571	{
				7572	struct md_thread thread = threadp;
				7573	if (!thread)
				7574	return;
				7575	pr_debug("interrupting MD-thread pid %d\n", task_pid_nr(thread->tsk));
				7576	/* Locking ensures that mddev_unlock does not wake_up a
				7577	* non-existent thread
				7578	*/
				7579	spin_lock(&pers_lock);
				7580	*threadp = NULL;
				7581	spin_unlock(&pers_lock);
				7582
				7583	kthread_stop(thread->tsk);
				7584	kfree(thread);
				7585	}
				7586	EXPORT_SYMBOL(md_unregister_thread);
				7587
				7588	void md_error(struct mddev mddev, struct md_rdev rdev)
				7589	{
				7590	if (!rdev \|\| test_bit(Faulty, &rdev->flags))
				7591	return;
				7592
				7593	if (!mddev->pers \|\| !mddev->pers->error_handler)
				7594	return;
				7595	mddev->pers->error_handler(mddev,rdev);
				7596	if (mddev->degraded)
				7597	set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				7598	sysfs_notify_dirent_safe(rdev->sysfs_state);
				7599	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				7600	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				7601	md_wakeup_thread(mddev->thread);
				7602	if (mddev->event_work.func)
				7603	queue_work(md_misc_wq, &mddev->event_work);
				7604	md_new_event(mddev);
				7605	}
				7606	EXPORT_SYMBOL(md_error);
				7607
				7608	/* seq_file implementation /proc/mdstat */
				7609
				7610	static void status_unused(struct seq_file *seq)
				7611	{
				7612	int i = 0;
				7613	struct md_rdev *rdev;
				7614
				7615	seq_printf(seq, "unused devices: ");
				7616
				7617	list_for_each_entry(rdev, &pending_raid_disks, same_set) {
				7618	char b[BDEVNAME_SIZE];
				7619	i++;
				7620	seq_printf(seq, "%s ",
				7621	bdevname(rdev->bdev,b));
				7622	}
				7623	if (!i)
				7624	seq_printf(seq, "<none>");
				7625
				7626	seq_printf(seq, "\n");
				7627	}
				7628
				7629	static int status_resync(struct seq_file seq, struct mddev mddev)
				7630	{
				7631	sector_t max_sectors, resync, res;
				7632	unsigned long dt, db = 0;
				7633	sector_t rt, curr_mark_cnt, resync_mark_cnt;
				7634	int scale, recovery_active;
				7635	unsigned int per_milli;
				7636
				7637	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) \|\|
				7638	test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
				7639	max_sectors = mddev->resync_max_sectors;
				7640	else
				7641	max_sectors = mddev->dev_sectors;
				7642
				7643	resync = mddev->curr_resync;
				7644	if (resync <= 3) {
				7645	if (test_bit(MD_RECOVERY_DONE, &mddev->recovery))
				7646	/* Still cleaning up */
				7647	resync = max_sectors;
				7648	} else
				7649	resync -= atomic_read(&mddev->recovery_active);
				7650
				7651	if (resync == 0) {
				7652	if (mddev->recovery_cp < MaxSector) {
				7653	seq_printf(seq, "\tresync=PENDING");
				7654	return 1;
				7655	}
				7656	return 0;
				7657	}
				7658	if (resync < 3) {
				7659	seq_printf(seq, "\tresync=DELAYED");
				7660	return 1;
				7661	}
				7662
				7663	WARN_ON(max_sectors == 0);
				7664	/* Pick 'scale' such that (resync>>scale)*1000 will fit
				7665	* in a sector_t, and (max_sectors>>scale) will fit in a
				7666	* u32, as those are the requirements for sector_div.
				7667	* Thus 'scale' must be at least 10
				7668	*/
				7669	scale = 10;
				7670	if (sizeof(sector_t) > sizeof(unsigned long)) {
				7671	while ( max_sectors/2 > (1ULL<<(scale+32)))
				7672	scale++;
				7673	}
				7674	res = (resync>>scale)*1000;
				7675	sector_div(res, (u32)((max_sectors>>scale)+1));
				7676
				7677	per_milli = res;
				7678	{
				7679	int i, x = per_milli/50, y = 20-x;
				7680	seq_printf(seq, "[");
				7681	for (i = 0; i < x; i++)
				7682	seq_printf(seq, "=");
				7683	seq_printf(seq, ">");
				7684	for (i = 0; i < y; i++)
				7685	seq_printf(seq, ".");
				7686	seq_printf(seq, "] ");
				7687	}
				7688	seq_printf(seq, " %s =%3u.%u%% (%llu/%llu)",
				7689	(test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery)?
				7690	"reshape" :
				7691	(test_bit(MD_RECOVERY_CHECK, &mddev->recovery)?
				7692	"check" :
				7693	(test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ?
				7694	"resync" : "recovery"))),
				7695	per_milli/10, per_milli % 10,
				7696	(unsigned long long) resync/2,
				7697	(unsigned long long) max_sectors/2);
				7698
				7699	/*
				7700	* dt: time from mark until now
				7701	* db: blocks written from mark until now
				7702	* rt: remaining time
				7703	*
				7704	* rt is a sector_t, which is always 64bit now. We are keeping
				7705	* the original algorithm, but it is not really necessary.
				7706	*
				7707	* Original algorithm:
				7708	* So we divide before multiply in case it is 32bit and close
				7709	* to the limit.
				7710	* We scale the divisor (db) by 32 to avoid losing precision
				7711	* near the end of resync when the number of remaining sectors
				7712	* is close to 'db'.
				7713	* We then divide rt by 32 after multiplying by db to compensate.
				7714	* The '+1' avoids division by zero if db is very small.
				7715	*/
				7716	dt = ((jiffies - mddev->resync_mark) / HZ);
				7717	if (!dt) dt++;
				7718
				7719	curr_mark_cnt = mddev->curr_mark_cnt;
				7720	recovery_active = atomic_read(&mddev->recovery_active);
				7721	resync_mark_cnt = mddev->resync_mark_cnt;
				7722
				7723	if (curr_mark_cnt >= (recovery_active + resync_mark_cnt))
				7724	db = curr_mark_cnt - (recovery_active + resync_mark_cnt);
				7725
				7726	rt = max_sectors - resync; /* number of remaining sectors */
				7727	rt = div64_u64(rt, db/32+1);
				7728	rt *= dt;
				7729	rt >>= 5;
				7730
				7731	seq_printf(seq, " finish=%lu.%lumin", (unsigned long)rt / 60,
				7732	((unsigned long)rt % 60)/6);
				7733
				7734	seq_printf(seq, " speed=%ldK/sec", db/2/dt);
				7735	return 1;
				7736	}
				7737
				7738	static void md_seq_start(struct seq_file seq, loff_t *pos)
				7739	{
				7740	struct list_head *tmp;
				7741	loff_t l = *pos;
				7742	struct mddev *mddev;
				7743
				7744	if (l >= 0x10000)
				7745	return NULL;
				7746	if (!l--)
				7747	/* header */
				7748	return (void*)1;
				7749
				7750	spin_lock(&all_mddevs_lock);
				7751	list_for_each(tmp,&all_mddevs)
				7752	if (!l--) {
				7753	mddev = list_entry(tmp, struct mddev, all_mddevs);
				7754	mddev_get(mddev);
				7755	spin_unlock(&all_mddevs_lock);
				7756	return mddev;
				7757	}
				7758	spin_unlock(&all_mddevs_lock);
				7759	if (!l--)
				7760	return (void)2;/ tail */
				7761	return NULL;
				7762	}
				7763
				7764	static void md_seq_next(struct seq_file seq, void v, loff_t pos)
				7765	{
				7766	struct list_head *tmp;
				7767	struct mddev next_mddev, mddev = v;
				7768
				7769	++*pos;
				7770	if (v == (void*)2)
				7771	return NULL;
				7772
				7773	spin_lock(&all_mddevs_lock);
				7774	if (v == (void*)1)
				7775	tmp = all_mddevs.next;
				7776	else
				7777	tmp = mddev->all_mddevs.next;
				7778	if (tmp != &all_mddevs)
				7779	next_mddev = mddev_get(list_entry(tmp,struct mddev,all_mddevs));
				7780	else {
				7781	next_mddev = (void*)2;
				7782	*pos = 0x10000;
				7783	}
				7784	spin_unlock(&all_mddevs_lock);
				7785
				7786	if (v != (void*)1)
				7787	mddev_put(mddev);
				7788	return next_mddev;
				7789
				7790	}
				7791
				7792	static void md_seq_stop(struct seq_file seq, void v)
				7793	{
				7794	struct mddev *mddev = v;
				7795
				7796	if (mddev && v != (void)1 && v != (void)2)
				7797	mddev_put(mddev);
				7798	}
				7799
				7800	static int md_seq_show(struct seq_file seq, void v)
				7801	{
				7802	struct mddev *mddev = v;
				7803	sector_t sectors;
				7804	struct md_rdev *rdev;
				7805
				7806	if (v == (void*)1) {
				7807	struct md_personality *pers;
				7808	seq_printf(seq, "Personalities : ");
				7809	spin_lock(&pers_lock);
				7810	list_for_each_entry(pers, &pers_list, list)
				7811	seq_printf(seq, "[%s] ", pers->name);
				7812
				7813	spin_unlock(&pers_lock);
				7814	seq_printf(seq, "\n");
				7815	seq->poll_event = atomic_read(&md_event_count);
				7816	return 0;
				7817	}
				7818	if (v == (void*)2) {
				7819	status_unused(seq);
				7820	return 0;
				7821	}
				7822
				7823	spin_lock(&mddev->lock);
				7824	if (mddev->pers \|\| mddev->raid_disks \|\| !list_empty(&mddev->disks)) {
				7825	seq_printf(seq, "%s : %sactive", mdname(mddev),
				7826	mddev->pers ? "" : "in");
				7827	if (mddev->pers) {
				7828	if (mddev->ro==1)
				7829	seq_printf(seq, " (read-only)");
				7830	if (mddev->ro==2)
				7831	seq_printf(seq, " (auto-read-only)");
				7832	seq_printf(seq, " %s", mddev->pers->name);
				7833	}
				7834
				7835	sectors = 0;
				7836	rcu_read_lock();
				7837	rdev_for_each_rcu(rdev, mddev) {
				7838	char b[BDEVNAME_SIZE];
				7839	seq_printf(seq, " %s[%d]",
				7840	bdevname(rdev->bdev,b), rdev->desc_nr);
				7841	if (test_bit(WriteMostly, &rdev->flags))
				7842	seq_printf(seq, "(W)");
				7843	if (test_bit(Journal, &rdev->flags))
				7844	seq_printf(seq, "(J)");
				7845	if (test_bit(Faulty, &rdev->flags)) {
				7846	seq_printf(seq, "(F)");
				7847	continue;
				7848	}
				7849	if (rdev->raid_disk < 0)
				7850	seq_printf(seq, "(S)"); /* spare */
				7851	if (test_bit(Replacement, &rdev->flags))
				7852	seq_printf(seq, "(R)");
				7853	sectors += rdev->sectors;
				7854	}
				7855	rcu_read_unlock();
				7856
				7857	if (!list_empty(&mddev->disks)) {
				7858	if (mddev->pers)
				7859	seq_printf(seq, "\n %llu blocks",
				7860	(unsigned long long)
				7861	mddev->array_sectors / 2);
				7862	else
				7863	seq_printf(seq, "\n %llu blocks",
				7864	(unsigned long long)sectors / 2);
				7865	}
				7866	if (mddev->persistent) {
				7867	if (mddev->major_version != 0 \|\|
				7868	mddev->minor_version != 90) {
				7869	seq_printf(seq," super %d.%d",
				7870	mddev->major_version,
				7871	mddev->minor_version);
				7872	}
				7873	} else if (mddev->external)
				7874	seq_printf(seq, " super external:%s",
				7875	mddev->metadata_type);
				7876	else
				7877	seq_printf(seq, " super non-persistent");
				7878
				7879	if (mddev->pers) {
				7880	mddev->pers->status(seq, mddev);
				7881	seq_printf(seq, "\n ");
				7882	if (mddev->pers->sync_request) {
				7883	if (status_resync(seq, mddev))
				7884	seq_printf(seq, "\n ");
				7885	}
				7886	} else
				7887	seq_printf(seq, "\n ");
				7888
				7889	bitmap_status(seq, mddev->bitmap);
				7890
				7891	seq_printf(seq, "\n");
				7892	}
				7893	spin_unlock(&mddev->lock);
				7894
				7895	return 0;
				7896	}
				7897
				7898	static const struct seq_operations md_seq_ops = {
				7899	.start = md_seq_start,
				7900	.next = md_seq_next,
				7901	.stop = md_seq_stop,
				7902	.show = md_seq_show,
				7903	};
				7904
				7905	static int md_seq_open(struct inode inode, struct file file)
				7906	{
				7907	struct seq_file *seq;
				7908	int error;
				7909
				7910	error = seq_open(file, &md_seq_ops);
				7911	if (error)
				7912	return error;
				7913
				7914	seq = file->private_data;
				7915	seq->poll_event = atomic_read(&md_event_count);
				7916	return error;
				7917	}
				7918
				7919	static int md_unloading;
				7920	static unsigned int mdstat_poll(struct file filp, poll_table wait)
				7921	{
				7922	struct seq_file *seq = filp->private_data;
				7923	int mask;
				7924
				7925	if (md_unloading)
				7926	return POLLIN\|POLLRDNORM\|POLLERR\|POLLPRI;
				7927	poll_wait(filp, &md_event_waiters, wait);
				7928
				7929	/* always allow read */
				7930	mask = POLLIN \| POLLRDNORM;
				7931
				7932	if (seq->poll_event != atomic_read(&md_event_count))
				7933	mask \|= POLLERR \| POLLPRI;
				7934	return mask;
				7935	}
				7936
				7937	static const struct file_operations md_seq_fops = {
				7938	.owner = THIS_MODULE,
				7939	.open = md_seq_open,
				7940	.read = seq_read,
				7941	.llseek = seq_lseek,
				7942	.release = seq_release,
				7943	.poll = mdstat_poll,
				7944	};
				7945
				7946	int register_md_personality(struct md_personality *p)
				7947	{
				7948	pr_debug("md: %s personality registered for level %d\n",
				7949	p->name, p->level);
				7950	spin_lock(&pers_lock);
				7951	list_add_tail(&p->list, &pers_list);
				7952	spin_unlock(&pers_lock);
				7953	return 0;
				7954	}
				7955	EXPORT_SYMBOL(register_md_personality);
				7956
				7957	int unregister_md_personality(struct md_personality *p)
				7958	{
				7959	pr_debug("md: %s personality unregistered\n", p->name);
				7960	spin_lock(&pers_lock);
				7961	list_del_init(&p->list);
				7962	spin_unlock(&pers_lock);
				7963	return 0;
				7964	}
				7965	EXPORT_SYMBOL(unregister_md_personality);
				7966
				7967	int register_md_cluster_operations(struct md_cluster_operations *ops,
				7968	struct module *module)
				7969	{
				7970	int ret = 0;
				7971	spin_lock(&pers_lock);
				7972	if (md_cluster_ops != NULL)
				7973	ret = -EALREADY;
				7974	else {
				7975	md_cluster_ops = ops;
				7976	md_cluster_mod = module;
				7977	}
				7978	spin_unlock(&pers_lock);
				7979	return ret;
				7980	}
				7981	EXPORT_SYMBOL(register_md_cluster_operations);
				7982
				7983	int unregister_md_cluster_operations(void)
				7984	{
				7985	spin_lock(&pers_lock);
				7986	md_cluster_ops = NULL;
				7987	spin_unlock(&pers_lock);
				7988	return 0;
				7989	}
				7990	EXPORT_SYMBOL(unregister_md_cluster_operations);
				7991
				7992	int md_setup_cluster(struct mddev *mddev, int nodes)
				7993	{
				7994	if (!md_cluster_ops)
				7995	request_module("md-cluster");
				7996	spin_lock(&pers_lock);
				7997	/* ensure module won't be unloaded */
				7998	if (!md_cluster_ops \|\| !try_module_get(md_cluster_mod)) {
				7999	pr_warn("can't find md-cluster module or get it's reference.\n");
				8000	spin_unlock(&pers_lock);
				8001	return -ENOENT;
				8002	}
				8003	spin_unlock(&pers_lock);
				8004
				8005	return md_cluster_ops->join(mddev, nodes);
				8006	}
				8007
				8008	void md_cluster_stop(struct mddev *mddev)
				8009	{
				8010	if (!md_cluster_ops)
				8011	return;
				8012	md_cluster_ops->leave(mddev);
				8013	module_put(md_cluster_mod);
				8014	}
				8015
				8016	static int is_mddev_idle(struct mddev *mddev, int init)
				8017	{
				8018	struct md_rdev *rdev;
				8019	int idle;
				8020	int curr_events;
				8021
				8022	idle = 1;
				8023	rcu_read_lock();
				8024	rdev_for_each_rcu(rdev, mddev) {
				8025	struct gendisk *disk = rdev->bdev->bd_contains->bd_disk;
				8026	curr_events = (int)part_stat_read(&disk->part0, sectors[0]) +
				8027	(int)part_stat_read(&disk->part0, sectors[1]) -
				8028	atomic_read(&disk->sync_io);
				8029	/* sync IO will cause sync_io to increase before the disk_stats
				8030	* as sync_io is counted when a request starts, and
				8031	* disk_stats is counted when it completes.
				8032	* So resync activity will cause curr_events to be smaller than
				8033	* when there was no such activity.
				8034	* non-sync IO will cause disk_stat to increase without
				8035	* increasing sync_io so curr_events will (eventually)
				8036	* be larger than it was before. Once it becomes
				8037	* substantially larger, the test below will cause
				8038	* the array to appear non-idle, and resync will slow
				8039	* down.
				8040	* If there is a lot of outstanding resync activity when
				8041	* we set last_event to curr_events, then all that activity
				8042	* completing might cause the array to appear non-idle
				8043	* and resync will be slowed down even though there might
				8044	* not have been non-resync activity. This will only
				8045	* happen once though. 'last_events' will soon reflect
				8046	* the state where there is little or no outstanding
				8047	* resync requests, and further resync activity will
				8048	* always make curr_events less than last_events.
				8049	*
				8050	*/
				8051	if (init \|\| curr_events - rdev->last_events > 64) {
				8052	rdev->last_events = curr_events;
				8053	idle = 0;
				8054	}
				8055	}
				8056	rcu_read_unlock();
				8057	return idle;
				8058	}
				8059
				8060	void md_done_sync(struct mddev *mddev, int blocks, int ok)
				8061	{
				8062	/* another "blocks" (512byte) blocks have been synced */
				8063	atomic_sub(blocks, &mddev->recovery_active);
				8064	wake_up(&mddev->recovery_wait);
				8065	if (!ok) {
				8066	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				8067	set_bit(MD_RECOVERY_ERROR, &mddev->recovery);
				8068	md_wakeup_thread(mddev->thread);
				8069	// stop recovery, signal do_sync ....
				8070	}
				8071	}
				8072	EXPORT_SYMBOL(md_done_sync);
				8073
				8074	/* md_write_start(mddev, bi)
				8075	* If we need to update some array metadata (e.g. 'active' flag
				8076	* in superblock) before writing, schedule a superblock update
				8077	* and wait for it to complete.
				8078	* A return value of 'false' means that the write wasn't recorded
				8079	* and cannot proceed as the array is being suspend.
				8080	*/
				8081	bool md_write_start(struct mddev mddev, struct bio bi)
				8082	{
				8083	int did_change = 0;
				8084
				8085	if (bio_data_dir(bi) != WRITE)
				8086	return true;
				8087
				8088	BUG_ON(mddev->ro == 1);
				8089	if (mddev->ro == 2) {
				8090	/* need to switch to read/write */
				8091	mddev->ro = 0;
				8092	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				8093	md_wakeup_thread(mddev->thread);
				8094	md_wakeup_thread(mddev->sync_thread);
				8095	did_change = 1;
				8096	}
				8097	rcu_read_lock();
				8098	percpu_ref_get(&mddev->writes_pending);
				8099	smp_mb(); /* Match smp_mb in set_in_sync() */
				8100	if (mddev->safemode == 1)
				8101	mddev->safemode = 0;
				8102	/* sync_checkers is always 0 when writes_pending is in per-cpu mode */
				8103	if (mddev->in_sync \|\| mddev->sync_checkers) {
				8104	spin_lock(&mddev->lock);
				8105	if (mddev->in_sync) {
				8106	mddev->in_sync = 0;
				8107	set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				8108	set_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				8109	md_wakeup_thread(mddev->thread);
				8110	did_change = 1;
				8111	}
				8112	spin_unlock(&mddev->lock);
				8113	}
				8114	rcu_read_unlock();
				8115	if (did_change)
				8116	sysfs_notify_dirent_safe(mddev->sysfs_state);
				8117	if (!mddev->has_superblocks)
				8118	return true;
				8119	wait_event(mddev->sb_wait,
				8120	!test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags) \|\|
				8121	mddev->suspended);
				8122	if (test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags)) {
				8123	percpu_ref_put(&mddev->writes_pending);
				8124	return false;
				8125	}
				8126	return true;
				8127	}
				8128	EXPORT_SYMBOL(md_write_start);
				8129
				8130	/* md_write_inc can only be called when md_write_start() has
				8131	* already been called at least once of the current request.
				8132	* It increments the counter and is useful when a single request
				8133	* is split into several parts. Each part causes an increment and
				8134	* so needs a matching md_write_end().
				8135	* Unlike md_write_start(), it is safe to call md_write_inc() inside
				8136	* a spinlocked region.
				8137	*/
				8138	void md_write_inc(struct mddev mddev, struct bio bi)
				8139	{
				8140	if (bio_data_dir(bi) != WRITE)
				8141	return;
				8142	WARN_ON_ONCE(mddev->in_sync \|\| mddev->ro);
				8143	percpu_ref_get(&mddev->writes_pending);
				8144	}
				8145	EXPORT_SYMBOL(md_write_inc);
				8146
				8147	void md_write_end(struct mddev *mddev)
				8148	{
				8149	percpu_ref_put(&mddev->writes_pending);
				8150
				8151	if (mddev->safemode == 2)
				8152	md_wakeup_thread(mddev->thread);
				8153	else if (mddev->safemode_delay)
				8154	/* The roundup() ensures this only performs locking once
				8155	* every ->safemode_delay jiffies
				8156	*/
				8157	mod_timer(&mddev->safemode_timer,
				8158	roundup(jiffies, mddev->safemode_delay) +
				8159	mddev->safemode_delay);
				8160	}
				8161
				8162	EXPORT_SYMBOL(md_write_end);
				8163
				8164	/* md_allow_write(mddev)
				8165	* Calling this ensures that the array is marked 'active' so that writes
				8166	* may proceed without blocking. It is important to call this before
				8167	* attempting a GFP_KERNEL allocation while holding the mddev lock.
				8168	* Must be called with mddev_lock held.
				8169	*/
				8170	void md_allow_write(struct mddev *mddev)
				8171	{
				8172	if (!mddev->pers)
				8173	return;
				8174	if (mddev->ro)
				8175	return;
				8176	if (!mddev->pers->sync_request)
				8177	return;
				8178
				8179	spin_lock(&mddev->lock);
				8180	if (mddev->in_sync) {
				8181	mddev->in_sync = 0;
				8182	set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				8183	set_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				8184	if (mddev->safemode_delay &&
				8185	mddev->safemode == 0)
				8186	mddev->safemode = 1;
				8187	spin_unlock(&mddev->lock);
				8188	md_update_sb(mddev, 0);
				8189	sysfs_notify_dirent_safe(mddev->sysfs_state);
				8190	/* wait for the dirty state to be recorded in the metadata */
				8191	wait_event(mddev->sb_wait,
				8192	!test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
				8193	} else
				8194	spin_unlock(&mddev->lock);
				8195	}
				8196	EXPORT_SYMBOL_GPL(md_allow_write);
				8197
				8198	#define SYNC_MARKS 10
				8199	#define SYNC_MARK_STEP (3*HZ)
				8200	#define UPDATE_FREQUENCY (560HZ)
				8201	void md_do_sync(struct md_thread *thread)
				8202	{
				8203	struct mddev *mddev = thread->mddev;
				8204	struct mddev *mddev2;
				8205	unsigned int currspeed = 0,
				8206	window;
				8207	sector_t max_sectors,j, io_sectors, recovery_done;
				8208	unsigned long mark[SYNC_MARKS];
				8209	unsigned long update_time;
				8210	sector_t mark_cnt[SYNC_MARKS];
				8211	int last_mark,m;
				8212	struct list_head *tmp;
				8213	sector_t last_check;
				8214	int skipped = 0;
				8215	struct md_rdev *rdev;
				8216	char desc, action = NULL;
				8217	struct blk_plug plug;
				8218	int ret;
				8219
				8220	/* just incase thread restarts... */
				8221	if (test_bit(MD_RECOVERY_DONE, &mddev->recovery))
				8222	return;
				8223	if (mddev->ro) {/* never try to sync a read-only array */
				8224	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				8225	return;
				8226	}
				8227
				8228	if (mddev_is_clustered(mddev)) {
				8229	ret = md_cluster_ops->resync_start(mddev);
				8230	if (ret)
				8231	goto skip;
				8232
				8233	set_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags);
				8234	if (!(test_bit(MD_RECOVERY_SYNC, &mddev->recovery) \|\|
				8235	test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) \|\|
				8236	test_bit(MD_RECOVERY_RECOVER, &mddev->recovery))
				8237	&& ((unsigned long long)mddev->curr_resync_completed
				8238	< (unsigned long long)mddev->resync_max_sectors))
				8239	goto skip;
				8240	}
				8241
				8242	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
				8243	if (test_bit(MD_RECOVERY_CHECK, &mddev->recovery)) {
				8244	desc = "data-check";
				8245	action = "check";
				8246	} else if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery)) {
				8247	desc = "requested-resync";
				8248	action = "repair";
				8249	} else
				8250	desc = "resync";
				8251	} else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
				8252	desc = "reshape";
				8253	else
				8254	desc = "recovery";
				8255
				8256	mddev->last_sync_action = action ?: desc;
				8257
				8258	/* we overload curr_resync somewhat here.
				8259	* 0 == not engaged in resync at all
				8260	* 2 == checking that there is no conflict with another sync
				8261	* 1 == like 2, but have yielded to allow conflicting resync to
				8262	* commense
				8263	* other == active in resync - this many blocks
				8264	*
				8265	* Before starting a resync we must have set curr_resync to
				8266	* 2, and then checked that every "conflicting" array has curr_resync
				8267	* less than ours. When we find one that is the same or higher
				8268	* we wait on resync_wait. To avoid deadlock, we reduce curr_resync
				8269	* to 1 if we choose to yield (based arbitrarily on address of mddev structure).
				8270	* This will mean we have to start checking from the beginning again.
				8271	*
				8272	*/
				8273
				8274	do {
				8275	int mddev2_minor = -1;
				8276	mddev->curr_resync = 2;
				8277
				8278	try_again:
				8279	if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
				8280	goto skip;
				8281	for_each_mddev(mddev2, tmp) {
				8282	if (mddev2 == mddev)
				8283	continue;
				8284	if (!mddev->parallel_resync
				8285	&& mddev2->curr_resync
				8286	&& match_mddev_units(mddev, mddev2)) {
				8287	DEFINE_WAIT(wq);
				8288	if (mddev < mddev2 && mddev->curr_resync == 2) {
				8289	/* arbitrarily yield */
				8290	mddev->curr_resync = 1;
				8291	wake_up(&resync_wait);
				8292	}
				8293	if (mddev > mddev2 && mddev->curr_resync == 1)
				8294	/* no need to wait here, we can wait the next
				8295	* time 'round when curr_resync == 2
				8296	*/
				8297	continue;
				8298	/* We need to wait 'interruptible' so as not to
				8299	* contribute to the load average, and not to
				8300	* be caught by 'softlockup'
				8301	*/
				8302	prepare_to_wait(&resync_wait, &wq, TASK_INTERRUPTIBLE);
				8303	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
				8304	mddev2->curr_resync >= mddev->curr_resync) {
				8305	if (mddev2_minor != mddev2->md_minor) {
				8306	mddev2_minor = mddev2->md_minor;
				8307	pr_info("md: delaying %s of %s until %s has finished (they share one or more physical units)\n",
				8308	desc, mdname(mddev),
				8309	mdname(mddev2));
				8310	}
				8311	mddev_put(mddev2);
				8312	if (signal_pending(current))
				8313	flush_signals(current);
				8314	schedule();
				8315	finish_wait(&resync_wait, &wq);
				8316	goto try_again;
				8317	}
				8318	finish_wait(&resync_wait, &wq);
				8319	}
				8320	}
				8321	} while (mddev->curr_resync < 2);
				8322
				8323	j = 0;
				8324	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
				8325	/* resync follows the size requested by the personality,
				8326	* which defaults to physical size, but can be virtual size
				8327	*/
				8328	max_sectors = mddev->resync_max_sectors;
				8329	atomic64_set(&mddev->resync_mismatches, 0);
				8330	/* we don't use the checkpoint if there's a bitmap */
				8331	if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
				8332	j = mddev->resync_min;
				8333	else if (!mddev->bitmap)
				8334	j = mddev->recovery_cp;
				8335
				8336	} else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
				8337	max_sectors = mddev->resync_max_sectors;
				8338	else {
				8339	/* recovery follows the physical size of devices */
				8340	max_sectors = mddev->dev_sectors;
				8341	j = MaxSector;
				8342	rcu_read_lock();
				8343	rdev_for_each_rcu(rdev, mddev)
				8344	if (rdev->raid_disk >= 0 &&
				8345	!test_bit(Journal, &rdev->flags) &&
				8346	!test_bit(Faulty, &rdev->flags) &&
				8347	!test_bit(In_sync, &rdev->flags) &&
				8348	rdev->recovery_offset < j)
				8349	j = rdev->recovery_offset;
				8350	rcu_read_unlock();
				8351
				8352	/* If there is a bitmap, we need to make sure all
				8353	* writes that started before we added a spare
				8354	* complete before we start doing a recovery.
				8355	* Otherwise the write might complete and (via
				8356	* bitmap_endwrite) set a bit in the bitmap after the
				8357	* recovery has checked that bit and skipped that
				8358	* region.
				8359	*/
				8360	if (mddev->bitmap) {
				8361	mddev->pers->quiesce(mddev, 1);
				8362	mddev->pers->quiesce(mddev, 0);
				8363	}
				8364	}
				8365
				8366	pr_info("md: %s of RAID array %s\n", desc, mdname(mddev));
				8367	pr_debug("md: minimum _guaranteed_ speed: %d KB/sec/disk.\n", speed_min(mddev));
				8368	pr_debug("md: using maximum available idle IO bandwidth (but not more than %d KB/sec) for %s.\n",
				8369	speed_max(mddev), desc);
				8370
				8371	is_mddev_idle(mddev, 1); /* this initializes IO event counters */
				8372
				8373	io_sectors = 0;
				8374	for (m = 0; m < SYNC_MARKS; m++) {
				8375	mark[m] = jiffies;
				8376	mark_cnt[m] = io_sectors;
				8377	}
				8378	last_mark = 0;
				8379	mddev->resync_mark = mark[last_mark];
				8380	mddev->resync_mark_cnt = mark_cnt[last_mark];
				8381
				8382	/*
				8383	* Tune reconstruction:
				8384	*/
				8385	window = 32*(PAGE_SIZE/512);
				8386	pr_debug("md: using %dk window, over a total of %lluk.\n",
				8387	window/2, (unsigned long long)max_sectors/2);
				8388
				8389	atomic_set(&mddev->recovery_active, 0);
				8390	last_check = 0;
				8391
				8392	if (j>2) {
				8393	pr_debug("md: resuming %s of %s from checkpoint.\n",
				8394	desc, mdname(mddev));
				8395	mddev->curr_resync = j;
				8396	} else
				8397	mddev->curr_resync = 3; /* no longer delayed */
				8398	mddev->curr_resync_completed = j;
				8399	sysfs_notify(&mddev->kobj, NULL, "sync_completed");
				8400	md_new_event(mddev);
				8401	update_time = jiffies;
				8402
				8403	blk_start_plug(&plug);
				8404	while (j < max_sectors) {
				8405	sector_t sectors;
				8406
				8407	skipped = 0;
				8408
				8409	if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
				8410	((mddev->curr_resync > mddev->curr_resync_completed &&
				8411	(mddev->curr_resync - mddev->curr_resync_completed)
				8412	> (max_sectors >> 4)) \|\|
				8413	time_after_eq(jiffies, update_time + UPDATE_FREQUENCY) \|\|
				8414	(j - mddev->curr_resync_completed)*2
				8415	>= mddev->resync_max - mddev->curr_resync_completed \|\|
				8416	mddev->curr_resync_completed > mddev->resync_max
				8417	)) {
				8418	/* time to update curr_resync_completed */
				8419	wait_event(mddev->recovery_wait,
				8420	atomic_read(&mddev->recovery_active) == 0);
				8421	mddev->curr_resync_completed = j;
				8422	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) &&
				8423	j > mddev->recovery_cp)
				8424	mddev->recovery_cp = j;
				8425	update_time = jiffies;
				8426	set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
				8427	sysfs_notify(&mddev->kobj, NULL, "sync_completed");
				8428	}
				8429
				8430	while (j >= mddev->resync_max &&
				8431	!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
				8432	/* As this condition is controlled by user-space,
				8433	* we can block indefinitely, so use '_interruptible'
				8434	* to avoid triggering warnings.
				8435	*/
				8436	flush_signals(current); /* just in case */
				8437	wait_event_interruptible(mddev->recovery_wait,
				8438	mddev->resync_max > j
				8439	\|\| test_bit(MD_RECOVERY_INTR,
				8440	&mddev->recovery));
				8441	}
				8442
				8443	if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
				8444	break;
				8445
				8446	sectors = mddev->pers->sync_request(mddev, j, &skipped);
				8447	if (sectors == 0) {
				8448	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				8449	break;
				8450	}
				8451
				8452	if (!skipped) { /* actual IO requested */
				8453	io_sectors += sectors;
				8454	atomic_add(sectors, &mddev->recovery_active);
				8455	}
				8456
				8457	if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
				8458	break;
				8459
				8460	j += sectors;
				8461	if (j > max_sectors)
				8462	/* when skipping, extra large numbers can be returned. */
				8463	j = max_sectors;
				8464	if (j > 2)
				8465	mddev->curr_resync = j;
				8466	mddev->curr_mark_cnt = io_sectors;
				8467	if (last_check == 0)
				8468	/* this is the earliest that rebuild will be
				8469	* visible in /proc/mdstat
				8470	*/
				8471	md_new_event(mddev);
				8472
				8473	if (last_check + window > io_sectors \|\| j == max_sectors)
				8474	continue;
				8475
				8476	last_check = io_sectors;
				8477	repeat:
				8478	if (time_after_eq(jiffies, mark[last_mark] + SYNC_MARK_STEP )) {
				8479	/* step marks */
				8480	int next = (last_mark+1) % SYNC_MARKS;
				8481
				8482	mddev->resync_mark = mark[next];
				8483	mddev->resync_mark_cnt = mark_cnt[next];
				8484	mark[next] = jiffies;
				8485	mark_cnt[next] = io_sectors - atomic_read(&mddev->recovery_active);
				8486	last_mark = next;
				8487	}
				8488
				8489	if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
				8490	break;
				8491
				8492	/*
				8493	* this loop exits only if either when we are slower than
				8494	* the 'hard' speed limit, or the system was IO-idle for
				8495	* a jiffy.
				8496	* the system might be non-idle CPU-wise, but we only care
				8497	* about not overloading the IO subsystem. (things like an
				8498	* e2fsck being done on the RAID array should execute fast)
				8499	*/
				8500	cond_resched();
				8501
				8502	recovery_done = io_sectors - atomic_read(&mddev->recovery_active);
				8503	currspeed = ((unsigned long)(recovery_done - mddev->resync_mark_cnt))/2
				8504	/((jiffies-mddev->resync_mark)/HZ +1) +1;
				8505
				8506	if (currspeed > speed_min(mddev)) {
				8507	if (currspeed > speed_max(mddev)) {
				8508	msleep(500);
				8509	goto repeat;
				8510	}
				8511	if (!is_mddev_idle(mddev, 0)) {
				8512	/*
				8513	* Give other IO more of a chance.
				8514	* The faster the devices, the less we wait.
				8515	*/
				8516	wait_event(mddev->recovery_wait,
				8517	!atomic_read(&mddev->recovery_active));
				8518	}
				8519	}
				8520	}
				8521	pr_info("md: %s: %s %s.\n",mdname(mddev), desc,
				8522	test_bit(MD_RECOVERY_INTR, &mddev->recovery)
				8523	? "interrupted" : "done");
				8524	/*
				8525	* this also signals 'finished resyncing' to md_stop
				8526	*/
				8527	blk_finish_plug(&plug);
				8528	wait_event(mddev->recovery_wait, !atomic_read(&mddev->recovery_active));
				8529
				8530	if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
				8531	!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
				8532	mddev->curr_resync > 3) {
				8533	mddev->curr_resync_completed = mddev->curr_resync;
				8534	sysfs_notify(&mddev->kobj, NULL, "sync_completed");
				8535	}
				8536	mddev->pers->sync_request(mddev, max_sectors, &skipped);
				8537
				8538	if (!test_bit(MD_RECOVERY_CHECK, &mddev->recovery) &&
				8539	mddev->curr_resync > 3) {
				8540	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
				8541	if (test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
				8542	if (mddev->curr_resync >= mddev->recovery_cp) {
				8543	pr_debug("md: checkpointing %s of %s.\n",
				8544	desc, mdname(mddev));
				8545	if (test_bit(MD_RECOVERY_ERROR,
				8546	&mddev->recovery))
				8547	mddev->recovery_cp =
				8548	mddev->curr_resync_completed;
				8549	else
				8550	mddev->recovery_cp =
				8551	mddev->curr_resync;
				8552	}
				8553	} else
				8554	mddev->recovery_cp = MaxSector;
				8555	} else {
				8556	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery))
				8557	mddev->curr_resync = MaxSector;
				8558	rcu_read_lock();
				8559	rdev_for_each_rcu(rdev, mddev)
				8560	if (rdev->raid_disk >= 0 &&
				8561	mddev->delta_disks >= 0 &&
				8562	!test_bit(Journal, &rdev->flags) &&
				8563	!test_bit(Faulty, &rdev->flags) &&
				8564	!test_bit(In_sync, &rdev->flags) &&
				8565	rdev->recovery_offset < mddev->curr_resync)
				8566	rdev->recovery_offset = mddev->curr_resync;
				8567	rcu_read_unlock();
				8568	}
				8569	}
				8570	skip:
				8571	/* set CHANGE_PENDING here since maybe another update is needed,
				8572	* so other nodes are informed. It should be harmless for normal
				8573	* raid */
				8574	set_mask_bits(&mddev->sb_flags, 0,
				8575	BIT(MD_SB_CHANGE_PENDING) \| BIT(MD_SB_CHANGE_DEVS));
				8576
				8577	if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
				8578	!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
				8579	mddev->delta_disks > 0 &&
				8580	mddev->pers->finish_reshape &&
				8581	mddev->pers->size &&
				8582	mddev->queue) {
				8583	mddev_lock_nointr(mddev);
				8584	md_set_array_sectors(mddev, mddev->pers->size(mddev, 0, 0));
				8585	mddev_unlock(mddev);
				8586	set_capacity(mddev->gendisk, mddev->array_sectors);
				8587	revalidate_disk(mddev->gendisk);
				8588	}
				8589
				8590	spin_lock(&mddev->lock);
				8591	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
				8592	/* We completed so min/max setting can be forgotten if used. */
				8593	if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
				8594	mddev->resync_min = 0;
				8595	mddev->resync_max = MaxSector;
				8596	} else if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
				8597	mddev->resync_min = mddev->curr_resync_completed;
				8598	set_bit(MD_RECOVERY_DONE, &mddev->recovery);
				8599	mddev->curr_resync = 0;
				8600	spin_unlock(&mddev->lock);
				8601
				8602	wake_up(&resync_wait);
				8603	md_wakeup_thread(mddev->thread);
				8604	return;
				8605	}
				8606	EXPORT_SYMBOL_GPL(md_do_sync);
				8607
				8608	static int remove_and_add_spares(struct mddev *mddev,
				8609	struct md_rdev *this)
				8610	{
				8611	struct md_rdev *rdev;
				8612	int spares = 0;
				8613	int removed = 0;
				8614	bool remove_some = false;
				8615
				8616	if (this && test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
				8617	/* Mustn't remove devices when resync thread is running */
				8618	return 0;
				8619
				8620	rdev_for_each(rdev, mddev) {
				8621	if ((this == NULL \|\| rdev == this) &&
				8622	rdev->raid_disk >= 0 &&
				8623	!test_bit(Blocked, &rdev->flags) &&
				8624	test_bit(Faulty, &rdev->flags) &&
				8625	atomic_read(&rdev->nr_pending)==0) {
				8626	/* Faulty non-Blocked devices with nr_pending == 0
				8627	* never get nr_pending incremented,
				8628	* never get Faulty cleared, and never get Blocked set.
				8629	* So we can synchronize_rcu now rather than once per device
				8630	*/
				8631	remove_some = true;
				8632	set_bit(RemoveSynchronized, &rdev->flags);
				8633	}
				8634	}
				8635
				8636	if (remove_some)
				8637	synchronize_rcu();
				8638	rdev_for_each(rdev, mddev) {
				8639	if ((this == NULL \|\| rdev == this) &&
				8640	rdev->raid_disk >= 0 &&
				8641	!test_bit(Blocked, &rdev->flags) &&
				8642	((test_bit(RemoveSynchronized, &rdev->flags) \|\|
				8643	(!test_bit(In_sync, &rdev->flags) &&
				8644	!test_bit(Journal, &rdev->flags))) &&
				8645	atomic_read(&rdev->nr_pending)==0)) {
				8646	if (mddev->pers->hot_remove_disk(
				8647	mddev, rdev) == 0) {
				8648	sysfs_unlink_rdev(mddev, rdev);
				8649	rdev->saved_raid_disk = rdev->raid_disk;
				8650	rdev->raid_disk = -1;
				8651	removed++;
				8652	}
				8653	}
				8654	if (remove_some && test_bit(RemoveSynchronized, &rdev->flags))
				8655	clear_bit(RemoveSynchronized, &rdev->flags);
				8656	}
				8657
				8658	if (removed && mddev->kobj.sd)
				8659	sysfs_notify(&mddev->kobj, NULL, "degraded");
				8660
				8661	if (this && removed)
				8662	goto no_add;
				8663
				8664	rdev_for_each(rdev, mddev) {
				8665	if (this && this != rdev)
				8666	continue;
				8667	if (test_bit(Candidate, &rdev->flags))
				8668	continue;
				8669	if (rdev->raid_disk >= 0 &&
				8670	!test_bit(In_sync, &rdev->flags) &&
				8671	!test_bit(Journal, &rdev->flags) &&
				8672	!test_bit(Faulty, &rdev->flags))
				8673	spares++;
				8674	if (rdev->raid_disk >= 0)
				8675	continue;
				8676	if (test_bit(Faulty, &rdev->flags))
				8677	continue;
				8678	if (!test_bit(Journal, &rdev->flags)) {
				8679	if (mddev->ro &&
				8680	! (rdev->saved_raid_disk >= 0 &&
				8681	!test_bit(Bitmap_sync, &rdev->flags)))
				8682	continue;
				8683
				8684	rdev->recovery_offset = 0;
				8685	}
				8686	if (mddev->pers->
				8687	hot_add_disk(mddev, rdev) == 0) {
				8688	if (sysfs_link_rdev(mddev, rdev))
				8689	/* failure here is OK */;
				8690	if (!test_bit(Journal, &rdev->flags))
				8691	spares++;
				8692	md_new_event(mddev);
				8693	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				8694	}
				8695	}
				8696	no_add:
				8697	if (removed)
				8698	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				8699	return spares;
				8700	}
				8701
				8702	static void md_start_sync(struct work_struct *ws)
				8703	{
				8704	struct mddev *mddev = container_of(ws, struct mddev, del_work);
				8705
				8706	mddev->sync_thread = md_register_thread(md_do_sync,
				8707	mddev,
				8708	"resync");
				8709	if (!mddev->sync_thread) {
				8710	pr_warn("%s: could not start resync thread...\n",
				8711	mdname(mddev));
				8712	/* leave the spares where they are, it shouldn't hurt */
				8713	clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
				8714	clear_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
				8715	clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
				8716	clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
				8717	clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
				8718	wake_up(&resync_wait);
				8719	if (test_and_clear_bit(MD_RECOVERY_RECOVER,
				8720	&mddev->recovery))
				8721	if (mddev->sysfs_action)
				8722	sysfs_notify_dirent_safe(mddev->sysfs_action);
				8723	} else
				8724	md_wakeup_thread(mddev->sync_thread);
				8725	sysfs_notify_dirent_safe(mddev->sysfs_action);
				8726	md_new_event(mddev);
				8727	}
				8728
				8729	/*
				8730	* This routine is regularly called by all per-raid-array threads to
				8731	* deal with generic issues like resync and super-block update.
				8732	* Raid personalities that don't have a thread (linear/raid0) do not
				8733	* need this as they never do any recovery or update the superblock.
				8734	*
				8735	* It does not do any resync itself, but rather "forks" off other threads
				8736	* to do that as needed.
				8737	* When it is determined that resync is needed, we set MD_RECOVERY_RUNNING in
				8738	* "->recovery" and create a thread at ->sync_thread.
				8739	* When the thread finishes it sets MD_RECOVERY_DONE
				8740	* and wakeups up this thread which will reap the thread and finish up.
				8741	* This thread also removes any faulty devices (with nr_pending == 0).
				8742	*
				8743	* The overall approach is:
				8744	* 1/ if the superblock needs updating, update it.
				8745	* 2/ If a recovery thread is running, don't do anything else.
				8746	* 3/ If recovery has finished, clean up, possibly marking spares active.
				8747	* 4/ If there are any faulty devices, remove them.
				8748	* 5/ If array is degraded, try to add spares devices
				8749	* 6/ If array has spares or is not in-sync, start a resync thread.
				8750	*/
				8751	void md_check_recovery(struct mddev *mddev)
				8752	{
				8753	if (test_bit(MD_ALLOW_SB_UPDATE, &mddev->flags) && mddev->sb_flags) {
				8754	/* Write superblock - thread that called mddev_suspend()
				8755	* holds reconfig_mutex for us.
				8756	*/
				8757	set_bit(MD_UPDATING_SB, &mddev->flags);
				8758	smp_mb__after_atomic();
				8759	if (test_bit(MD_ALLOW_SB_UPDATE, &mddev->flags))
				8760	md_update_sb(mddev, 0);
				8761	clear_bit_unlock(MD_UPDATING_SB, &mddev->flags);
				8762	wake_up(&mddev->sb_wait);
				8763	}
				8764
				8765	if (mddev->suspended)
				8766	return;
				8767
				8768	if (mddev->bitmap)
				8769	bitmap_daemon_work(mddev);
				8770
				8771	if (signal_pending(current)) {
				8772	if (mddev->pers->sync_request && !mddev->external) {
				8773	pr_debug("md: %s in immediate safe mode\n",
				8774	mdname(mddev));
				8775	mddev->safemode = 2;
				8776	}
				8777	flush_signals(current);
				8778	}
				8779
				8780	if (mddev->ro && !test_bit(MD_RECOVERY_NEEDED, &mddev->recovery))
				8781	return;
				8782	if ( ! (
				8783	(mddev->sb_flags & ~ (1<<MD_SB_CHANGE_PENDING)) \|\|
				8784	test_bit(MD_RECOVERY_NEEDED, &mddev->recovery) \|\|
				8785	test_bit(MD_RECOVERY_DONE, &mddev->recovery) \|\|
				8786	(mddev->external == 0 && mddev->safemode == 1) \|\|
				8787	(mddev->safemode == 2
				8788	&& !mddev->in_sync && mddev->recovery_cp == MaxSector)
				8789	))
				8790	return;
				8791
				8792	if (mddev_trylock(mddev)) {
				8793	int spares = 0;
				8794	bool try_set_sync = mddev->safemode != 0;
				8795
				8796	if (!mddev->external && mddev->safemode == 1)
				8797	mddev->safemode = 0;
				8798
				8799	if (mddev->ro) {
				8800	struct md_rdev *rdev;
				8801	if (!mddev->external && mddev->in_sync)
				8802	/* 'Blocked' flag not needed as failed devices
				8803	* will be recorded if array switched to read/write.
				8804	* Leaving it set will prevent the device
				8805	* from being removed.
				8806	*/
				8807	rdev_for_each(rdev, mddev)
				8808	clear_bit(Blocked, &rdev->flags);
				8809	/* On a read-only array we can:
				8810	* - remove failed devices
				8811	* - add already-in_sync devices if the array itself
				8812	* is in-sync.
				8813	* As we only add devices that are already in-sync,
				8814	* we can activate the spares immediately.
				8815	*/
				8816	remove_and_add_spares(mddev, NULL);
				8817	/* There is no thread, but we need to call
				8818	* ->spare_active and clear saved_raid_disk
				8819	*/
				8820	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
				8821	md_reap_sync_thread(mddev);
				8822	clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				8823	clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				8824	clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
				8825	goto unlock;
				8826	}
				8827
				8828	if (mddev_is_clustered(mddev)) {
				8829	struct md_rdev *rdev;
				8830	/* kick the device if another node issued a
				8831	* remove disk.
				8832	*/
				8833	rdev_for_each(rdev, mddev) {
				8834	if (test_and_clear_bit(ClusterRemove, &rdev->flags) &&
				8835	rdev->raid_disk < 0)
				8836	md_kick_rdev_from_array(rdev);
				8837	}
				8838	}
				8839
				8840	if (try_set_sync && !mddev->external && !mddev->in_sync) {
				8841	spin_lock(&mddev->lock);
				8842	set_in_sync(mddev);
				8843	spin_unlock(&mddev->lock);
				8844	}
				8845
				8846	if (mddev->sb_flags)
				8847	md_update_sb(mddev, 0);
				8848
				8849	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) &&
				8850	!test_bit(MD_RECOVERY_DONE, &mddev->recovery)) {
				8851	/* resync/recovery still happening */
				8852	clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				8853	goto unlock;
				8854	}
				8855	if (mddev->sync_thread) {
				8856	md_reap_sync_thread(mddev);
				8857	goto unlock;
				8858	}
				8859	/* Set RUNNING before clearing NEEDED to avoid
				8860	* any transients in the value of "sync_action".
				8861	*/
				8862	mddev->curr_resync_completed = 0;
				8863	spin_lock(&mddev->lock);
				8864	set_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
				8865	spin_unlock(&mddev->lock);
				8866	/* Clear some bits that don't mean anything, but
				8867	* might be left set
				8868	*/
				8869	clear_bit(MD_RECOVERY_INTR, &mddev->recovery);
				8870	clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
				8871
				8872	if (!test_and_clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery) \|\|
				8873	test_bit(MD_RECOVERY_FROZEN, &mddev->recovery))
				8874	goto not_running;
				8875	/* no recovery is running.
				8876	* remove any failed drives, then
				8877	* add spares if possible.
				8878	* Spares are also removed and re-added, to allow
				8879	* the personality to fail the re-add.
				8880	*/
				8881
				8882	if (mddev->reshape_position != MaxSector) {
				8883	if (mddev->pers->check_reshape == NULL \|\|
				8884	mddev->pers->check_reshape(mddev) != 0)
				8885	/* Cannot proceed */
				8886	goto not_running;
				8887	set_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
				8888	clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				8889	} else if ((spares = remove_and_add_spares(mddev, NULL))) {
				8890	clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
				8891	clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
				8892	clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
				8893	set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				8894	} else if (mddev->recovery_cp < MaxSector) {
				8895	set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
				8896	clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
				8897	} else if (!test_bit(MD_RECOVERY_SYNC, &mddev->recovery))
				8898	/* nothing to be done ... */
				8899	goto not_running;
				8900
				8901	if (mddev->pers->sync_request) {
				8902	if (spares) {
				8903	/* We are adding a device or devices to an array
				8904	* which has the bitmap stored on all devices.
				8905	* So make sure all bitmap pages get written
				8906	*/
				8907	bitmap_write_all(mddev->bitmap);
				8908	}
				8909	INIT_WORK(&mddev->del_work, md_start_sync);
				8910	queue_work(md_misc_wq, &mddev->del_work);
				8911	goto unlock;
				8912	}
				8913	not_running:
				8914	if (!mddev->sync_thread) {
				8915	clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
				8916	wake_up(&resync_wait);
				8917	if (test_and_clear_bit(MD_RECOVERY_RECOVER,
				8918	&mddev->recovery))
				8919	if (mddev->sysfs_action)
				8920	sysfs_notify_dirent_safe(mddev->sysfs_action);
				8921	}
				8922	unlock:
				8923	wake_up(&mddev->sb_wait);
				8924	mddev_unlock(mddev);
				8925	}
				8926	}
				8927	EXPORT_SYMBOL(md_check_recovery);
				8928
				8929	void md_reap_sync_thread(struct mddev *mddev)
				8930	{
				8931	struct md_rdev *rdev;
				8932
				8933	/* resync has finished, collect result */
				8934	md_unregister_thread(&mddev->sync_thread);
				8935	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
				8936	!test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery) &&
				8937	mddev->degraded != mddev->raid_disks) {
				8938	/* success...*/
				8939	/* activate any spares */
				8940	if (mddev->pers->spare_active(mddev)) {
				8941	sysfs_notify(&mddev->kobj, NULL,
				8942	"degraded");
				8943	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
				8944	}
				8945	}
				8946	if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
				8947	mddev->pers->finish_reshape)
				8948	mddev->pers->finish_reshape(mddev);
				8949
				8950	/* If array is no-longer degraded, then any saved_raid_disk
				8951	* information must be scrapped.
				8952	*/
				8953	if (!mddev->degraded)
				8954	rdev_for_each(rdev, mddev)
				8955	rdev->saved_raid_disk = -1;
				8956
				8957	md_update_sb(mddev, 1);
				8958	/* MD_SB_CHANGE_PENDING should be cleared by md_update_sb, so we can
				8959	* call resync_finish here if MD_CLUSTER_RESYNC_LOCKED is set by
				8960	* clustered raid */
				8961	if (test_and_clear_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags))
				8962	md_cluster_ops->resync_finish(mddev);
				8963	clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
				8964	clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
				8965	clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
				8966	clear_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
				8967	clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
				8968	clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
				8969	wake_up(&resync_wait);
				8970	/* flag recovery needed just to double check */
				8971	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				8972	sysfs_notify_dirent_safe(mddev->sysfs_action);
				8973	md_new_event(mddev);
				8974	if (mddev->event_work.func)
				8975	queue_work(md_misc_wq, &mddev->event_work);
				8976	}
				8977	EXPORT_SYMBOL(md_reap_sync_thread);
				8978
				8979	void md_wait_for_blocked_rdev(struct md_rdev rdev, struct mddev mddev)
				8980	{
				8981	sysfs_notify_dirent_safe(rdev->sysfs_state);
				8982	wait_event_timeout(rdev->blocked_wait,
				8983	!test_bit(Blocked, &rdev->flags) &&
				8984	!test_bit(BlockedBadBlocks, &rdev->flags),
				8985	msecs_to_jiffies(5000));
				8986	rdev_dec_pending(rdev, mddev);
				8987	}
				8988	EXPORT_SYMBOL(md_wait_for_blocked_rdev);
				8989
				8990	void md_finish_reshape(struct mddev *mddev)
				8991	{
				8992	/* called be personality module when reshape completes. */
				8993	struct md_rdev *rdev;
				8994
				8995	rdev_for_each(rdev, mddev) {
				8996	if (rdev->data_offset > rdev->new_data_offset)
				8997	rdev->sectors += rdev->data_offset - rdev->new_data_offset;
				8998	else
				8999	rdev->sectors -= rdev->new_data_offset - rdev->data_offset;
				9000	rdev->data_offset = rdev->new_data_offset;
				9001	}
				9002	}
				9003	EXPORT_SYMBOL(md_finish_reshape);
				9004
				9005	/* Bad block management */
				9006
				9007	/* Returns 1 on success, 0 on failure */
				9008	int rdev_set_badblocks(struct md_rdev *rdev, sector_t s, int sectors,
				9009	int is_new)
				9010	{
				9011	struct mddev *mddev = rdev->mddev;
				9012	int rv;
				9013	if (is_new)
				9014	s += rdev->new_data_offset;
				9015	else
				9016	s += rdev->data_offset;
				9017	rv = badblocks_set(&rdev->badblocks, s, sectors, 0);
				9018	if (rv == 0) {
				9019	/* Make sure they get written out promptly */
				9020	if (test_bit(ExternalBbl, &rdev->flags))
				9021	sysfs_notify(&rdev->kobj, NULL,
				9022	"unacknowledged_bad_blocks");
				9023	sysfs_notify_dirent_safe(rdev->sysfs_state);
				9024	set_mask_bits(&mddev->sb_flags, 0,
				9025	BIT(MD_SB_CHANGE_CLEAN) \| BIT(MD_SB_CHANGE_PENDING));
				9026	md_wakeup_thread(rdev->mddev->thread);
				9027	return 1;
				9028	} else
				9029	return 0;
				9030	}
				9031	EXPORT_SYMBOL_GPL(rdev_set_badblocks);
				9032
				9033	int rdev_clear_badblocks(struct md_rdev *rdev, sector_t s, int sectors,
				9034	int is_new)
				9035	{
				9036	int rv;
				9037	if (is_new)
				9038	s += rdev->new_data_offset;
				9039	else
				9040	s += rdev->data_offset;
				9041	rv = badblocks_clear(&rdev->badblocks, s, sectors);
				9042	if ((rv == 0) && test_bit(ExternalBbl, &rdev->flags))
				9043	sysfs_notify(&rdev->kobj, NULL, "bad_blocks");
				9044	return rv;
				9045	}
				9046	EXPORT_SYMBOL_GPL(rdev_clear_badblocks);
				9047
				9048	static int md_notify_reboot(struct notifier_block *this,
				9049	unsigned long code, void *x)
				9050	{
				9051	struct list_head *tmp;
				9052	struct mddev *mddev;
				9053	int need_delay = 0;
				9054
				9055	for_each_mddev(mddev, tmp) {
				9056	if (mddev_trylock(mddev)) {
				9057	if (mddev->pers)
				9058	__md_stop_writes(mddev);
				9059	if (mddev->persistent)
				9060	mddev->safemode = 2;
				9061	mddev_unlock(mddev);
				9062	}
				9063	need_delay = 1;
				9064	}
				9065	/*
				9066	* certain more exotic SCSI devices are known to be
				9067	* volatile wrt too early system reboots. While the
				9068	* right place to handle this issue is the given
				9069	* driver, we do want to have a safe RAID driver ...
				9070	*/
				9071	if (need_delay)
				9072	mdelay(1000*1);
				9073
				9074	return NOTIFY_DONE;
				9075	}
				9076
				9077	static struct notifier_block md_notifier = {
				9078	.notifier_call = md_notify_reboot,
				9079	.next = NULL,
				9080	.priority = INT_MAX, /* before any real devices */
				9081	};
				9082
				9083	static void md_geninit(void)
				9084	{
				9085	pr_debug("md: sizeof(mdp_super_t) = %d\n", (int)sizeof(mdp_super_t));
				9086
				9087	proc_create("mdstat", S_IRUGO, NULL, &md_seq_fops);
				9088	}
				9089
				9090	static int __init md_init(void)
				9091	{
				9092	int ret = -ENOMEM;
				9093
				9094	md_wq = alloc_workqueue("md", WQ_MEM_RECLAIM, 0);
				9095	if (!md_wq)
				9096	goto err_wq;
				9097
				9098	md_misc_wq = alloc_workqueue("md_misc", 0, 0);
				9099	if (!md_misc_wq)
				9100	goto err_misc_wq;
				9101
				9102	if ((ret = register_blkdev(MD_MAJOR, "md")) < 0)
				9103	goto err_md;
				9104
				9105	if ((ret = register_blkdev(0, "mdp")) < 0)
				9106	goto err_mdp;
				9107	mdp_major = ret;
				9108
				9109	blk_register_region(MKDEV(MD_MAJOR, 0), 512, THIS_MODULE,
				9110	md_probe, NULL, NULL);
				9111	blk_register_region(MKDEV(mdp_major, 0), 1UL<<MINORBITS, THIS_MODULE,
				9112	md_probe, NULL, NULL);
				9113
				9114	register_reboot_notifier(&md_notifier);
				9115	raid_table_header = register_sysctl_table(raid_root_table);
				9116
				9117	md_geninit();
				9118	return 0;
				9119
				9120	err_mdp:
				9121	unregister_blkdev(MD_MAJOR, "md");
				9122	err_md:
				9123	destroy_workqueue(md_misc_wq);
				9124	err_misc_wq:
				9125	destroy_workqueue(md_wq);
				9126	err_wq:
				9127	return ret;
				9128	}
				9129
				9130	static void check_sb_changes(struct mddev mddev, struct md_rdev rdev)
				9131	{
				9132	struct mdp_superblock_1 *sb = page_address(rdev->sb_page);
				9133	struct md_rdev *rdev2;
				9134	int role, ret;
				9135	char b[BDEVNAME_SIZE];
				9136
				9137	/*
				9138	* If size is changed in another node then we need to
				9139	* do resize as well.
				9140	*/
				9141	if (mddev->dev_sectors != le64_to_cpu(sb->size)) {
				9142	ret = mddev->pers->resize(mddev, le64_to_cpu(sb->size));
				9143	if (ret)
				9144	pr_info("md-cluster: resize failed\n");
				9145	else
				9146	bitmap_update_sb(mddev->bitmap);
				9147	}
				9148
				9149	/* Check for change of roles in the active devices */
				9150	rdev_for_each(rdev2, mddev) {
				9151	if (test_bit(Faulty, &rdev2->flags))
				9152	continue;
				9153
				9154	/* Check if the roles changed */
				9155	role = le16_to_cpu(sb->dev_roles[rdev2->desc_nr]);
				9156
				9157	if (test_bit(Candidate, &rdev2->flags)) {
				9158	if (role == 0xfffe) {
				9159	pr_info("md: Removing Candidate device %s because add failed\n", bdevname(rdev2->bdev,b));
				9160	md_kick_rdev_from_array(rdev2);
				9161	continue;
				9162	}
				9163	else
				9164	clear_bit(Candidate, &rdev2->flags);
				9165	}
				9166
				9167	if (role != rdev2->raid_disk) {
				9168	/* got activated */
				9169	if (rdev2->raid_disk == -1 && role != 0xffff) {
				9170	rdev2->saved_raid_disk = role;
				9171	ret = remove_and_add_spares(mddev, rdev2);
				9172	pr_info("Activated spare: %s\n",
				9173	bdevname(rdev2->bdev,b));
				9174	/* wakeup mddev->thread here, so array could
				9175	* perform resync with the new activated disk */
				9176	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
				9177	md_wakeup_thread(mddev->thread);
				9178
				9179	}
				9180	/* device faulty
				9181	* We just want to do the minimum to mark the disk
				9182	* as faulty. The recovery is performed by the
				9183	* one who initiated the error.
				9184	*/
				9185	if ((role == 0xfffe) \|\| (role == 0xfffd)) {
				9186	md_error(mddev, rdev2);
				9187	clear_bit(Blocked, &rdev2->flags);
				9188	}
				9189	}
				9190	}
				9191
				9192	if (mddev->raid_disks != le32_to_cpu(sb->raid_disks))
				9193	update_raid_disks(mddev, le32_to_cpu(sb->raid_disks));
				9194
				9195	/* Finally set the event to be up to date */
				9196	mddev->events = le64_to_cpu(sb->events);
				9197	}
				9198
				9199	static int read_rdev(struct mddev mddev, struct md_rdev rdev)
				9200	{
				9201	int err;
				9202	struct page *swapout = rdev->sb_page;
				9203	struct mdp_superblock_1 *sb;
				9204
				9205	/* Store the sb page of the rdev in the swapout temporary
				9206	* variable in case we err in the future
				9207	*/
				9208	rdev->sb_page = NULL;
				9209	err = alloc_disk_sb(rdev);
				9210	if (err == 0) {
				9211	ClearPageUptodate(rdev->sb_page);
				9212	rdev->sb_loaded = 0;
				9213	err = super_types[mddev->major_version].
				9214	load_super(rdev, NULL, mddev->minor_version);
				9215	}
				9216	if (err < 0) {
				9217	pr_warn("%s: %d Could not reload rdev(%d) err: %d. Restoring old values\n",
				9218	__func__, __LINE__, rdev->desc_nr, err);
				9219	if (rdev->sb_page)
				9220	put_page(rdev->sb_page);
				9221	rdev->sb_page = swapout;
				9222	rdev->sb_loaded = 1;
				9223	return err;
				9224	}
				9225
				9226	sb = page_address(rdev->sb_page);
				9227	/* Read the offset unconditionally, even if MD_FEATURE_RECOVERY_OFFSET
				9228	* is not set
				9229	*/
				9230
				9231	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RECOVERY_OFFSET))
				9232	rdev->recovery_offset = le64_to_cpu(sb->recovery_offset);
				9233
				9234	/* The other node finished recovery, call spare_active to set
				9235	* device In_sync and mddev->degraded
				9236	*/
				9237	if (rdev->recovery_offset == MaxSector &&
				9238	!test_bit(In_sync, &rdev->flags) &&
				9239	mddev->pers->spare_active(mddev))
				9240	sysfs_notify(&mddev->kobj, NULL, "degraded");
				9241
				9242	put_page(swapout);
				9243	return 0;
				9244	}
				9245
				9246	void md_reload_sb(struct mddev *mddev, int nr)
				9247	{
				9248	struct md_rdev *rdev;
				9249	int err;
				9250
				9251	/* Find the rdev */
				9252	rdev_for_each_rcu(rdev, mddev) {
				9253	if (rdev->desc_nr == nr)
				9254	break;
				9255	}
				9256
				9257	if (!rdev \|\| rdev->desc_nr != nr) {
				9258	pr_warn("%s: %d Could not find rdev with nr %d\n", __func__, __LINE__, nr);
				9259	return;
				9260	}
				9261
				9262	err = read_rdev(mddev, rdev);
				9263	if (err < 0)
				9264	return;
				9265
				9266	check_sb_changes(mddev, rdev);
				9267
				9268	/* Read all rdev's to update recovery_offset */
				9269	rdev_for_each_rcu(rdev, mddev)
				9270	read_rdev(mddev, rdev);
				9271	}
				9272	EXPORT_SYMBOL(md_reload_sb);
				9273
				9274	#ifndef MODULE
				9275
				9276	/*
				9277	* Searches all registered partitions for autorun RAID arrays
				9278	* at boot time.
				9279	*/
				9280
				9281	static DEFINE_MUTEX(detected_devices_mutex);
				9282	static LIST_HEAD(all_detected_devices);
				9283	struct detected_devices_node {
				9284	struct list_head list;
				9285	dev_t dev;
				9286	};
				9287
				9288	void md_autodetect_dev(dev_t dev)
				9289	{
				9290	struct detected_devices_node *node_detected_dev;
				9291
				9292	node_detected_dev = kzalloc(sizeof(*node_detected_dev), GFP_KERNEL);
				9293	if (node_detected_dev) {
				9294	node_detected_dev->dev = dev;
				9295	mutex_lock(&detected_devices_mutex);
				9296	list_add_tail(&node_detected_dev->list, &all_detected_devices);
				9297	mutex_unlock(&detected_devices_mutex);
				9298	}
				9299	}
				9300
				9301	static void autostart_arrays(int part)
				9302	{
				9303	struct md_rdev *rdev;
				9304	struct detected_devices_node *node_detected_dev;
				9305	dev_t dev;
				9306	int i_scanned, i_passed;
				9307
				9308	i_scanned = 0;
				9309	i_passed = 0;
				9310
				9311	pr_info("md: Autodetecting RAID arrays.\n");
				9312
				9313	mutex_lock(&detected_devices_mutex);
				9314	while (!list_empty(&all_detected_devices) && i_scanned < INT_MAX) {
				9315	i_scanned++;
				9316	node_detected_dev = list_entry(all_detected_devices.next,
				9317	struct detected_devices_node, list);
				9318	list_del(&node_detected_dev->list);
				9319	dev = node_detected_dev->dev;
				9320	kfree(node_detected_dev);
				9321	mutex_unlock(&detected_devices_mutex);
				9322	rdev = md_import_device(dev,0, 90);
				9323	mutex_lock(&detected_devices_mutex);
				9324	if (IS_ERR(rdev))
				9325	continue;
				9326
				9327	if (test_bit(Faulty, &rdev->flags))
				9328	continue;
				9329
				9330	set_bit(AutoDetected, &rdev->flags);
				9331	list_add(&rdev->same_set, &pending_raid_disks);
				9332	i_passed++;
				9333	}
				9334	mutex_unlock(&detected_devices_mutex);
				9335
				9336	pr_debug("md: Scanned %d and added %d devices.\n", i_scanned, i_passed);
				9337
				9338	autorun_devices(part);
				9339	}
				9340
				9341	#endif /* !MODULE */
				9342
				9343	static __exit void md_exit(void)
				9344	{
				9345	struct mddev *mddev;
				9346	struct list_head *tmp;
				9347	int delay = 1;
				9348
				9349	blk_unregister_region(MKDEV(MD_MAJOR,0), 512);
				9350	blk_unregister_region(MKDEV(mdp_major,0), 1U << MINORBITS);
				9351
				9352	unregister_blkdev(MD_MAJOR,"md");
				9353	unregister_blkdev(mdp_major, "mdp");
				9354	unregister_reboot_notifier(&md_notifier);
				9355	unregister_sysctl_table(raid_table_header);
				9356
				9357	/* We cannot unload the modules while some process is
				9358	* waiting for us in select() or poll() - wake them up
				9359	*/
				9360	md_unloading = 1;
				9361	while (waitqueue_active(&md_event_waiters)) {
				9362	/* not safe to leave yet */
				9363	wake_up(&md_event_waiters);
				9364	msleep(delay);
				9365	delay += delay;
				9366	}
				9367	remove_proc_entry("mdstat", NULL);
				9368
				9369	for_each_mddev(mddev, tmp) {
				9370	export_array(mddev);
				9371	mddev->ctime = 0;
				9372	mddev->hold_active = 0;
				9373	/*
				9374	* for_each_mddev() will call mddev_put() at the end of each
				9375	* iteration. As the mddev is now fully clear, this will
				9376	* schedule the mddev for destruction by a workqueue, and the
				9377	* destroy_workqueue() below will wait for that to complete.
				9378	*/
				9379	}
				9380	destroy_workqueue(md_misc_wq);
				9381	destroy_workqueue(md_wq);
				9382	}
				9383
				9384	subsys_initcall(md_init);
				9385	module_exit(md_exit)
				9386
				9387	static int get_ro(char buffer, const struct kernel_param kp)
				9388	{
				9389	return sprintf(buffer, "%d", start_readonly);
				9390	}
				9391	static int set_ro(const char val, const struct kernel_param kp)
				9392	{
				9393	return kstrtouint(val, 10, (unsigned int *)&start_readonly);
				9394	}
				9395
				9396	module_param_call(start_ro, set_ro, get_ro, NULL, S_IRUSR\|S_IWUSR);
				9397	module_param(start_dirty_degraded, int, S_IRUGO\|S_IWUSR);
				9398	module_param_call(new_array, add_named_array, NULL, NULL, S_IWUSR);
				9399	module_param(create_on_open, bool, S_IRUSR\|S_IWUSR);
				9400
				9401	MODULE_LICENSE("GPL");
				9402	MODULE_DESCRIPTION("MD RAID framework");
				9403	MODULE_ALIAS("md");
				9404	MODULE_ALIAS_BLOCKDEV_MAJOR(MD_MAJOR);