Blame - marvell/linux/fs/proc/task_mmu.c - T108

blob: 8ad504b53dfbb5c539a7288d4219df1aeb30f972 [file] [log] [blame]

b.liu	e958203	2025-04-17 19:18:16 +0800	[diff] [blame^]	1	// SPDX-License-Identifier: GPL-2.0
				2	#include <linux/pagewalk.h>
				3	#include <linux/vmacache.h>
				4	#include <linux/hugetlb.h>
				5	#include <linux/huge_mm.h>
				6	#include <linux/mount.h>
				7	#include <linux/seq_file.h>
				8	#include <linux/highmem.h>
				9	#include <linux/ptrace.h>
				10	#include <linux/slab.h>
				11	#include <linux/pagemap.h>
				12	#include <linux/mempolicy.h>
				13	#include <linux/rmap.h>
				14	#include <linux/swap.h>
				15	#include <linux/sched/mm.h>
				16	#include <linux/swapops.h>
				17	#include <linux/mmu_notifier.h>
				18	#include <linux/page_idle.h>
				19	#include <linux/shmem_fs.h>
				20	#include <linux/uaccess.h>
				21	#include <linux/pkeys.h>
				22
				23	#include <asm/elf.h>
				24	#include <asm/tlb.h>
				25	#include <asm/tlbflush.h>
				26	#include "internal.h"
				27
				28	#define SEQ_PUT_DEC(str, val) \
				29	seq_put_decimal_ull_width(m, str, (val) << (PAGE_SHIFT-10), 8)
				30	void task_mem(struct seq_file m, struct mm_struct mm)
				31	{
				32	unsigned long text, lib, swap, anon, file, shmem;
				33	unsigned long hiwater_vm, total_vm, hiwater_rss, total_rss;
				34
				35	anon = get_mm_counter(mm, MM_ANONPAGES);
				36	file = get_mm_counter(mm, MM_FILEPAGES);
				37	shmem = get_mm_counter(mm, MM_SHMEMPAGES);
				38
				39	/*
				40	* Note: to minimize their overhead, mm maintains hiwater_vm and
				41	* hiwater_rss only when about to lower total_vm or rss. Any
				42	* collector of these hiwater stats must therefore get total_vm
				43	* and rss too, which will usually be the higher. Barriers? not
				44	* worth the effort, such snapshots can always be inconsistent.
				45	*/
				46	hiwater_vm = total_vm = mm->total_vm;
				47	if (hiwater_vm < mm->hiwater_vm)
				48	hiwater_vm = mm->hiwater_vm;
				49	hiwater_rss = total_rss = anon + file + shmem;
				50	if (hiwater_rss < mm->hiwater_rss)
				51	hiwater_rss = mm->hiwater_rss;
				52
				53	/* split executable areas between text and lib */
				54	text = PAGE_ALIGN(mm->end_code) - (mm->start_code & PAGE_MASK);
				55	text = min(text, mm->exec_vm << PAGE_SHIFT);
				56	lib = (mm->exec_vm << PAGE_SHIFT) - text;
				57
				58	swap = get_mm_counter(mm, MM_SWAPENTS);
				59	SEQ_PUT_DEC("VmPeak:\t", hiwater_vm);
				60	SEQ_PUT_DEC(" kB\nVmSize:\t", total_vm);
				61	SEQ_PUT_DEC(" kB\nVmLck:\t", mm->locked_vm);
				62	SEQ_PUT_DEC(" kB\nVmPin:\t", atomic64_read(&mm->pinned_vm));
				63	SEQ_PUT_DEC(" kB\nVmHWM:\t", hiwater_rss);
				64	SEQ_PUT_DEC(" kB\nVmRSS:\t", total_rss);
				65	SEQ_PUT_DEC(" kB\nRssAnon:\t", anon);
				66	SEQ_PUT_DEC(" kB\nRssFile:\t", file);
				67	SEQ_PUT_DEC(" kB\nRssShmem:\t", shmem);
				68	SEQ_PUT_DEC(" kB\nVmData:\t", mm->data_vm);
				69	SEQ_PUT_DEC(" kB\nVmStk:\t", mm->stack_vm);
				70	seq_put_decimal_ull_width(m,
				71	" kB\nVmExe:\t", text >> 10, 8);
				72	seq_put_decimal_ull_width(m,
				73	" kB\nVmLib:\t", lib >> 10, 8);
				74	seq_put_decimal_ull_width(m,
				75	" kB\nVmPTE:\t", mm_pgtables_bytes(mm) >> 10, 8);
				76	SEQ_PUT_DEC(" kB\nVmSwap:\t", swap);
				77	seq_puts(m, " kB\n");
				78	hugetlb_report_usage(m, mm);
				79	}
				80	#undef SEQ_PUT_DEC
				81
				82	unsigned long task_vsize(struct mm_struct *mm)
				83	{
				84	return PAGE_SIZE * mm->total_vm;
				85	}
				86
				87	unsigned long task_statm(struct mm_struct *mm,
				88	unsigned long shared, unsigned long text,
				89	unsigned long data, unsigned long resident)
				90	{
				91	*shared = get_mm_counter(mm, MM_FILEPAGES) +
				92	get_mm_counter(mm, MM_SHMEMPAGES);
				93	*text = (PAGE_ALIGN(mm->end_code) - (mm->start_code & PAGE_MASK))
				94	>> PAGE_SHIFT;
				95	*data = mm->data_vm + mm->stack_vm;
				96	resident = shared + get_mm_counter(mm, MM_ANONPAGES);
				97	return mm->total_vm;
				98	}
				99
				100	#ifdef CONFIG_NUMA
				101	/*
				102	* Save get_task_policy() for show_numa_map().
				103	*/
				104	static void hold_task_mempolicy(struct proc_maps_private *priv)
				105	{
				106	struct task_struct *task = priv->task;
				107
				108	task_lock(task);
				109	priv->task_mempolicy = get_task_policy(task);
				110	mpol_get(priv->task_mempolicy);
				111	task_unlock(task);
				112	}
				113	static void release_task_mempolicy(struct proc_maps_private *priv)
				114	{
				115	mpol_put(priv->task_mempolicy);
				116	}
				117	#else
				118	static void hold_task_mempolicy(struct proc_maps_private *priv)
				119	{
				120	}
				121	static void release_task_mempolicy(struct proc_maps_private *priv)
				122	{
				123	}
				124	#endif
				125
				126	static void seq_print_vma_name(struct seq_file m, struct vm_area_struct vma)
				127	{
				128	const char __user *name = vma_get_anon_name(vma);
				129	struct mm_struct *mm = vma->vm_mm;
				130
				131	unsigned long page_start_vaddr;
				132	unsigned long page_offset;
				133	unsigned long num_pages;
				134	unsigned long max_len = NAME_MAX;
				135	int i;
				136
				137	page_start_vaddr = (unsigned long)name & PAGE_MASK;
				138	page_offset = (unsigned long)name - page_start_vaddr;
				139	num_pages = DIV_ROUND_UP(page_offset + max_len, PAGE_SIZE);
				140
				141	seq_puts(m, "[anon:");
				142
				143	for (i = 0; i < num_pages; i++) {
				144	int len;
				145	int write_len;
				146	const char *kaddr;
				147	long pages_pinned;
				148	struct page *page;
				149
				150	pages_pinned = get_user_pages_remote(current, mm,
				151	page_start_vaddr, 1, 0, &page, NULL, NULL);
				152	if (pages_pinned < 1) {
				153	seq_puts(m, "<fault>]");
				154	return;
				155	}
				156
				157	kaddr = (const char *)kmap(page);
				158	len = min(max_len, PAGE_SIZE - page_offset);
				159	write_len = strnlen(kaddr + page_offset, len);
				160	seq_write(m, kaddr + page_offset, write_len);
				161	kunmap(page);
				162	put_page(page);
				163
				164	/* if strnlen hit a null terminator then we're done */
				165	if (write_len != len)
				166	break;
				167
				168	max_len -= len;
				169	page_offset = 0;
				170	page_start_vaddr += PAGE_SIZE;
				171	}
				172
				173	seq_putc(m, ']');
				174	}
				175
				176	static void vma_stop(struct proc_maps_private *priv)
				177	{
				178	struct mm_struct *mm = priv->mm;
				179
				180	release_task_mempolicy(priv);
				181	up_read(&mm->mmap_sem);
				182	mmput(mm);
				183	}
				184
				185	static struct vm_area_struct *
				186	m_next_vma(struct proc_maps_private priv, struct vm_area_struct vma)
				187	{
				188	if (vma == priv->tail_vma)
				189	return NULL;
				190	return vma->vm_next ?: priv->tail_vma;
				191	}
				192
				193	static void m_cache_vma(struct seq_file m, struct vm_area_struct vma)
				194	{
				195	if (m->count < m->size) /* vma is copied successfully */
				196	m->version = m_next_vma(m->private, vma) ? vma->vm_end : -1UL;
				197	}
				198
				199	static void m_start(struct seq_file m, loff_t *ppos)
				200	{
				201	struct proc_maps_private *priv = m->private;
				202	unsigned long last_addr = m->version;
				203	struct mm_struct *mm;
				204	struct vm_area_struct *vma;
				205	unsigned int pos = *ppos;
				206
				207	/* See m_cache_vma(). Zero at the start or after lseek. */
				208	if (last_addr == -1UL)
				209	return NULL;
				210
				211	priv->task = get_proc_task(priv->inode);
				212	if (!priv->task)
				213	return ERR_PTR(-ESRCH);
				214
				215	mm = priv->mm;
				216	if (!mm \|\| !mmget_not_zero(mm))
				217	return NULL;
				218
				219	if (down_read_killable(&mm->mmap_sem)) {
				220	mmput(mm);
				221	return ERR_PTR(-EINTR);
				222	}
				223
				224	hold_task_mempolicy(priv);
				225	priv->tail_vma = get_gate_vma(mm);
				226
				227	if (last_addr) {
				228	vma = find_vma(mm, last_addr - 1);
				229	if (vma && vma->vm_start <= last_addr)
				230	vma = m_next_vma(priv, vma);
				231	if (vma)
				232	return vma;
				233	}
				234
				235	m->version = 0;
				236	if (pos < mm->map_count) {
				237	for (vma = mm->mmap; pos; pos--) {
				238	m->version = vma->vm_start;
				239	vma = vma->vm_next;
				240	}
				241	return vma;
				242	}
				243
				244	/* we do not bother to update m->version in this case */
				245	if (pos == mm->map_count && priv->tail_vma)
				246	return priv->tail_vma;
				247
				248	vma_stop(priv);
				249	return NULL;
				250	}
				251
				252	static void m_next(struct seq_file m, void v, loff_t pos)
				253	{
				254	struct proc_maps_private *priv = m->private;
				255	struct vm_area_struct *next;
				256
				257	(*pos)++;
				258	next = m_next_vma(priv, v);
				259	if (!next)
				260	vma_stop(priv);
				261	return next;
				262	}
				263
				264	static void m_stop(struct seq_file m, void v)
				265	{
				266	struct proc_maps_private *priv = m->private;
				267
				268	if (!IS_ERR_OR_NULL(v))
				269	vma_stop(priv);
				270	if (priv->task) {
				271	put_task_struct(priv->task);
				272	priv->task = NULL;
				273	}
				274	}
				275
				276	static int proc_maps_open(struct inode inode, struct file file,
				277	const struct seq_operations *ops, int psize)
				278	{
				279	struct proc_maps_private *priv = __seq_open_private(file, ops, psize);
				280
				281	if (!priv)
				282	return -ENOMEM;
				283
				284	priv->inode = inode;
				285	priv->mm = proc_mem_open(inode, PTRACE_MODE_READ);
				286	if (IS_ERR(priv->mm)) {
				287	int err = PTR_ERR(priv->mm);
				288
				289	seq_release_private(inode, file);
				290	return err;
				291	}
				292
				293	return 0;
				294	}
				295
				296	static int proc_map_release(struct inode inode, struct file file)
				297	{
				298	struct seq_file *seq = file->private_data;
				299	struct proc_maps_private *priv = seq->private;
				300
				301	if (priv->mm)
				302	mmdrop(priv->mm);
				303
				304	return seq_release_private(inode, file);
				305	}
				306
				307	static int do_maps_open(struct inode inode, struct file file,
				308	const struct seq_operations *ops)
				309	{
				310	return proc_maps_open(inode, file, ops,
				311	sizeof(struct proc_maps_private));
				312	}
				313
				314	/*
				315	* Indicate if the VMA is a stack for the given task; for
				316	* /proc/PID/maps that is the stack of the main task.
				317	*/
				318	static int is_stack(struct vm_area_struct *vma)
				319	{
				320	/*
				321	* We make no effort to guess what a given thread considers to be
				322	* its "stack". It's not even well-defined for programs written
				323	* languages like Go.
				324	*/
				325	return vma->vm_start <= vma->vm_mm->start_stack &&
				326	vma->vm_end >= vma->vm_mm->start_stack;
				327	}
				328
				329	static void show_vma_header_prefix(struct seq_file *m,
				330	unsigned long start, unsigned long end,
				331	vm_flags_t flags, unsigned long long pgoff,
				332	dev_t dev, unsigned long ino)
				333	{
				334	seq_setwidth(m, 25 + sizeof(void ) 6 - 1);
				335	seq_put_hex_ll(m, NULL, start, 8);
				336	seq_put_hex_ll(m, "-", end, 8);
				337	seq_putc(m, ' ');
				338	seq_putc(m, flags & VM_READ ? 'r' : '-');
				339	seq_putc(m, flags & VM_WRITE ? 'w' : '-');
				340	seq_putc(m, flags & VM_EXEC ? 'x' : '-');
				341	seq_putc(m, flags & VM_MAYSHARE ? 's' : 'p');
				342	seq_put_hex_ll(m, " ", pgoff, 8);
				343	seq_put_hex_ll(m, " ", MAJOR(dev), 2);
				344	seq_put_hex_ll(m, ":", MINOR(dev), 2);
				345	seq_put_decimal_ull(m, " ", ino);
				346	seq_putc(m, ' ');
				347	}
				348
				349	static void
				350	show_map_vma(struct seq_file m, struct vm_area_struct vma)
				351	{
				352	struct mm_struct *mm = vma->vm_mm;
				353	struct file *file = vma->vm_file;
				354	vm_flags_t flags = vma->vm_flags;
				355	unsigned long ino = 0;
				356	unsigned long long pgoff = 0;
				357	unsigned long start, end;
				358	dev_t dev = 0;
				359	const char *name = NULL;
				360
				361	if (file) {
				362	struct inode *inode = file_inode(vma->vm_file);
				363	dev = inode->i_sb->s_dev;
				364	ino = inode->i_ino;
				365	pgoff = ((loff_t)vma->vm_pgoff) << PAGE_SHIFT;
				366	}
				367
				368	start = vma->vm_start;
				369	end = vma->vm_end;
				370	show_vma_header_prefix(m, start, end, flags, pgoff, dev, ino);
				371
				372	/*
				373	* Print the dentry name for named mappings, and a
				374	* special [heap] marker for the heap:
				375	*/
				376	if (file) {
				377	seq_pad(m, ' ');
				378	seq_file_path(m, file, "\n");
				379	goto done;
				380	}
				381
				382	if (vma->vm_ops && vma->vm_ops->name) {
				383	name = vma->vm_ops->name(vma);
				384	if (name)
				385	goto done;
				386	}
				387
				388	name = arch_vma_name(vma);
				389	if (!name) {
				390	if (!mm) {
				391	name = "[vdso]";
				392	goto done;
				393	}
				394
				395	if (vma->vm_start <= mm->brk &&
				396	vma->vm_end >= mm->start_brk) {
				397	name = "[heap]";
				398	goto done;
				399	}
				400
				401	if (is_stack(vma)) {
				402	name = "[stack]";
				403	goto done;
				404	}
				405
				406	if (vma_get_anon_name(vma)) {
				407	seq_pad(m, ' ');
				408	seq_print_vma_name(m, vma);
				409	}
				410	}
				411
				412	done:
				413	if (name) {
				414	seq_pad(m, ' ');
				415	seq_puts(m, name);
				416	}
				417	seq_putc(m, '\n');
				418	}
				419
				420	static int show_map(struct seq_file m, void v)
				421	{
				422	show_map_vma(m, v);
				423	m_cache_vma(m, v);
				424	return 0;
				425	}
				426
				427	static const struct seq_operations proc_pid_maps_op = {
				428	.start = m_start,
				429	.next = m_next,
				430	.stop = m_stop,
				431	.show = show_map
				432	};
				433
				434	static int pid_maps_open(struct inode inode, struct file file)
				435	{
				436	return do_maps_open(inode, file, &proc_pid_maps_op);
				437	}
				438
				439	const struct file_operations proc_pid_maps_operations = {
				440	.open = pid_maps_open,
				441	.read = seq_read,
				442	.llseek = seq_lseek,
				443	.release = proc_map_release,
				444	};
				445
				446	/*
				447	* Proportional Set Size(PSS): my share of RSS.
				448	*
				449	* PSS of a process is the count of pages it has in memory, where each
				450	* page is divided by the number of processes sharing it. So if a
				451	* process has 1000 pages all to itself, and 1000 shared with one other
				452	* process, its PSS will be 1500.
				453	*
				454	* To keep (accumulated) division errors low, we adopt a 64bit
				455	* fixed-point pss counter to minimize division errors. So (pss >>
				456	* PSS_SHIFT) would be the real byte count.
				457	*
				458	* A shift of 12 before division means (assuming 4K page size):
				459	* - 1M 3-user-pages add up to 8KB errors;
				460	* - supports mapcount up to 2^24, or 16M;
				461	* - supports PSS up to 2^52 bytes, or 4PB.
				462	*/
				463	#define PSS_SHIFT 12
				464
				465	#ifdef CONFIG_PROC_PAGE_MONITOR
				466	struct mem_size_stats {
				467	unsigned long resident;
				468	unsigned long shared_clean;
				469	unsigned long shared_dirty;
				470	unsigned long private_clean;
				471	unsigned long private_dirty;
				472	unsigned long referenced;
				473	unsigned long anonymous;
				474	unsigned long lazyfree;
				475	unsigned long anonymous_thp;
				476	unsigned long shmem_thp;
				477	unsigned long file_thp;
				478	unsigned long swap;
				479	unsigned long shared_hugetlb;
				480	unsigned long private_hugetlb;
				481	u64 pss;
				482	u64 pss_anon;
				483	u64 pss_file;
				484	u64 pss_shmem;
				485	u64 pss_locked;
				486	u64 swap_pss;
				487	bool check_shmem_swap;
				488	};
				489
				490	static void smaps_page_accumulate(struct mem_size_stats *mss,
				491	struct page *page, unsigned long size, unsigned long pss,
				492	bool dirty, bool locked, bool private)
				493	{
				494	mss->pss += pss;
				495
				496	if (PageAnon(page))
				497	mss->pss_anon += pss;
				498	else if (PageSwapBacked(page))
				499	mss->pss_shmem += pss;
				500	else
				501	mss->pss_file += pss;
				502
				503	if (locked)
				504	mss->pss_locked += pss;
				505
				506	if (dirty \|\| PageDirty(page)) {
				507	if (private)
				508	mss->private_dirty += size;
				509	else
				510	mss->shared_dirty += size;
				511	} else {
				512	if (private)
				513	mss->private_clean += size;
				514	else
				515	mss->shared_clean += size;
				516	}
				517	}
				518
				519	static void smaps_account(struct mem_size_stats mss, struct page page,
				520	bool compound, bool young, bool dirty, bool locked)
				521	{
				522	int i, nr = compound ? compound_nr(page) : 1;
				523	unsigned long size = nr * PAGE_SIZE;
				524
				525	/*
				526	* First accumulate quantities that depend only on \|size\| and the type
				527	* of the compound page.
				528	*/
				529	if (PageAnon(page)) {
				530	mss->anonymous += size;
				531	if (!PageSwapBacked(page) && !dirty && !PageDirty(page))
				532	mss->lazyfree += size;
				533	}
				534
				535	mss->resident += size;
				536	/* Accumulate the size in pages that have been accessed. */
				537	if (young \|\| page_is_young(page) \|\| PageReferenced(page))
				538	mss->referenced += size;
				539
				540	/*
				541	* Then accumulate quantities that may depend on sharing, or that may
				542	* differ page-by-page.
				543	*
				544	* page_count(page) == 1 guarantees the page is mapped exactly once.
				545	* If any subpage of the compound page mapped with PTE it would elevate
				546	* page_count().
				547	*/
				548	if (page_count(page) == 1) {
				549	smaps_page_accumulate(mss, page, size, size << PSS_SHIFT, dirty,
				550	locked, true);
				551	return;
				552	}
				553	for (i = 0; i < nr; i++, page++) {
				554	int mapcount = page_mapcount(page);
				555	unsigned long pss = PAGE_SIZE << PSS_SHIFT;
				556	if (mapcount >= 2)
				557	pss /= mapcount;
				558	smaps_page_accumulate(mss, page, PAGE_SIZE, pss, dirty, locked,
				559	mapcount < 2);
				560	}
				561	}
				562
				563	#ifdef CONFIG_SHMEM
				564	static int smaps_pte_hole(unsigned long addr, unsigned long end,
				565	struct mm_walk *walk)
				566	{
				567	struct mem_size_stats *mss = walk->private;
				568
				569	mss->swap += shmem_partial_swap_usage(
				570	walk->vma->vm_file->f_mapping, addr, end);
				571
				572	return 0;
				573	}
				574	#else
				575	#define smaps_pte_hole NULL
				576	#endif /* CONFIG_SHMEM */
				577
				578	static void smaps_pte_entry(pte_t *pte, unsigned long addr,
				579	struct mm_walk *walk)
				580	{
				581	struct mem_size_stats *mss = walk->private;
				582	struct vm_area_struct *vma = walk->vma;
				583	bool locked = !!(vma->vm_flags & VM_LOCKED);
				584	struct page *page = NULL;
				585
				586	if (pte_present(*pte)) {
				587	page = vm_normal_page(vma, addr, *pte);
				588	} else if (is_swap_pte(*pte)) {
				589	swp_entry_t swpent = pte_to_swp_entry(*pte);
				590
				591	if (!non_swap_entry(swpent)) {
				592	int mapcount;
				593
				594	mss->swap += PAGE_SIZE;
				595	mapcount = swp_swapcount(swpent);
				596	if (mapcount >= 2) {
				597	u64 pss_delta = (u64)PAGE_SIZE << PSS_SHIFT;
				598
				599	do_div(pss_delta, mapcount);
				600	mss->swap_pss += pss_delta;
				601	} else {
				602	mss->swap_pss += (u64)PAGE_SIZE << PSS_SHIFT;
				603	}
				604	} else if (is_migration_entry(swpent))
				605	page = migration_entry_to_page(swpent);
				606	else if (is_device_private_entry(swpent))
				607	page = device_private_entry_to_page(swpent);
				608	} else if (unlikely(IS_ENABLED(CONFIG_SHMEM) && mss->check_shmem_swap
				609	&& pte_none(*pte))) {
				610	page = find_get_entry(vma->vm_file->f_mapping,
				611	linear_page_index(vma, addr));
				612	if (!page)
				613	return;
				614
				615	if (xa_is_value(page))
				616	mss->swap += PAGE_SIZE;
				617	else
				618	put_page(page);
				619
				620	return;
				621	}
				622
				623	if (!page)
				624	return;
				625
				626	smaps_account(mss, page, false, pte_young(pte), pte_dirty(pte), locked);
				627	}
				628
				629	#ifdef CONFIG_TRANSPARENT_HUGEPAGE
				630	static void smaps_pmd_entry(pmd_t *pmd, unsigned long addr,
				631	struct mm_walk *walk)
				632	{
				633	struct mem_size_stats *mss = walk->private;
				634	struct vm_area_struct *vma = walk->vma;
				635	bool locked = !!(vma->vm_flags & VM_LOCKED);
				636	struct page *page;
				637
				638	/* FOLL_DUMP will return -EFAULT on huge zero page */
				639	page = follow_trans_huge_pmd(vma, addr, pmd, FOLL_DUMP);
				640	if (IS_ERR_OR_NULL(page))
				641	return;
				642	if (PageAnon(page))
				643	mss->anonymous_thp += HPAGE_PMD_SIZE;
				644	else if (PageSwapBacked(page))
				645	mss->shmem_thp += HPAGE_PMD_SIZE;
				646	else if (is_zone_device_page(page))
				647	/* pass */;
				648	else
				649	mss->file_thp += HPAGE_PMD_SIZE;
				650	smaps_account(mss, page, true, pmd_young(pmd), pmd_dirty(pmd), locked);
				651	}
				652	#else
				653	static void smaps_pmd_entry(pmd_t *pmd, unsigned long addr,
				654	struct mm_walk *walk)
				655	{
				656	}
				657	#endif
				658
				659	static int smaps_pte_range(pmd_t *pmd, unsigned long addr, unsigned long end,
				660	struct mm_walk *walk)
				661	{
				662	struct vm_area_struct *vma = walk->vma;
				663	pte_t *pte;
				664	spinlock_t *ptl;
				665
				666	ptl = pmd_trans_huge_lock(pmd, vma);
				667	if (ptl) {
				668	if (pmd_present(*pmd))
				669	smaps_pmd_entry(pmd, addr, walk);
				670	spin_unlock(ptl);
				671	goto out;
				672	}
				673
				674	if (pmd_trans_unstable(pmd))
				675	goto out;
				676	/*
				677	* The mmap_sem held all the way back in m_start() is what
				678	* keeps khugepaged out of here and from collapsing things
				679	* in here.
				680	*/
				681	pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
				682	for (; addr != end; pte++, addr += PAGE_SIZE)
				683	smaps_pte_entry(pte, addr, walk);
				684	pte_unmap_unlock(pte - 1, ptl);
				685	out:
				686	cond_resched();
				687	return 0;
				688	}
				689
				690	static void show_smap_vma_flags(struct seq_file m, struct vm_area_struct vma)
				691	{
				692	/*
				693	* Don't forget to update Documentation/ on changes.
				694	*/
				695	static const char mnemonics[BITS_PER_LONG][2] = {
				696	/*
				697	* In case if we meet a flag we don't know about.
				698	*/
				699	[0 ... (BITS_PER_LONG-1)] = "??",
				700
				701	[ilog2(VM_READ)] = "rd",
				702	[ilog2(VM_WRITE)] = "wr",
				703	[ilog2(VM_EXEC)] = "ex",
				704	[ilog2(VM_SHARED)] = "sh",
				705	[ilog2(VM_MAYREAD)] = "mr",
				706	[ilog2(VM_MAYWRITE)] = "mw",
				707	[ilog2(VM_MAYEXEC)] = "me",
				708	[ilog2(VM_MAYSHARE)] = "ms",
				709	[ilog2(VM_GROWSDOWN)] = "gd",
				710	[ilog2(VM_PFNMAP)] = "pf",
				711	[ilog2(VM_DENYWRITE)] = "dw",
				712	#ifdef CONFIG_X86_INTEL_MPX
				713	[ilog2(VM_MPX)] = "mp",
				714	#endif
				715	[ilog2(VM_LOCKED)] = "lo",
				716	[ilog2(VM_IO)] = "io",
				717	[ilog2(VM_SEQ_READ)] = "sr",
				718	[ilog2(VM_RAND_READ)] = "rr",
				719	[ilog2(VM_DONTCOPY)] = "dc",
				720	[ilog2(VM_DONTEXPAND)] = "de",
				721	[ilog2(VM_ACCOUNT)] = "ac",
				722	[ilog2(VM_NORESERVE)] = "nr",
				723	[ilog2(VM_HUGETLB)] = "ht",
				724	[ilog2(VM_SYNC)] = "sf",
				725	[ilog2(VM_ARCH_1)] = "ar",
				726	[ilog2(VM_WIPEONFORK)] = "wf",
				727	[ilog2(VM_DONTDUMP)] = "dd",
				728	#ifdef CONFIG_MEM_SOFT_DIRTY
				729	[ilog2(VM_SOFTDIRTY)] = "sd",
				730	#endif
				731	[ilog2(VM_MIXEDMAP)] = "mm",
				732	[ilog2(VM_HUGEPAGE)] = "hg",
				733	[ilog2(VM_NOHUGEPAGE)] = "nh",
				734	[ilog2(VM_MERGEABLE)] = "mg",
				735	[ilog2(VM_UFFD_MISSING)]= "um",
				736	[ilog2(VM_UFFD_WP)] = "uw",
				737	#ifdef CONFIG_ARCH_HAS_PKEYS
				738	/* These come out via ProtectionKey: */
				739	[ilog2(VM_PKEY_BIT0)] = "",
				740	[ilog2(VM_PKEY_BIT1)] = "",
				741	[ilog2(VM_PKEY_BIT2)] = "",
				742	[ilog2(VM_PKEY_BIT3)] = "",
				743	#if VM_PKEY_BIT4
				744	[ilog2(VM_PKEY_BIT4)] = "",
				745	#endif
				746	#endif /* CONFIG_ARCH_HAS_PKEYS */
				747	#ifdef CONFIG_HAVE_ARCH_USERFAULTFD_MINOR
				748	[ilog2(VM_UFFD_MINOR)] = "ui",
				749	#endif /* CONFIG_HAVE_ARCH_USERFAULTFD_MINOR */
				750	};
				751	size_t i;
				752
				753	seq_puts(m, "VmFlags: ");
				754	for (i = 0; i < BITS_PER_LONG; i++) {
				755	if (!mnemonics[i][0])
				756	continue;
				757	if (vma->vm_flags & (1UL << i)) {
				758	seq_putc(m, mnemonics[i][0]);
				759	seq_putc(m, mnemonics[i][1]);
				760	seq_putc(m, ' ');
				761	}
				762	}
				763	seq_putc(m, '\n');
				764	}
				765
				766	#ifdef CONFIG_HUGETLB_PAGE
				767	static int smaps_hugetlb_range(pte_t *pte, unsigned long hmask,
				768	unsigned long addr, unsigned long end,
				769	struct mm_walk *walk)
				770	{
				771	struct mem_size_stats *mss = walk->private;
				772	struct vm_area_struct *vma = walk->vma;
				773	struct page *page = NULL;
				774
				775	if (pte_present(*pte)) {
				776	page = vm_normal_page(vma, addr, *pte);
				777	} else if (is_swap_pte(*pte)) {
				778	swp_entry_t swpent = pte_to_swp_entry(*pte);
				779
				780	if (is_migration_entry(swpent))
				781	page = migration_entry_to_page(swpent);
				782	else if (is_device_private_entry(swpent))
				783	page = device_private_entry_to_page(swpent);
				784	}
				785	if (page) {
				786	if (page_mapcount(page) >= 2 \|\| hugetlb_pmd_shared(pte))
				787	mss->shared_hugetlb += huge_page_size(hstate_vma(vma));
				788	else
				789	mss->private_hugetlb += huge_page_size(hstate_vma(vma));
				790	}
				791	return 0;
				792	}
				793	#else
				794	#define smaps_hugetlb_range NULL
				795	#endif /* HUGETLB_PAGE */
				796
				797	static const struct mm_walk_ops smaps_walk_ops = {
				798	.pmd_entry = smaps_pte_range,
				799	.hugetlb_entry = smaps_hugetlb_range,
				800	};
				801
				802	static const struct mm_walk_ops smaps_shmem_walk_ops = {
				803	.pmd_entry = smaps_pte_range,
				804	.hugetlb_entry = smaps_hugetlb_range,
				805	.pte_hole = smaps_pte_hole,
				806	};
				807
				808	static void smap_gather_stats(struct vm_area_struct *vma,
				809	struct mem_size_stats *mss)
				810	{
				811	#ifdef CONFIG_SHMEM
				812	/* In case of smaps_rollup, reset the value from previous vma */
				813	mss->check_shmem_swap = false;
				814	if (vma->vm_file && shmem_mapping(vma->vm_file->f_mapping)) {
				815	/*
				816	* For shared or readonly shmem mappings we know that all
				817	* swapped out pages belong to the shmem object, and we can
				818	* obtain the swap value much more efficiently. For private
				819	* writable mappings, we might have COW pages that are
				820	* not affected by the parent swapped out pages of the shmem
				821	* object, so we have to distinguish them during the page walk.
				822	* Unless we know that the shmem object (or the part mapped by
				823	* our VMA) has no swapped out pages at all.
				824	*/
				825	unsigned long shmem_swapped = shmem_swap_usage(vma);
				826
				827	if (!shmem_swapped \|\| (vma->vm_flags & VM_SHARED) \|\|
				828	!(vma->vm_flags & VM_WRITE)) {
				829	mss->swap += shmem_swapped;
				830	} else {
				831	mss->check_shmem_swap = true;
				832	walk_page_vma(vma, &smaps_shmem_walk_ops, mss);
				833	return;
				834	}
				835	}
				836	#endif
				837	/* mmap_sem is held in m_start */
				838	walk_page_vma(vma, &smaps_walk_ops, mss);
				839	}
				840
				841	#define SEQ_PUT_DEC(str, val) \
				842	seq_put_decimal_ull_width(m, str, (val) >> 10, 8)
				843
				844	/* Show the contents common for smaps and smaps_rollup */
				845	static void __show_smap(struct seq_file m, const struct mem_size_stats mss,
				846	bool rollup_mode)
				847	{
				848	SEQ_PUT_DEC("Rss: ", mss->resident);
				849	SEQ_PUT_DEC(" kB\nPss: ", mss->pss >> PSS_SHIFT);
				850	if (rollup_mode) {
				851	/*
				852	* These are meaningful only for smaps_rollup, otherwise two of
				853	* them are zero, and the other one is the same as Pss.
				854	*/
				855	SEQ_PUT_DEC(" kB\nPss_Anon: ",
				856	mss->pss_anon >> PSS_SHIFT);
				857	SEQ_PUT_DEC(" kB\nPss_File: ",
				858	mss->pss_file >> PSS_SHIFT);
				859	SEQ_PUT_DEC(" kB\nPss_Shmem: ",
				860	mss->pss_shmem >> PSS_SHIFT);
				861	}
				862	SEQ_PUT_DEC(" kB\nShared_Clean: ", mss->shared_clean);
				863	SEQ_PUT_DEC(" kB\nShared_Dirty: ", mss->shared_dirty);
				864	SEQ_PUT_DEC(" kB\nPrivate_Clean: ", mss->private_clean);
				865	SEQ_PUT_DEC(" kB\nPrivate_Dirty: ", mss->private_dirty);
				866	SEQ_PUT_DEC(" kB\nReferenced: ", mss->referenced);
				867	SEQ_PUT_DEC(" kB\nAnonymous: ", mss->anonymous);
				868	SEQ_PUT_DEC(" kB\nLazyFree: ", mss->lazyfree);
				869	SEQ_PUT_DEC(" kB\nAnonHugePages: ", mss->anonymous_thp);
				870	SEQ_PUT_DEC(" kB\nShmemPmdMapped: ", mss->shmem_thp);
				871	SEQ_PUT_DEC(" kB\nFilePmdMapped: ", mss->file_thp);
				872	SEQ_PUT_DEC(" kB\nShared_Hugetlb: ", mss->shared_hugetlb);
				873	seq_put_decimal_ull_width(m, " kB\nPrivate_Hugetlb: ",
				874	mss->private_hugetlb >> 10, 7);
				875	SEQ_PUT_DEC(" kB\nSwap: ", mss->swap);
				876	SEQ_PUT_DEC(" kB\nSwapPss: ",
				877	mss->swap_pss >> PSS_SHIFT);
				878	SEQ_PUT_DEC(" kB\nLocked: ",
				879	mss->pss_locked >> PSS_SHIFT);
				880	seq_puts(m, " kB\n");
				881	}
				882
				883	static int show_smap(struct seq_file m, void v)
				884	{
				885	struct vm_area_struct *vma = v;
				886	struct mem_size_stats mss;
				887
				888	memset(&mss, 0, sizeof(mss));
				889
				890	smap_gather_stats(vma, &mss);
				891
				892	show_map_vma(m, vma);
				893	if (vma_get_anon_name(vma)) {
				894	seq_puts(m, "Name: ");
				895	seq_print_vma_name(m, vma);
				896	seq_putc(m, '\n');
				897	}
				898
				899	SEQ_PUT_DEC("Size: ", vma->vm_end - vma->vm_start);
				900	SEQ_PUT_DEC(" kB\nKernelPageSize: ", vma_kernel_pagesize(vma));
				901	SEQ_PUT_DEC(" kB\nMMUPageSize: ", vma_mmu_pagesize(vma));
				902	seq_puts(m, " kB\n");
				903
				904	__show_smap(m, &mss, false);
				905
				906	seq_printf(m, "THPeligible: %d\n",
				907	transparent_hugepage_enabled(vma));
				908
				909	if (arch_pkeys_enabled())
				910	seq_printf(m, "ProtectionKey: %8u\n", vma_pkey(vma));
				911	show_smap_vma_flags(m, vma);
				912
				913	m_cache_vma(m, vma);
				914
				915	return 0;
				916	}
				917
				918	static int show_smaps_rollup(struct seq_file m, void v)
				919	{
				920	struct proc_maps_private *priv = m->private;
				921	struct mem_size_stats mss;
				922	struct mm_struct *mm;
				923	struct vm_area_struct *vma;
				924	unsigned long last_vma_end = 0;
				925	int ret = 0;
				926
				927	priv->task = get_proc_task(priv->inode);
				928	if (!priv->task)
				929	return -ESRCH;
				930
				931	mm = priv->mm;
				932	if (!mm \|\| !mmget_not_zero(mm)) {
				933	ret = -ESRCH;
				934	goto out_put_task;
				935	}
				936
				937	memset(&mss, 0, sizeof(mss));
				938
				939	ret = down_read_killable(&mm->mmap_sem);
				940	if (ret)
				941	goto out_put_mm;
				942
				943	hold_task_mempolicy(priv);
				944
				945	for (vma = priv->mm->mmap; vma; vma = vma->vm_next) {
				946	smap_gather_stats(vma, &mss);
				947	last_vma_end = vma->vm_end;
				948	}
				949
				950	show_vma_header_prefix(m, priv->mm->mmap ? priv->mm->mmap->vm_start : 0,
				951	last_vma_end, 0, 0, 0, 0);
				952	seq_pad(m, ' ');
				953	seq_puts(m, "[rollup]\n");
				954
				955	__show_smap(m, &mss, true);
				956
				957	release_task_mempolicy(priv);
				958	up_read(&mm->mmap_sem);
				959
				960	out_put_mm:
				961	mmput(mm);
				962	out_put_task:
				963	put_task_struct(priv->task);
				964	priv->task = NULL;
				965
				966	return ret;
				967	}
				968	#undef SEQ_PUT_DEC
				969
				970	static const struct seq_operations proc_pid_smaps_op = {
				971	.start = m_start,
				972	.next = m_next,
				973	.stop = m_stop,
				974	.show = show_smap
				975	};
				976
				977	static int pid_smaps_open(struct inode inode, struct file file)
				978	{
				979	return do_maps_open(inode, file, &proc_pid_smaps_op);
				980	}
				981
				982	static int smaps_rollup_open(struct inode inode, struct file file)
				983	{
				984	int ret;
				985	struct proc_maps_private *priv;
				986
				987	priv = kzalloc(sizeof(*priv), GFP_KERNEL_ACCOUNT);
				988	if (!priv)
				989	return -ENOMEM;
				990
				991	ret = single_open(file, show_smaps_rollup, priv);
				992	if (ret)
				993	goto out_free;
				994
				995	priv->inode = inode;
				996	priv->mm = proc_mem_open(inode, PTRACE_MODE_READ);
				997	if (IS_ERR(priv->mm)) {
				998	ret = PTR_ERR(priv->mm);
				999
				1000	single_release(inode, file);
				1001	goto out_free;
				1002	}
				1003
				1004	return 0;
				1005
				1006	out_free:
				1007	kfree(priv);
				1008	return ret;
				1009	}
				1010
				1011	static int smaps_rollup_release(struct inode inode, struct file file)
				1012	{
				1013	struct seq_file *seq = file->private_data;
				1014	struct proc_maps_private *priv = seq->private;
				1015
				1016	if (priv->mm)
				1017	mmdrop(priv->mm);
				1018
				1019	kfree(priv);
				1020	return single_release(inode, file);
				1021	}
				1022
				1023	const struct file_operations proc_pid_smaps_operations = {
				1024	.open = pid_smaps_open,
				1025	.read = seq_read,
				1026	.llseek = seq_lseek,
				1027	.release = proc_map_release,
				1028	};
				1029
				1030	const struct file_operations proc_pid_smaps_rollup_operations = {
				1031	.open = smaps_rollup_open,
				1032	.read = seq_read,
				1033	.llseek = seq_lseek,
				1034	.release = smaps_rollup_release,
				1035	};
				1036
				1037	enum clear_refs_types {
				1038	CLEAR_REFS_ALL = 1,
				1039	CLEAR_REFS_ANON,
				1040	CLEAR_REFS_MAPPED,
				1041	CLEAR_REFS_SOFT_DIRTY,
				1042	CLEAR_REFS_MM_HIWATER_RSS,
				1043	CLEAR_REFS_LAST,
				1044	};
				1045
				1046	struct clear_refs_private {
				1047	enum clear_refs_types type;
				1048	};
				1049
				1050	#ifdef CONFIG_MEM_SOFT_DIRTY
				1051	static inline void clear_soft_dirty(struct vm_area_struct *vma,
				1052	unsigned long addr, pte_t *pte)
				1053	{
				1054	/*
				1055	* The soft-dirty tracker uses #PF-s to catch writes
				1056	* to pages, so write-protect the pte as well. See the
				1057	* Documentation/admin-guide/mm/soft-dirty.rst for full description
				1058	* of how soft-dirty works.
				1059	*/
				1060	pte_t ptent = *pte;
				1061
				1062	if (pte_present(ptent)) {
				1063	pte_t old_pte;
				1064
				1065	old_pte = ptep_modify_prot_start(vma, addr, pte);
				1066	ptent = pte_wrprotect(old_pte);
				1067	ptent = pte_clear_soft_dirty(ptent);
				1068	ptep_modify_prot_commit(vma, addr, pte, old_pte, ptent);
				1069	} else if (is_swap_pte(ptent)) {
				1070	ptent = pte_swp_clear_soft_dirty(ptent);
				1071	set_pte_at(vma->vm_mm, addr, pte, ptent);
				1072	}
				1073	}
				1074	#else
				1075	static inline void clear_soft_dirty(struct vm_area_struct *vma,
				1076	unsigned long addr, pte_t *pte)
				1077	{
				1078	}
				1079	#endif
				1080
				1081	#if defined(CONFIG_MEM_SOFT_DIRTY) && defined(CONFIG_TRANSPARENT_HUGEPAGE)
				1082	static inline void clear_soft_dirty_pmd(struct vm_area_struct *vma,
				1083	unsigned long addr, pmd_t *pmdp)
				1084	{
				1085	pmd_t old, pmd = *pmdp;
				1086
				1087	if (pmd_present(pmd)) {
				1088	/* See comment in change_huge_pmd() */
				1089	old = pmdp_invalidate(vma, addr, pmdp);
				1090	if (pmd_dirty(old))
				1091	pmd = pmd_mkdirty(pmd);
				1092	if (pmd_young(old))
				1093	pmd = pmd_mkyoung(pmd);
				1094
				1095	pmd = pmd_wrprotect(pmd);
				1096	pmd = pmd_clear_soft_dirty(pmd);
				1097
				1098	set_pmd_at(vma->vm_mm, addr, pmdp, pmd);
				1099	} else if (is_migration_entry(pmd_to_swp_entry(pmd))) {
				1100	pmd = pmd_swp_clear_soft_dirty(pmd);
				1101	set_pmd_at(vma->vm_mm, addr, pmdp, pmd);
				1102	}
				1103	}
				1104	#else
				1105	static inline void clear_soft_dirty_pmd(struct vm_area_struct *vma,
				1106	unsigned long addr, pmd_t *pmdp)
				1107	{
				1108	}
				1109	#endif
				1110
				1111	static int clear_refs_pte_range(pmd_t *pmd, unsigned long addr,
				1112	unsigned long end, struct mm_walk *walk)
				1113	{
				1114	struct clear_refs_private *cp = walk->private;
				1115	struct vm_area_struct *vma = walk->vma;
				1116	pte_t *pte, ptent;
				1117	spinlock_t *ptl;
				1118	struct page *page;
				1119
				1120	ptl = pmd_trans_huge_lock(pmd, vma);
				1121	if (ptl) {
				1122	if (cp->type == CLEAR_REFS_SOFT_DIRTY) {
				1123	clear_soft_dirty_pmd(vma, addr, pmd);
				1124	goto out;
				1125	}
				1126
				1127	if (!pmd_present(*pmd))
				1128	goto out;
				1129
				1130	page = pmd_page(*pmd);
				1131
				1132	/* Clear accessed and referenced bits. */
				1133	pmdp_test_and_clear_young(vma, addr, pmd);
				1134	test_and_clear_page_young(page);
				1135	ClearPageReferenced(page);
				1136	out:
				1137	spin_unlock(ptl);
				1138	return 0;
				1139	}
				1140
				1141	if (pmd_trans_unstable(pmd))
				1142	return 0;
				1143
				1144	pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
				1145	for (; addr != end; pte++, addr += PAGE_SIZE) {
				1146	ptent = *pte;
				1147
				1148	if (cp->type == CLEAR_REFS_SOFT_DIRTY) {
				1149	clear_soft_dirty(vma, addr, pte);
				1150	continue;
				1151	}
				1152
				1153	if (!pte_present(ptent))
				1154	continue;
				1155
				1156	page = vm_normal_page(vma, addr, ptent);
				1157	if (!page)
				1158	continue;
				1159
				1160	/* Clear accessed and referenced bits. */
				1161	ptep_test_and_clear_young(vma, addr, pte);
				1162	test_and_clear_page_young(page);
				1163	ClearPageReferenced(page);
				1164	}
				1165	pte_unmap_unlock(pte - 1, ptl);
				1166	cond_resched();
				1167	return 0;
				1168	}
				1169
				1170	static int clear_refs_test_walk(unsigned long start, unsigned long end,
				1171	struct mm_walk *walk)
				1172	{
				1173	struct clear_refs_private *cp = walk->private;
				1174	struct vm_area_struct *vma = walk->vma;
				1175
				1176	if (vma->vm_flags & VM_PFNMAP)
				1177	return 1;
				1178
				1179	/*
				1180	* Writing 1 to /proc/pid/clear_refs affects all pages.
				1181	* Writing 2 to /proc/pid/clear_refs only affects anonymous pages.
				1182	* Writing 3 to /proc/pid/clear_refs only affects file mapped pages.
				1183	* Writing 4 to /proc/pid/clear_refs affects all pages.
				1184	*/
				1185	if (cp->type == CLEAR_REFS_ANON && vma->vm_file)
				1186	return 1;
				1187	if (cp->type == CLEAR_REFS_MAPPED && !vma->vm_file)
				1188	return 1;
				1189	return 0;
				1190	}
				1191
				1192	static const struct mm_walk_ops clear_refs_walk_ops = {
				1193	.pmd_entry = clear_refs_pte_range,
				1194	.test_walk = clear_refs_test_walk,
				1195	};
				1196
				1197	static ssize_t clear_refs_write(struct file file, const char __user buf,
				1198	size_t count, loff_t *ppos)
				1199	{
				1200	struct task_struct *task;
				1201	char buffer[PROC_NUMBUF];
				1202	struct mm_struct *mm;
				1203	struct vm_area_struct *vma;
				1204	enum clear_refs_types type;
				1205	struct mmu_gather tlb;
				1206	int itype;
				1207	int rv;
				1208
				1209	memset(buffer, 0, sizeof(buffer));
				1210	if (count > sizeof(buffer) - 1)
				1211	count = sizeof(buffer) - 1;
				1212	if (copy_from_user(buffer, buf, count))
				1213	return -EFAULT;
				1214	rv = kstrtoint(strstrip(buffer), 10, &itype);
				1215	if (rv < 0)
				1216	return rv;
				1217	type = (enum clear_refs_types)itype;
				1218	if (type < CLEAR_REFS_ALL \|\| type >= CLEAR_REFS_LAST)
				1219	return -EINVAL;
				1220
				1221	task = get_proc_task(file_inode(file));
				1222	if (!task)
				1223	return -ESRCH;
				1224	mm = get_task_mm(task);
				1225	if (mm) {
				1226	struct mmu_notifier_range range;
				1227	struct clear_refs_private cp = {
				1228	.type = type,
				1229	};
				1230
				1231	if (type == CLEAR_REFS_MM_HIWATER_RSS) {
				1232	if (down_write_killable(&mm->mmap_sem)) {
				1233	count = -EINTR;
				1234	goto out_mm;
				1235	}
				1236
				1237	/*
				1238	* Writing 5 to /proc/pid/clear_refs resets the peak
				1239	* resident set size to this mm's current rss value.
				1240	*/
				1241	reset_mm_hiwater_rss(mm);
				1242	up_write(&mm->mmap_sem);
				1243	goto out_mm;
				1244	}
				1245
				1246	if (down_read_killable(&mm->mmap_sem)) {
				1247	count = -EINTR;
				1248	goto out_mm;
				1249	}
				1250	tlb_gather_mmu(&tlb, mm, 0, -1);
				1251	if (type == CLEAR_REFS_SOFT_DIRTY) {
				1252	for (vma = mm->mmap; vma; vma = vma->vm_next) {
				1253	if (!(vma->vm_flags & VM_SOFTDIRTY))
				1254	continue;
				1255	up_read(&mm->mmap_sem);
				1256	if (down_write_killable(&mm->mmap_sem)) {
				1257	count = -EINTR;
				1258	goto out_mm;
				1259	}
				1260	/*
				1261	* Avoid to modify vma->vm_flags
				1262	* without locked ops while the
				1263	* coredump reads the vm_flags.
				1264	*/
				1265	if (!mmget_still_valid(mm)) {
				1266	/*
				1267	* Silently return "count"
				1268	* like if get_task_mm()
				1269	* failed. FIXME: should this
				1270	* function have returned
				1271	* -ESRCH if get_task_mm()
				1272	* failed like if
				1273	* get_proc_task() fails?
				1274	*/
				1275	up_write(&mm->mmap_sem);
				1276	goto out_mm;
				1277	}
				1278	for (vma = mm->mmap; vma; vma = vma->vm_next) {
				1279	vma->vm_flags &= ~VM_SOFTDIRTY;
				1280	vma_set_page_prot(vma);
				1281	}
				1282	downgrade_write(&mm->mmap_sem);
				1283	break;
				1284	}
				1285
				1286	mmu_notifier_range_init(&range, MMU_NOTIFY_SOFT_DIRTY,
				1287	0, NULL, mm, 0, -1UL);
				1288	mmu_notifier_invalidate_range_start(&range);
				1289	}
				1290	walk_page_range(mm, 0, mm->highest_vm_end, &clear_refs_walk_ops,
				1291	&cp);
				1292	if (type == CLEAR_REFS_SOFT_DIRTY)
				1293	mmu_notifier_invalidate_range_end(&range);
				1294	tlb_finish_mmu(&tlb, 0, -1);
				1295	up_read(&mm->mmap_sem);
				1296	out_mm:
				1297	mmput(mm);
				1298	}
				1299	put_task_struct(task);
				1300
				1301	return count;
				1302	}
				1303
				1304	const struct file_operations proc_clear_refs_operations = {
				1305	.write = clear_refs_write,
				1306	.llseek = noop_llseek,
				1307	};
				1308
				1309	typedef struct {
				1310	u64 pme;
				1311	} pagemap_entry_t;
				1312
				1313	struct pagemapread {
				1314	int pos, len; /* units: PM_ENTRY_BYTES, not bytes */
				1315	pagemap_entry_t *buffer;
				1316	bool show_pfn;
				1317	};
				1318
				1319	#define PAGEMAP_WALK_SIZE (PMD_SIZE)
				1320	#define PAGEMAP_WALK_MASK (PMD_MASK)
				1321
				1322	#define PM_ENTRY_BYTES sizeof(pagemap_entry_t)
				1323	#define PM_PFRAME_BITS 55
				1324	#define PM_PFRAME_MASK GENMASK_ULL(PM_PFRAME_BITS - 1, 0)
				1325	#define PM_SOFT_DIRTY BIT_ULL(55)
				1326	#define PM_MMAP_EXCLUSIVE BIT_ULL(56)
				1327	#define PM_FILE BIT_ULL(61)
				1328	#define PM_SWAP BIT_ULL(62)
				1329	#define PM_PRESENT BIT_ULL(63)
				1330
				1331	#define PM_END_OF_BUFFER 1
				1332
				1333	static inline pagemap_entry_t make_pme(u64 frame, u64 flags)
				1334	{
				1335	return (pagemap_entry_t) { .pme = (frame & PM_PFRAME_MASK) \| flags };
				1336	}
				1337
				1338	static int add_to_pagemap(unsigned long addr, pagemap_entry_t *pme,
				1339	struct pagemapread *pm)
				1340	{
				1341	pm->buffer[pm->pos++] = *pme;
				1342	if (pm->pos >= pm->len)
				1343	return PM_END_OF_BUFFER;
				1344	return 0;
				1345	}
				1346
				1347	static int pagemap_pte_hole(unsigned long start, unsigned long end,
				1348	struct mm_walk *walk)
				1349	{
				1350	struct pagemapread *pm = walk->private;
				1351	unsigned long addr = start;
				1352	int err = 0;
				1353
				1354	while (addr < end) {
				1355	struct vm_area_struct *vma = find_vma(walk->mm, addr);
				1356	pagemap_entry_t pme = make_pme(0, 0);
				1357	/* End of address space hole, which we mark as non-present. */
				1358	unsigned long hole_end;
				1359
				1360	if (vma)
				1361	hole_end = min(end, vma->vm_start);
				1362	else
				1363	hole_end = end;
				1364
				1365	for (; addr < hole_end; addr += PAGE_SIZE) {
				1366	err = add_to_pagemap(addr, &pme, pm);
				1367	if (err)
				1368	goto out;
				1369	}
				1370
				1371	if (!vma)
				1372	break;
				1373
				1374	/* Addresses in the VMA. */
				1375	if (vma->vm_flags & VM_SOFTDIRTY)
				1376	pme = make_pme(0, PM_SOFT_DIRTY);
				1377	for (; addr < min(end, vma->vm_end); addr += PAGE_SIZE) {
				1378	err = add_to_pagemap(addr, &pme, pm);
				1379	if (err)
				1380	goto out;
				1381	}
				1382	}
				1383	out:
				1384	return err;
				1385	}
				1386
				1387	static pagemap_entry_t pte_to_pagemap_entry(struct pagemapread *pm,
				1388	struct vm_area_struct *vma, unsigned long addr, pte_t pte)
				1389	{
				1390	u64 frame = 0, flags = 0;
				1391	struct page *page = NULL;
				1392
				1393	if (pte_present(pte)) {
				1394	if (pm->show_pfn)
				1395	frame = pte_pfn(pte);
				1396	flags \|= PM_PRESENT;
				1397	page = vm_normal_page(vma, addr, pte);
				1398	if (pte_soft_dirty(pte))
				1399	flags \|= PM_SOFT_DIRTY;
				1400	} else if (is_swap_pte(pte)) {
				1401	swp_entry_t entry;
				1402	if (pte_swp_soft_dirty(pte))
				1403	flags \|= PM_SOFT_DIRTY;
				1404	entry = pte_to_swp_entry(pte);
				1405	if (pm->show_pfn)
				1406	frame = swp_type(entry) \|
				1407	(swp_offset(entry) << MAX_SWAPFILES_SHIFT);
				1408	flags \|= PM_SWAP;
				1409	if (is_migration_entry(entry))
				1410	page = migration_entry_to_page(entry);
				1411
				1412	if (is_device_private_entry(entry))
				1413	page = device_private_entry_to_page(entry);
				1414	}
				1415
				1416	if (page && !PageAnon(page))
				1417	flags \|= PM_FILE;
				1418	if (page && page_mapcount(page) == 1)
				1419	flags \|= PM_MMAP_EXCLUSIVE;
				1420	if (vma->vm_flags & VM_SOFTDIRTY)
				1421	flags \|= PM_SOFT_DIRTY;
				1422
				1423	return make_pme(frame, flags);
				1424	}
				1425
				1426	static int pagemap_pmd_range(pmd_t *pmdp, unsigned long addr, unsigned long end,
				1427	struct mm_walk *walk)
				1428	{
				1429	struct vm_area_struct *vma = walk->vma;
				1430	struct pagemapread *pm = walk->private;
				1431	spinlock_t *ptl;
				1432	pte_t pte, orig_pte;
				1433	int err = 0;
				1434
				1435	#ifdef CONFIG_TRANSPARENT_HUGEPAGE
				1436	ptl = pmd_trans_huge_lock(pmdp, vma);
				1437	if (ptl) {
				1438	u64 flags = 0, frame = 0;
				1439	pmd_t pmd = *pmdp;
				1440	struct page *page = NULL;
				1441
				1442	if (vma->vm_flags & VM_SOFTDIRTY)
				1443	flags \|= PM_SOFT_DIRTY;
				1444
				1445	if (pmd_present(pmd)) {
				1446	page = pmd_page(pmd);
				1447
				1448	flags \|= PM_PRESENT;
				1449	if (pmd_soft_dirty(pmd))
				1450	flags \|= PM_SOFT_DIRTY;
				1451	if (pm->show_pfn)
				1452	frame = pmd_pfn(pmd) +
				1453	((addr & ~PMD_MASK) >> PAGE_SHIFT);
				1454	}
				1455	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				1456	else if (is_swap_pmd(pmd)) {
				1457	swp_entry_t entry = pmd_to_swp_entry(pmd);
				1458	unsigned long offset;
				1459
				1460	if (pm->show_pfn) {
				1461	offset = swp_offset(entry) +
				1462	((addr & ~PMD_MASK) >> PAGE_SHIFT);
				1463	frame = swp_type(entry) \|
				1464	(offset << MAX_SWAPFILES_SHIFT);
				1465	}
				1466	flags \|= PM_SWAP;
				1467	if (pmd_swp_soft_dirty(pmd))
				1468	flags \|= PM_SOFT_DIRTY;
				1469	VM_BUG_ON(!is_pmd_migration_entry(pmd));
				1470	page = migration_entry_to_page(entry);
				1471	}
				1472	#endif
				1473
				1474	if (page && page_mapcount(page) == 1)
				1475	flags \|= PM_MMAP_EXCLUSIVE;
				1476
				1477	for (; addr != end; addr += PAGE_SIZE) {
				1478	pagemap_entry_t pme = make_pme(frame, flags);
				1479
				1480	err = add_to_pagemap(addr, &pme, pm);
				1481	if (err)
				1482	break;
				1483	if (pm->show_pfn) {
				1484	if (flags & PM_PRESENT)
				1485	frame++;
				1486	else if (flags & PM_SWAP)
				1487	frame += (1 << MAX_SWAPFILES_SHIFT);
				1488	}
				1489	}
				1490	spin_unlock(ptl);
				1491	return err;
				1492	}
				1493
				1494	if (pmd_trans_unstable(pmdp))
				1495	return 0;
				1496	#endif /* CONFIG_TRANSPARENT_HUGEPAGE */
				1497
				1498	/*
				1499	* We can assume that @vma always points to a valid one and @end never
				1500	* goes beyond vma->vm_end.
				1501	*/
				1502	orig_pte = pte = pte_offset_map_lock(walk->mm, pmdp, addr, &ptl);
				1503	for (; addr < end; pte++, addr += PAGE_SIZE) {
				1504	pagemap_entry_t pme;
				1505
				1506	pme = pte_to_pagemap_entry(pm, vma, addr, *pte);
				1507	err = add_to_pagemap(addr, &pme, pm);
				1508	if (err)
				1509	break;
				1510	}
				1511	pte_unmap_unlock(orig_pte, ptl);
				1512
				1513	cond_resched();
				1514
				1515	return err;
				1516	}
				1517
				1518	#ifdef CONFIG_HUGETLB_PAGE
				1519	/* This function walks within one hugetlb entry in the single call */
				1520	static int pagemap_hugetlb_range(pte_t *ptep, unsigned long hmask,
				1521	unsigned long addr, unsigned long end,
				1522	struct mm_walk *walk)
				1523	{
				1524	struct pagemapread *pm = walk->private;
				1525	struct vm_area_struct *vma = walk->vma;
				1526	u64 flags = 0, frame = 0;
				1527	int err = 0;
				1528	pte_t pte;
				1529
				1530	if (vma->vm_flags & VM_SOFTDIRTY)
				1531	flags \|= PM_SOFT_DIRTY;
				1532
				1533	pte = huge_ptep_get(ptep);
				1534	if (pte_present(pte)) {
				1535	struct page *page = pte_page(pte);
				1536
				1537	if (!PageAnon(page))
				1538	flags \|= PM_FILE;
				1539
				1540	if (page_mapcount(page) == 1)
				1541	flags \|= PM_MMAP_EXCLUSIVE;
				1542
				1543	flags \|= PM_PRESENT;
				1544	if (pm->show_pfn)
				1545	frame = pte_pfn(pte) +
				1546	((addr & ~hmask) >> PAGE_SHIFT);
				1547	}
				1548
				1549	for (; addr != end; addr += PAGE_SIZE) {
				1550	pagemap_entry_t pme = make_pme(frame, flags);
				1551
				1552	err = add_to_pagemap(addr, &pme, pm);
				1553	if (err)
				1554	return err;
				1555	if (pm->show_pfn && (flags & PM_PRESENT))
				1556	frame++;
				1557	}
				1558
				1559	cond_resched();
				1560
				1561	return err;
				1562	}
				1563	#else
				1564	#define pagemap_hugetlb_range NULL
				1565	#endif /* HUGETLB_PAGE */
				1566
				1567	static const struct mm_walk_ops pagemap_ops = {
				1568	.pmd_entry = pagemap_pmd_range,
				1569	.pte_hole = pagemap_pte_hole,
				1570	.hugetlb_entry = pagemap_hugetlb_range,
				1571	};
				1572
				1573	/*
				1574	* /proc/pid/pagemap - an array mapping virtual pages to pfns
				1575	*
				1576	* For each page in the address space, this file contains one 64-bit entry
				1577	* consisting of the following:
				1578	*
				1579	* Bits 0-54 page frame number (PFN) if present
				1580	* Bits 0-4 swap type if swapped
				1581	* Bits 5-54 swap offset if swapped
				1582	* Bit 55 pte is soft-dirty (see Documentation/admin-guide/mm/soft-dirty.rst)
				1583	* Bit 56 page exclusively mapped
				1584	* Bits 57-60 zero
				1585	* Bit 61 page is file-page or shared-anon
				1586	* Bit 62 page swapped
				1587	* Bit 63 page present
				1588	*
				1589	* If the page is not present but in swap, then the PFN contains an
				1590	* encoding of the swap file number and the page's offset into the
				1591	* swap. Unmapped pages return a null PFN. This allows determining
				1592	* precisely which pages are mapped (or in swap) and comparing mapped
				1593	* pages between processes.
				1594	*
				1595	* Efficient users of this interface will use /proc/pid/maps to
				1596	* determine which areas of memory are actually mapped and llseek to
				1597	* skip over unmapped regions.
				1598	*/
				1599	static ssize_t pagemap_read(struct file file, char __user buf,
				1600	size_t count, loff_t *ppos)
				1601	{
				1602	struct mm_struct *mm = file->private_data;
				1603	struct pagemapread pm;
				1604	unsigned long src;
				1605	unsigned long svpfn;
				1606	unsigned long start_vaddr;
				1607	unsigned long end_vaddr;
				1608	int ret = 0, copied = 0;
				1609
				1610	if (!mm \|\| !mmget_not_zero(mm))
				1611	goto out;
				1612
				1613	ret = -EINVAL;
				1614	/* file position must be aligned */
				1615	if ((*ppos % PM_ENTRY_BYTES) \|\| (count % PM_ENTRY_BYTES))
				1616	goto out_mm;
				1617
				1618	ret = 0;
				1619	if (!count)
				1620	goto out_mm;
				1621
				1622	/* do not disclose physical addresses: attack vector */
				1623	pm.show_pfn = file_ns_capable(file, &init_user_ns, CAP_SYS_ADMIN);
				1624
				1625	pm.len = (PAGEMAP_WALK_SIZE >> PAGE_SHIFT);
				1626	pm.buffer = kmalloc_array(pm.len, PM_ENTRY_BYTES, GFP_KERNEL);
				1627	ret = -ENOMEM;
				1628	if (!pm.buffer)
				1629	goto out_mm;
				1630
				1631	src = *ppos;
				1632	svpfn = src / PM_ENTRY_BYTES;
				1633	end_vaddr = mm->task_size;
				1634
				1635	/* watch out for wraparound */
				1636	start_vaddr = end_vaddr;
				1637	if (svpfn <= (ULONG_MAX >> PAGE_SHIFT))
				1638	start_vaddr = untagged_addr(svpfn << PAGE_SHIFT);
				1639
				1640	/* Ensure the address is inside the task */
				1641	if (start_vaddr > mm->task_size)
				1642	start_vaddr = end_vaddr;
				1643
				1644	/*
				1645	* The odds are that this will stop walking way
				1646	* before end_vaddr, because the length of the
				1647	* user buffer is tracked in "pm", and the walk
				1648	* will stop when we hit the end of the buffer.
				1649	*/
				1650	ret = 0;
				1651	while (count && (start_vaddr < end_vaddr)) {
				1652	int len;
				1653	unsigned long end;
				1654
				1655	pm.pos = 0;
				1656	end = (start_vaddr + PAGEMAP_WALK_SIZE) & PAGEMAP_WALK_MASK;
				1657	/* overflow ? */
				1658	if (end < start_vaddr \|\| end > end_vaddr)
				1659	end = end_vaddr;
				1660	ret = down_read_killable(&mm->mmap_sem);
				1661	if (ret)
				1662	goto out_free;
				1663	ret = walk_page_range(mm, start_vaddr, end, &pagemap_ops, &pm);
				1664	up_read(&mm->mmap_sem);
				1665	start_vaddr = end;
				1666
				1667	len = min(count, PM_ENTRY_BYTES * pm.pos);
				1668	if (copy_to_user(buf, pm.buffer, len)) {
				1669	ret = -EFAULT;
				1670	goto out_free;
				1671	}
				1672	copied += len;
				1673	buf += len;
				1674	count -= len;
				1675	}
				1676	*ppos += copied;
				1677	if (!ret \|\| ret == PM_END_OF_BUFFER)
				1678	ret = copied;
				1679
				1680	out_free:
				1681	kfree(pm.buffer);
				1682	out_mm:
				1683	mmput(mm);
				1684	out:
				1685	return ret;
				1686	}
				1687
				1688	static int pagemap_open(struct inode inode, struct file file)
				1689	{
				1690	struct mm_struct *mm;
				1691
				1692	mm = proc_mem_open(inode, PTRACE_MODE_READ);
				1693	if (IS_ERR(mm))
				1694	return PTR_ERR(mm);
				1695	file->private_data = mm;
				1696	return 0;
				1697	}
				1698
				1699	static int pagemap_release(struct inode inode, struct file file)
				1700	{
				1701	struct mm_struct *mm = file->private_data;
				1702
				1703	if (mm)
				1704	mmdrop(mm);
				1705	return 0;
				1706	}
				1707
				1708	const struct file_operations proc_pagemap_operations = {
				1709	.llseek = mem_lseek, /* borrow this */
				1710	.read = pagemap_read,
				1711	.open = pagemap_open,
				1712	.release = pagemap_release,
				1713	};
				1714	#endif /* CONFIG_PROC_PAGE_MONITOR */
				1715
				1716	#ifdef CONFIG_NUMA
				1717
				1718	struct numa_maps {
				1719	unsigned long pages;
				1720	unsigned long anon;
				1721	unsigned long active;
				1722	unsigned long writeback;
				1723	unsigned long mapcount_max;
				1724	unsigned long dirty;
				1725	unsigned long swapcache;
				1726	unsigned long node[MAX_NUMNODES];
				1727	};
				1728
				1729	struct numa_maps_private {
				1730	struct proc_maps_private proc_maps;
				1731	struct numa_maps md;
				1732	};
				1733
				1734	static void gather_stats(struct page page, struct numa_maps md, int pte_dirty,
				1735	unsigned long nr_pages)
				1736	{
				1737	int count = page_mapcount(page);
				1738
				1739	md->pages += nr_pages;
				1740	if (pte_dirty \|\| PageDirty(page))
				1741	md->dirty += nr_pages;
				1742
				1743	if (PageSwapCache(page))
				1744	md->swapcache += nr_pages;
				1745
				1746	if (PageActive(page) \|\| PageUnevictable(page))
				1747	md->active += nr_pages;
				1748
				1749	if (PageWriteback(page))
				1750	md->writeback += nr_pages;
				1751
				1752	if (PageAnon(page))
				1753	md->anon += nr_pages;
				1754
				1755	if (count > md->mapcount_max)
				1756	md->mapcount_max = count;
				1757
				1758	md->node[page_to_nid(page)] += nr_pages;
				1759	}
				1760
				1761	static struct page can_gather_numa_stats(pte_t pte, struct vm_area_struct vma,
				1762	unsigned long addr)
				1763	{
				1764	struct page *page;
				1765	int nid;
				1766
				1767	if (!pte_present(pte))
				1768	return NULL;
				1769
				1770	page = vm_normal_page(vma, addr, pte);
				1771	if (!page)
				1772	return NULL;
				1773
				1774	if (PageReserved(page))
				1775	return NULL;
				1776
				1777	nid = page_to_nid(page);
				1778	if (!node_isset(nid, node_states[N_MEMORY]))
				1779	return NULL;
				1780
				1781	return page;
				1782	}
				1783
				1784	#ifdef CONFIG_TRANSPARENT_HUGEPAGE
				1785	static struct page *can_gather_numa_stats_pmd(pmd_t pmd,
				1786	struct vm_area_struct *vma,
				1787	unsigned long addr)
				1788	{
				1789	struct page *page;
				1790	int nid;
				1791
				1792	if (!pmd_present(pmd))
				1793	return NULL;
				1794
				1795	page = vm_normal_page_pmd(vma, addr, pmd);
				1796	if (!page)
				1797	return NULL;
				1798
				1799	if (PageReserved(page))
				1800	return NULL;
				1801
				1802	nid = page_to_nid(page);
				1803	if (!node_isset(nid, node_states[N_MEMORY]))
				1804	return NULL;
				1805
				1806	return page;
				1807	}
				1808	#endif
				1809
				1810	static int gather_pte_stats(pmd_t *pmd, unsigned long addr,
				1811	unsigned long end, struct mm_walk *walk)
				1812	{
				1813	struct numa_maps *md = walk->private;
				1814	struct vm_area_struct *vma = walk->vma;
				1815	spinlock_t *ptl;
				1816	pte_t *orig_pte;
				1817	pte_t *pte;
				1818
				1819	#ifdef CONFIG_TRANSPARENT_HUGEPAGE
				1820	ptl = pmd_trans_huge_lock(pmd, vma);
				1821	if (ptl) {
				1822	struct page *page;
				1823
				1824	page = can_gather_numa_stats_pmd(*pmd, vma, addr);
				1825	if (page)
				1826	gather_stats(page, md, pmd_dirty(*pmd),
				1827	HPAGE_PMD_SIZE/PAGE_SIZE);
				1828	spin_unlock(ptl);
				1829	return 0;
				1830	}
				1831
				1832	if (pmd_trans_unstable(pmd))
				1833	return 0;
				1834	#endif
				1835	orig_pte = pte = pte_offset_map_lock(walk->mm, pmd, addr, &ptl);
				1836	do {
				1837	struct page page = can_gather_numa_stats(pte, vma, addr);
				1838	if (!page)
				1839	continue;
				1840	gather_stats(page, md, pte_dirty(*pte), 1);
				1841
				1842	} while (pte++, addr += PAGE_SIZE, addr != end);
				1843	pte_unmap_unlock(orig_pte, ptl);
				1844	cond_resched();
				1845	return 0;
				1846	}
				1847	#ifdef CONFIG_HUGETLB_PAGE
				1848	static int gather_hugetlb_stats(pte_t *pte, unsigned long hmask,
				1849	unsigned long addr, unsigned long end, struct mm_walk *walk)
				1850	{
				1851	pte_t huge_pte = huge_ptep_get(pte);
				1852	struct numa_maps *md;
				1853	struct page *page;
				1854
				1855	if (!pte_present(huge_pte))
				1856	return 0;
				1857
				1858	page = pte_page(huge_pte);
				1859	if (!page)
				1860	return 0;
				1861
				1862	md = walk->private;
				1863	gather_stats(page, md, pte_dirty(huge_pte), 1);
				1864	return 0;
				1865	}
				1866
				1867	#else
				1868	static int gather_hugetlb_stats(pte_t *pte, unsigned long hmask,
				1869	unsigned long addr, unsigned long end, struct mm_walk *walk)
				1870	{
				1871	return 0;
				1872	}
				1873	#endif
				1874
				1875	static const struct mm_walk_ops show_numa_ops = {
				1876	.hugetlb_entry = gather_hugetlb_stats,
				1877	.pmd_entry = gather_pte_stats,
				1878	};
				1879
				1880	/*
				1881	* Display pages allocated per node and memory policy via /proc.
				1882	*/
				1883	static int show_numa_map(struct seq_file m, void v)
				1884	{
				1885	struct numa_maps_private *numa_priv = m->private;
				1886	struct proc_maps_private *proc_priv = &numa_priv->proc_maps;
				1887	struct vm_area_struct *vma = v;
				1888	struct numa_maps *md = &numa_priv->md;
				1889	struct file *file = vma->vm_file;
				1890	struct mm_struct *mm = vma->vm_mm;
				1891	struct mempolicy *pol;
				1892	char buffer[64];
				1893	int nid;
				1894
				1895	if (!mm)
				1896	return 0;
				1897
				1898	/* Ensure we start with an empty set of numa_maps statistics. */
				1899	memset(md, 0, sizeof(*md));
				1900
				1901	pol = __get_vma_policy(vma, vma->vm_start);
				1902	if (pol) {
				1903	mpol_to_str(buffer, sizeof(buffer), pol);
				1904	mpol_cond_put(pol);
				1905	} else {
				1906	mpol_to_str(buffer, sizeof(buffer), proc_priv->task_mempolicy);
				1907	}
				1908
				1909	seq_printf(m, "%08lx %s", vma->vm_start, buffer);
				1910
				1911	if (file) {
				1912	seq_puts(m, " file=");
				1913	seq_file_path(m, file, "\n\t= ");
				1914	} else if (vma->vm_start <= mm->brk && vma->vm_end >= mm->start_brk) {
				1915	seq_puts(m, " heap");
				1916	} else if (is_stack(vma)) {
				1917	seq_puts(m, " stack");
				1918	}
				1919
				1920	if (is_vm_hugetlb_page(vma))
				1921	seq_puts(m, " huge");
				1922
				1923	/* mmap_sem is held by m_start */
				1924	walk_page_vma(vma, &show_numa_ops, md);
				1925
				1926	if (!md->pages)
				1927	goto out;
				1928
				1929	if (md->anon)
				1930	seq_printf(m, " anon=%lu", md->anon);
				1931
				1932	if (md->dirty)
				1933	seq_printf(m, " dirty=%lu", md->dirty);
				1934
				1935	if (md->pages != md->anon && md->pages != md->dirty)
				1936	seq_printf(m, " mapped=%lu", md->pages);
				1937
				1938	if (md->mapcount_max > 1)
				1939	seq_printf(m, " mapmax=%lu", md->mapcount_max);
				1940
				1941	if (md->swapcache)
				1942	seq_printf(m, " swapcache=%lu", md->swapcache);
				1943
				1944	if (md->active < md->pages && !is_vm_hugetlb_page(vma))
				1945	seq_printf(m, " active=%lu", md->active);
				1946
				1947	if (md->writeback)
				1948	seq_printf(m, " writeback=%lu", md->writeback);
				1949
				1950	for_each_node_state(nid, N_MEMORY)
				1951	if (md->node[nid])
				1952	seq_printf(m, " N%d=%lu", nid, md->node[nid]);
				1953
				1954	seq_printf(m, " kernelpagesize_kB=%lu", vma_kernel_pagesize(vma) >> 10);
				1955	out:
				1956	seq_putc(m, '\n');
				1957	m_cache_vma(m, vma);
				1958	return 0;
				1959	}
				1960
				1961	static const struct seq_operations proc_pid_numa_maps_op = {
				1962	.start = m_start,
				1963	.next = m_next,
				1964	.stop = m_stop,
				1965	.show = show_numa_map,
				1966	};
				1967
				1968	static int pid_numa_maps_open(struct inode inode, struct file file)
				1969	{
				1970	return proc_maps_open(inode, file, &proc_pid_numa_maps_op,
				1971	sizeof(struct numa_maps_private));
				1972	}
				1973
				1974	const struct file_operations proc_pid_numa_maps_operations = {
				1975	.open = pid_numa_maps_open,
				1976	.read = seq_read,
				1977	.llseek = seq_lseek,
				1978	.release = proc_map_release,
				1979	};
				1980
				1981	#endif /* CONFIG_NUMA */