Blame - src/kernel/linux/v4.19/net/packet/af_packet.c - T800

blob: 91be89debcbf1735060e2b6e9c06c2f056cdcd77 [file] [log] [blame]

xj	b04a402	2021-11-25 15:01:52 +0800	[diff] [blame]	1	/*
				2	* INET An implementation of the TCP/IP protocol suite for the LINUX
				3	* operating system. INET is implemented using the BSD Socket
				4	* interface as the means of communication with the user level.
				5	*
				6	* PACKET - implements raw packet sockets.
				7	*
				8	* Authors: Ross Biro
				9	* Fred N. van Kempen, <waltje@uWalt.NL.Mugnet.ORG>
				10	* Alan Cox, <gw4pts@gw4pts.ampr.org>
				11	*
				12	* Fixes:
				13	* Alan Cox : verify_area() now used correctly
				14	* Alan Cox : new skbuff lists, look ma no backlogs!
				15	* Alan Cox : tidied skbuff lists.
				16	* Alan Cox : Now uses generic datagram routines I
				17	* added. Also fixed the peek/read crash
				18	* from all old Linux datagram code.
				19	* Alan Cox : Uses the improved datagram code.
				20	* Alan Cox : Added NULL's for socket options.
				21	* Alan Cox : Re-commented the code.
				22	* Alan Cox : Use new kernel side addressing
				23	* Rob Janssen : Correct MTU usage.
				24	* Dave Platt : Counter leaks caused by incorrect
				25	* interrupt locking and some slightly
				26	* dubious gcc output. Can you read
				27	* compiler: it said _VOLATILE_
				28	* Richard Kooijman : Timestamp fixes.
				29	* Alan Cox : New buffers. Use sk->mac.raw.
				30	* Alan Cox : sendmsg/recvmsg support.
				31	* Alan Cox : Protocol setting support
				32	* Alexey Kuznetsov : Untied from IPv4 stack.
				33	* Cyrus Durgin : Fixed kerneld for kmod.
				34	* Michal Ostrowski : Module initialization cleanup.
				35	* Ulises Alonso : Frame number limit removal and
				36	* packet_set_ring memory leak.
				37	* Eric Biederman : Allow for > 8 byte hardware addresses.
				38	* The convention is that longer addresses
				39	* will simply extend the hardware address
				40	* byte arrays at the end of sockaddr_ll
				41	* and packet_mreq.
				42	* Johann Baudy : Added TX RING.
				43	* Chetan Loke : Implemented TPACKET_V3 block abstraction
				44	* layer.
				45	* Copyright (C) 2011, <lokec@ccs.neu.edu>
				46	*
				47	*
				48	* This program is free software; you can redistribute it and/or
				49	* modify it under the terms of the GNU General Public License
				50	* as published by the Free Software Foundation; either version
				51	* 2 of the License, or (at your option) any later version.
				52	*
				53	*/
				54
				55	#include <linux/types.h>
				56	#include <linux/mm.h>
				57	#include <linux/capability.h>
				58	#include <linux/fcntl.h>
				59	#include <linux/socket.h>
				60	#include <linux/in.h>
				61	#include <linux/inet.h>
				62	#include <linux/netdevice.h>
				63	#include <linux/if_packet.h>
				64	#include <linux/wireless.h>
				65	#include <linux/kernel.h>
				66	#include <linux/kmod.h>
				67	#include <linux/slab.h>
				68	#include <linux/vmalloc.h>
				69	#include <net/net_namespace.h>
				70	#include <net/ip.h>
				71	#include <net/protocol.h>
				72	#include <linux/skbuff.h>
				73	#include <net/sock.h>
				74	#include <linux/errno.h>
				75	#include <linux/timer.h>
				76	#include <linux/uaccess.h>
				77	#include <asm/ioctls.h>
				78	#include <asm/page.h>
				79	#include <asm/cacheflush.h>
				80	#include <asm/io.h>
				81	#include <linux/proc_fs.h>
				82	#include <linux/seq_file.h>
				83	#include <linux/poll.h>
				84	#include <linux/module.h>
				85	#include <linux/init.h>
				86	#include <linux/mutex.h>
				87	#include <linux/if_vlan.h>
				88	#include <linux/virtio_net.h>
				89	#include <linux/errqueue.h>
				90	#include <linux/net_tstamp.h>
				91	#include <linux/percpu.h>
				92	#ifdef CONFIG_INET
				93	#include <net/inet_common.h>
				94	#endif
				95	#include <linux/bpf.h>
				96	#include <net/compat.h>
				97
				98	#include "internal.h"
				99
				100	/*
				101	Assumptions:
				102	- if device has no dev->hard_header routine, it adds and removes ll header
				103	inside itself. In this case ll header is invisible outside of device,
				104	but higher levels still should reserve dev->hard_header_len.
				105	Some devices are enough clever to reallocate skb, when header
				106	will not fit to reserved space (tunnel), another ones are silly
				107	(PPP).
				108	- packet socket receives packets with pulled ll header,
				109	so that SOCK_RAW should push it back.
				110
				111	On receive:
				112	-----------
				113
				114	Incoming, dev->hard_header!=NULL
				115	mac_header -> ll header
				116	data -> data
				117
				118	Outgoing, dev->hard_header!=NULL
				119	mac_header -> ll header
				120	data -> ll header
				121
				122	Incoming, dev->hard_header==NULL
				123	mac_header -> UNKNOWN position. It is very likely, that it points to ll
				124	header. PPP makes it, that is wrong, because introduce
				125	assymetry between rx and tx paths.
				126	data -> data
				127
				128	Outgoing, dev->hard_header==NULL
				129	mac_header -> data. ll header is still not built!
				130	data -> data
				131
				132	Resume
				133	If dev->hard_header==NULL we are unlikely to restore sensible ll header.
				134
				135
				136	On transmit:
				137	------------
				138
				139	dev->hard_header != NULL
				140	mac_header -> ll header
				141	data -> ll header
				142
				143	dev->hard_header == NULL (ll header is added by device, we cannot control it)
				144	mac_header -> data
				145	data -> data
				146
				147	We should set nh.raw on output to correct posistion,
				148	packet classifier depends on it.
				149	*/
				150
				151	/* Private packet socket structures. */
				152
				153	/* identical to struct packet_mreq except it has
				154	* a longer address field.
				155	*/
				156	struct packet_mreq_max {
				157	int mr_ifindex;
				158	unsigned short mr_type;
				159	unsigned short mr_alen;
				160	unsigned char mr_address[MAX_ADDR_LEN];
				161	};
				162
				163	union tpacket_uhdr {
				164	struct tpacket_hdr *h1;
				165	struct tpacket2_hdr *h2;
				166	struct tpacket3_hdr *h3;
				167	void *raw;
				168	};
				169
				170	static int packet_set_ring(struct sock sk, union tpacket_req_u req_u,
				171	int closing, int tx_ring);
				172
				173	#define V3_ALIGNMENT (8)
				174
				175	#define BLK_HDR_LEN (ALIGN(sizeof(struct tpacket_block_desc), V3_ALIGNMENT))
				176
				177	#define BLK_PLUS_PRIV(sz_of_priv) \
				178	(BLK_HDR_LEN + ALIGN((sz_of_priv), V3_ALIGNMENT))
				179
				180	#define BLOCK_STATUS(x) ((x)->hdr.bh1.block_status)
				181	#define BLOCK_NUM_PKTS(x) ((x)->hdr.bh1.num_pkts)
				182	#define BLOCK_O2FP(x) ((x)->hdr.bh1.offset_to_first_pkt)
				183	#define BLOCK_LEN(x) ((x)->hdr.bh1.blk_len)
				184	#define BLOCK_SNUM(x) ((x)->hdr.bh1.seq_num)
				185	#define BLOCK_O2PRIV(x) ((x)->offset_to_priv)
				186	#define BLOCK_PRIV(x) ((void )((char )(x) + BLOCK_O2PRIV(x)))
				187
				188	struct packet_sock;
				189	static int tpacket_rcv(struct sk_buff skb, struct net_device dev,
				190	struct packet_type pt, struct net_device orig_dev);
				191
				192	static void packet_previous_frame(struct packet_sock po,
				193	struct packet_ring_buffer *rb,
				194	int status);
				195	static void packet_increment_head(struct packet_ring_buffer *buff);
				196	static int prb_curr_blk_in_use(struct tpacket_block_desc *);
				197	static void prb_dispatch_next_block(struct tpacket_kbdq_core ,
				198	struct packet_sock *);
				199	static void prb_retire_current_block(struct tpacket_kbdq_core *,
				200	struct packet_sock *, unsigned int status);
				201	static int prb_queue_frozen(struct tpacket_kbdq_core *);
				202	static void prb_open_block(struct tpacket_kbdq_core *,
				203	struct tpacket_block_desc *);
				204	static void prb_retire_rx_blk_timer_expired(struct timer_list *);
				205	static void _prb_refresh_rx_retire_blk_timer(struct tpacket_kbdq_core *);
				206	static void prb_fill_rxhash(struct tpacket_kbdq_core , struct tpacket3_hdr );
				207	static void prb_clear_rxhash(struct tpacket_kbdq_core *,
				208	struct tpacket3_hdr *);
				209	static void prb_fill_vlan_info(struct tpacket_kbdq_core *,
				210	struct tpacket3_hdr *);
				211	static void packet_flush_mclist(struct sock *sk);
				212	static u16 packet_pick_tx_queue(struct sk_buff *skb);
				213
				214	struct packet_skb_cb {
				215	union {
				216	struct sockaddr_pkt pkt;
				217	union {
				218	/* Trick: alias skb original length with
				219	* ll.sll_family and ll.protocol in order
				220	* to save room.
				221	*/
				222	unsigned int origlen;
				223	struct sockaddr_ll ll;
				224	};
				225	} sa;
				226	};
				227
				228	#define vio_le() virtio_legacy_is_little_endian()
				229
				230	#define PACKET_SKB_CB(__skb) ((struct packet_skb_cb *)((__skb)->cb))
				231
				232	#define GET_PBDQC_FROM_RB(x) ((struct tpacket_kbdq_core *)(&(x)->prb_bdqc))
				233	#define GET_PBLOCK_DESC(x, bid) \
				234	((struct tpacket_block_desc *)((x)->pkbdq[(bid)].buffer))
				235	#define GET_CURR_PBLOCK_DESC_FROM_CORE(x) \
				236	((struct tpacket_block_desc *)((x)->pkbdq[(x)->kactive_blk_num].buffer))
				237	#define GET_NEXT_PRB_BLK_NUM(x) \
				238	(((x)->kactive_blk_num < ((x)->knum_blocks-1)) ? \
				239	((x)->kactive_blk_num+1) : 0)
				240
				241	static void __fanout_unlink(struct sock sk, struct packet_sock po);
				242	static void __fanout_link(struct sock sk, struct packet_sock po);
				243
				244	static int packet_direct_xmit(struct sk_buff *skb)
				245	{
				246	return dev_direct_xmit(skb, packet_pick_tx_queue(skb));
				247	}
				248
				249	static struct net_device packet_cached_dev_get(struct packet_sock po)
				250	{
				251	struct net_device *dev;
				252
				253	rcu_read_lock();
				254	dev = rcu_dereference(po->cached_dev);
				255	if (likely(dev))
				256	dev_hold(dev);
				257	rcu_read_unlock();
				258
				259	return dev;
				260	}
				261
				262	static void packet_cached_dev_assign(struct packet_sock *po,
				263	struct net_device *dev)
				264	{
				265	rcu_assign_pointer(po->cached_dev, dev);
				266	}
				267
				268	static void packet_cached_dev_reset(struct packet_sock *po)
				269	{
				270	RCU_INIT_POINTER(po->cached_dev, NULL);
				271	}
				272
				273	static bool packet_use_direct_xmit(const struct packet_sock *po)
				274	{
				275	return po->xmit == packet_direct_xmit;
				276	}
				277
				278	static u16 __packet_pick_tx_queue(struct net_device dev, struct sk_buff skb,
				279	struct net_device *sb_dev)
				280	{
				281	return dev_pick_tx_cpu_id(dev, skb, sb_dev, NULL);
				282	}
				283
				284	static u16 packet_pick_tx_queue(struct sk_buff *skb)
				285	{
				286	struct net_device *dev = skb->dev;
				287	const struct net_device_ops *ops = dev->netdev_ops;
				288	u16 queue_index;
				289
				290	if (ops->ndo_select_queue) {
				291	queue_index = ops->ndo_select_queue(dev, skb, NULL,
				292	__packet_pick_tx_queue);
				293	queue_index = netdev_cap_txqueue(dev, queue_index);
				294	} else {
				295	queue_index = __packet_pick_tx_queue(dev, skb, NULL);
				296	}
				297
				298	return queue_index;
				299	}
				300
				301	/* __register_prot_hook must be invoked through register_prot_hook
				302	* or from a context in which asynchronous accesses to the packet
				303	* socket is not possible (packet_create()).
				304	*/
				305	static void __register_prot_hook(struct sock *sk)
				306	{
				307	struct packet_sock *po = pkt_sk(sk);
				308
				309	if (!po->running) {
				310	if (po->fanout)
				311	__fanout_link(sk, po);
				312	else
				313	dev_add_pack(&po->prot_hook);
				314
				315	sock_hold(sk);
				316	po->running = 1;
				317	}
				318	}
				319
				320	static void register_prot_hook(struct sock *sk)
				321	{
				322	lockdep_assert_held_once(&pkt_sk(sk)->bind_lock);
				323	__register_prot_hook(sk);
				324	}
				325
				326	/* If the sync parameter is true, we will temporarily drop
				327	* the po->bind_lock and do a synchronize_net to make sure no
				328	* asynchronous packet processing paths still refer to the elements
				329	* of po->prot_hook. If the sync parameter is false, it is the
				330	* callers responsibility to take care of this.
				331	*/
				332	static void __unregister_prot_hook(struct sock *sk, bool sync)
				333	{
				334	struct packet_sock *po = pkt_sk(sk);
				335
				336	lockdep_assert_held_once(&po->bind_lock);
				337
				338	po->running = 0;
				339
				340	if (po->fanout)
				341	__fanout_unlink(sk, po);
				342	else
				343	__dev_remove_pack(&po->prot_hook);
				344
				345	__sock_put(sk);
				346
				347	if (sync) {
				348	spin_unlock(&po->bind_lock);
				349	synchronize_net();
				350	spin_lock(&po->bind_lock);
				351	}
				352	}
				353
				354	static void unregister_prot_hook(struct sock *sk, bool sync)
				355	{
				356	struct packet_sock *po = pkt_sk(sk);
				357
				358	if (po->running)
				359	__unregister_prot_hook(sk, sync);
				360	}
				361
				362	static inline struct page * __pure pgv_to_page(void *addr)
				363	{
				364	if (is_vmalloc_addr(addr))
				365	return vmalloc_to_page(addr);
				366	return virt_to_page(addr);
				367	}
				368
				369	static void __packet_set_status(struct packet_sock po, void frame, int status)
				370	{
				371	union tpacket_uhdr h;
				372
				373	h.raw = frame;
				374	switch (po->tp_version) {
				375	case TPACKET_V1:
				376	h.h1->tp_status = status;
				377	flush_dcache_page(pgv_to_page(&h.h1->tp_status));
				378	break;
				379	case TPACKET_V2:
				380	h.h2->tp_status = status;
				381	flush_dcache_page(pgv_to_page(&h.h2->tp_status));
				382	break;
				383	case TPACKET_V3:
				384	h.h3->tp_status = status;
				385	flush_dcache_page(pgv_to_page(&h.h3->tp_status));
				386	break;
				387	default:
				388	WARN(1, "TPACKET version not supported.\n");
				389	BUG();
				390	}
				391
				392	smp_wmb();
				393	}
				394
				395	static int __packet_get_status(struct packet_sock po, void frame)
				396	{
				397	union tpacket_uhdr h;
				398
				399	smp_rmb();
				400
				401	h.raw = frame;
				402	switch (po->tp_version) {
				403	case TPACKET_V1:
				404	flush_dcache_page(pgv_to_page(&h.h1->tp_status));
				405	return h.h1->tp_status;
				406	case TPACKET_V2:
				407	flush_dcache_page(pgv_to_page(&h.h2->tp_status));
				408	return h.h2->tp_status;
				409	case TPACKET_V3:
				410	flush_dcache_page(pgv_to_page(&h.h3->tp_status));
				411	return h.h3->tp_status;
				412	default:
				413	WARN(1, "TPACKET version not supported.\n");
				414	BUG();
				415	return 0;
				416	}
				417	}
				418
				419	static __u32 tpacket_get_timestamp(struct sk_buff skb, struct timespec ts,
				420	unsigned int flags)
				421	{
				422	struct skb_shared_hwtstamps *shhwtstamps = skb_hwtstamps(skb);
				423
				424	if (shhwtstamps &&
				425	(flags & SOF_TIMESTAMPING_RAW_HARDWARE) &&
				426	ktime_to_timespec_cond(shhwtstamps->hwtstamp, ts))
				427	return TP_STATUS_TS_RAW_HARDWARE;
				428
				429	if (ktime_to_timespec_cond(skb->tstamp, ts))
				430	return TP_STATUS_TS_SOFTWARE;
				431
				432	return 0;
				433	}
				434
				435	static __u32 __packet_set_timestamp(struct packet_sock po, void frame,
				436	struct sk_buff *skb)
				437	{
				438	union tpacket_uhdr h;
				439	struct timespec ts;
				440	__u32 ts_status;
				441
				442	if (!(ts_status = tpacket_get_timestamp(skb, &ts, po->tp_tstamp)))
				443	return 0;
				444
				445	h.raw = frame;
				446	switch (po->tp_version) {
				447	case TPACKET_V1:
				448	h.h1->tp_sec = ts.tv_sec;
				449	h.h1->tp_usec = ts.tv_nsec / NSEC_PER_USEC;
				450	break;
				451	case TPACKET_V2:
				452	h.h2->tp_sec = ts.tv_sec;
				453	h.h2->tp_nsec = ts.tv_nsec;
				454	break;
				455	case TPACKET_V3:
				456	h.h3->tp_sec = ts.tv_sec;
				457	h.h3->tp_nsec = ts.tv_nsec;
				458	break;
				459	default:
				460	WARN(1, "TPACKET version not supported.\n");
				461	BUG();
				462	}
				463
				464	/* one flush is safe, as both fields always lie on the same cacheline */
				465	flush_dcache_page(pgv_to_page(&h.h1->tp_sec));
				466	smp_wmb();
				467
				468	return ts_status;
				469	}
				470
				471	static void packet_lookup_frame(struct packet_sock po,
				472	struct packet_ring_buffer *rb,
				473	unsigned int position,
				474	int status)
				475	{
				476	unsigned int pg_vec_pos, frame_offset;
				477	union tpacket_uhdr h;
				478
				479	pg_vec_pos = position / rb->frames_per_block;
				480	frame_offset = position % rb->frames_per_block;
				481
				482	h.raw = rb->pg_vec[pg_vec_pos].buffer +
				483	(frame_offset * rb->frame_size);
				484
				485	if (status != __packet_get_status(po, h.raw))
				486	return NULL;
				487
				488	return h.raw;
				489	}
				490
				491	static void packet_current_frame(struct packet_sock po,
				492	struct packet_ring_buffer *rb,
				493	int status)
				494	{
				495	return packet_lookup_frame(po, rb, rb->head, status);
				496	}
				497
				498	static void prb_del_retire_blk_timer(struct tpacket_kbdq_core *pkc)
				499	{
				500	del_timer_sync(&pkc->retire_blk_timer);
				501	}
				502
				503	static void prb_shutdown_retire_blk_timer(struct packet_sock *po,
				504	struct sk_buff_head *rb_queue)
				505	{
				506	struct tpacket_kbdq_core *pkc;
				507
				508	pkc = GET_PBDQC_FROM_RB(&po->rx_ring);
				509
				510	spin_lock_bh(&rb_queue->lock);
				511	pkc->delete_blk_timer = 1;
				512	spin_unlock_bh(&rb_queue->lock);
				513
				514	prb_del_retire_blk_timer(pkc);
				515	}
				516
				517	static void prb_setup_retire_blk_timer(struct packet_sock *po)
				518	{
				519	struct tpacket_kbdq_core *pkc;
				520
				521	pkc = GET_PBDQC_FROM_RB(&po->rx_ring);
				522	timer_setup(&pkc->retire_blk_timer, prb_retire_rx_blk_timer_expired,
				523	0);
				524	pkc->retire_blk_timer.expires = jiffies;
				525	}
				526
				527	static int prb_calc_retire_blk_tmo(struct packet_sock *po,
				528	int blk_size_in_bytes)
				529	{
				530	struct net_device *dev;
				531	unsigned int mbits = 0, msec = 0, div = 0, tmo = 0;
				532	struct ethtool_link_ksettings ecmd;
				533	int err;
				534
				535	rtnl_lock();
				536	dev = __dev_get_by_index(sock_net(&po->sk), po->ifindex);
				537	if (unlikely(!dev)) {
				538	rtnl_unlock();
				539	return DEFAULT_PRB_RETIRE_TOV;
				540	}
				541	err = __ethtool_get_link_ksettings(dev, &ecmd);
				542	rtnl_unlock();
				543	if (!err) {
				544	/*
				545	* If the link speed is so slow you don't really
				546	* need to worry about perf anyways
				547	*/
				548	if (ecmd.base.speed < SPEED_1000 \|\|
				549	ecmd.base.speed == SPEED_UNKNOWN) {
				550	return DEFAULT_PRB_RETIRE_TOV;
				551	} else {
				552	msec = 1;
				553	div = ecmd.base.speed / 1000;
				554	}
				555	} else
				556	return DEFAULT_PRB_RETIRE_TOV;
				557
				558	mbits = (blk_size_in_bytes * 8) / (1024 * 1024);
				559
				560	if (div)
				561	mbits /= div;
				562
				563	tmo = mbits * msec;
				564
				565	if (div)
				566	return tmo+1;
				567	return tmo;
				568	}
				569
				570	static void prb_init_ft_ops(struct tpacket_kbdq_core *p1,
				571	union tpacket_req_u *req_u)
				572	{
				573	p1->feature_req_word = req_u->req3.tp_feature_req_word;
				574	}
				575
				576	static void init_prb_bdqc(struct packet_sock *po,
				577	struct packet_ring_buffer *rb,
				578	struct pgv *pg_vec,
				579	union tpacket_req_u *req_u)
				580	{
				581	struct tpacket_kbdq_core *p1 = GET_PBDQC_FROM_RB(rb);
				582	struct tpacket_block_desc *pbd;
				583
				584	memset(p1, 0x0, sizeof(*p1));
				585
				586	p1->knxt_seq_num = 1;
				587	p1->pkbdq = pg_vec;
				588	pbd = (struct tpacket_block_desc *)pg_vec[0].buffer;
				589	p1->pkblk_start = pg_vec[0].buffer;
				590	p1->kblk_size = req_u->req3.tp_block_size;
				591	p1->knum_blocks = req_u->req3.tp_block_nr;
				592	p1->hdrlen = po->tp_hdrlen;
				593	p1->version = po->tp_version;
				594	p1->last_kactive_blk_num = 0;
				595	po->stats.stats3.tp_freeze_q_cnt = 0;
				596	if (req_u->req3.tp_retire_blk_tov)
				597	p1->retire_blk_tov = req_u->req3.tp_retire_blk_tov;
				598	else
				599	p1->retire_blk_tov = prb_calc_retire_blk_tmo(po,
				600	req_u->req3.tp_block_size);
				601	p1->tov_in_jiffies = msecs_to_jiffies(p1->retire_blk_tov);
				602	p1->blk_sizeof_priv = req_u->req3.tp_sizeof_priv;
				603
				604	p1->max_frame_len = p1->kblk_size - BLK_PLUS_PRIV(p1->blk_sizeof_priv);
				605	prb_init_ft_ops(p1, req_u);
				606	prb_setup_retire_blk_timer(po);
				607	prb_open_block(p1, pbd);
				608	}
				609
				610	/* Do NOT update the last_blk_num first.
				611	* Assumes sk_buff_head lock is held.
				612	*/
				613	static void _prb_refresh_rx_retire_blk_timer(struct tpacket_kbdq_core *pkc)
				614	{
				615	mod_timer(&pkc->retire_blk_timer,
				616	jiffies + pkc->tov_in_jiffies);
				617	pkc->last_kactive_blk_num = pkc->kactive_blk_num;
				618	}
				619
				620	/*
				621	* Timer logic:
				622	* 1) We refresh the timer only when we open a block.
				623	* By doing this we don't waste cycles refreshing the timer
				624	* on packet-by-packet basis.
				625	*
				626	* With a 1MB block-size, on a 1Gbps line, it will take
				627	* i) ~8 ms to fill a block + ii) memcpy etc.
				628	* In this cut we are not accounting for the memcpy time.
				629	*
				630	* So, if the user sets the 'tmo' to 10ms then the timer
				631	* will never fire while the block is still getting filled
				632	* (which is what we want). However, the user could choose
				633	* to close a block early and that's fine.
				634	*
				635	* But when the timer does fire, we check whether or not to refresh it.
				636	* Since the tmo granularity is in msecs, it is not too expensive
				637	* to refresh the timer, lets say every '8' msecs.
				638	* Either the user can set the 'tmo' or we can derive it based on
				639	* a) line-speed and b) block-size.
				640	* prb_calc_retire_blk_tmo() calculates the tmo.
				641	*
				642	*/
				643	static void prb_retire_rx_blk_timer_expired(struct timer_list *t)
				644	{
				645	struct packet_sock *po =
				646	from_timer(po, t, rx_ring.prb_bdqc.retire_blk_timer);
				647	struct tpacket_kbdq_core *pkc = GET_PBDQC_FROM_RB(&po->rx_ring);
				648	unsigned int frozen;
				649	struct tpacket_block_desc *pbd;
				650
				651	spin_lock(&po->sk.sk_receive_queue.lock);
				652
				653	frozen = prb_queue_frozen(pkc);
				654	pbd = GET_CURR_PBLOCK_DESC_FROM_CORE(pkc);
				655
				656	if (unlikely(pkc->delete_blk_timer))
				657	goto out;
				658
				659	/* We only need to plug the race when the block is partially filled.
				660	* tpacket_rcv:
				661	* lock(); increment BLOCK_NUM_PKTS; unlock()
				662	* copy_bits() is in progress ...
				663	* timer fires on other cpu:
				664	* we can't retire the current block because copy_bits
				665	* is in progress.
				666	*
				667	*/
				668	if (BLOCK_NUM_PKTS(pbd)) {
				669	while (atomic_read(&pkc->blk_fill_in_prog)) {
				670	/* Waiting for skb_copy_bits to finish... */
				671	cpu_relax();
				672	}
				673	}
				674
				675	if (pkc->last_kactive_blk_num == pkc->kactive_blk_num) {
				676	if (!frozen) {
				677	if (!BLOCK_NUM_PKTS(pbd)) {
				678	/* An empty block. Just refresh the timer. */
				679	goto refresh_timer;
				680	}
				681	prb_retire_current_block(pkc, po, TP_STATUS_BLK_TMO);
				682	if (!prb_dispatch_next_block(pkc, po))
				683	goto refresh_timer;
				684	else
				685	goto out;
				686	} else {
				687	/* Case 1. Queue was frozen because user-space was
				688	* lagging behind.
				689	*/
				690	if (prb_curr_blk_in_use(pbd)) {
				691	/*
				692	* Ok, user-space is still behind.
				693	* So just refresh the timer.
				694	*/
				695	goto refresh_timer;
				696	} else {
				697	/* Case 2. queue was frozen,user-space caught up,
				698	* now the link went idle && the timer fired.
				699	* We don't have a block to close.So we open this
				700	* block and restart the timer.
				701	* opening a block thaws the queue,restarts timer
				702	* Thawing/timer-refresh is a side effect.
				703	*/
				704	prb_open_block(pkc, pbd);
				705	goto out;
				706	}
				707	}
				708	}
				709
				710	refresh_timer:
				711	_prb_refresh_rx_retire_blk_timer(pkc);
				712
				713	out:
				714	spin_unlock(&po->sk.sk_receive_queue.lock);
				715	}
				716
				717	static void prb_flush_block(struct tpacket_kbdq_core *pkc1,
				718	struct tpacket_block_desc *pbd1, __u32 status)
				719	{
				720	/* Flush everything minus the block header */
				721
				722	#if ARCH_IMPLEMENTS_FLUSH_DCACHE_PAGE == 1
				723	u8 start, end;
				724
				725	start = (u8 *)pbd1;
				726
				727	/* Skip the block header(we know header WILL fit in 4K) */
				728	start += PAGE_SIZE;
				729
				730	end = (u8 *)PAGE_ALIGN((unsigned long)pkc1->pkblk_end);
				731	for (; start < end; start += PAGE_SIZE)
				732	flush_dcache_page(pgv_to_page(start));
				733
				734	smp_wmb();
				735	#endif
				736
				737	/* Now update the block status. */
				738
				739	BLOCK_STATUS(pbd1) = status;
				740
				741	/* Flush the block header */
				742
				743	#if ARCH_IMPLEMENTS_FLUSH_DCACHE_PAGE == 1
				744	start = (u8 *)pbd1;
				745	flush_dcache_page(pgv_to_page(start));
				746
				747	smp_wmb();
				748	#endif
				749	}
				750
				751	/*
				752	* Side effect:
				753	*
				754	* 1) flush the block
				755	* 2) Increment active_blk_num
				756	*
				757	* Note:We DONT refresh the timer on purpose.
				758	* Because almost always the next block will be opened.
				759	*/
				760	static void prb_close_block(struct tpacket_kbdq_core *pkc1,
				761	struct tpacket_block_desc *pbd1,
				762	struct packet_sock *po, unsigned int stat)
				763	{
				764	__u32 status = TP_STATUS_USER \| stat;
				765
				766	struct tpacket3_hdr *last_pkt;
				767	struct tpacket_hdr_v1 *h1 = &pbd1->hdr.bh1;
				768	struct sock *sk = &po->sk;
				769
				770	if (po->stats.stats3.tp_drops)
				771	status \|= TP_STATUS_LOSING;
				772
				773	last_pkt = (struct tpacket3_hdr *)pkc1->prev;
				774	last_pkt->tp_next_offset = 0;
				775
				776	/* Get the ts of the last pkt */
				777	if (BLOCK_NUM_PKTS(pbd1)) {
				778	h1->ts_last_pkt.ts_sec = last_pkt->tp_sec;
				779	h1->ts_last_pkt.ts_nsec = last_pkt->tp_nsec;
				780	} else {
				781	/* Ok, we tmo'd - so get the current time.
				782	*
				783	* It shouldn't really happen as we don't close empty
				784	* blocks. See prb_retire_rx_blk_timer_expired().
				785	*/
				786	struct timespec ts;
				787	getnstimeofday(&ts);
				788	h1->ts_last_pkt.ts_sec = ts.tv_sec;
				789	h1->ts_last_pkt.ts_nsec = ts.tv_nsec;
				790	}
				791
				792	smp_wmb();
				793
				794	/* Flush the block */
				795	prb_flush_block(pkc1, pbd1, status);
				796
				797	sk->sk_data_ready(sk);
				798
				799	pkc1->kactive_blk_num = GET_NEXT_PRB_BLK_NUM(pkc1);
				800	}
				801
				802	static void prb_thaw_queue(struct tpacket_kbdq_core *pkc)
				803	{
				804	pkc->reset_pending_on_curr_blk = 0;
				805	}
				806
				807	/*
				808	* Side effect of opening a block:
				809	*
				810	* 1) prb_queue is thawed.
				811	* 2) retire_blk_timer is refreshed.
				812	*
				813	*/
				814	static void prb_open_block(struct tpacket_kbdq_core *pkc1,
				815	struct tpacket_block_desc *pbd1)
				816	{
				817	struct timespec ts;
				818	struct tpacket_hdr_v1 *h1 = &pbd1->hdr.bh1;
				819
				820	smp_rmb();
				821
				822	/* We could have just memset this but we will lose the
				823	* flexibility of making the priv area sticky
				824	*/
				825
				826	BLOCK_SNUM(pbd1) = pkc1->knxt_seq_num++;
				827	BLOCK_NUM_PKTS(pbd1) = 0;
				828	BLOCK_LEN(pbd1) = BLK_PLUS_PRIV(pkc1->blk_sizeof_priv);
				829
				830	getnstimeofday(&ts);
				831
				832	h1->ts_first_pkt.ts_sec = ts.tv_sec;
				833	h1->ts_first_pkt.ts_nsec = ts.tv_nsec;
				834
				835	pkc1->pkblk_start = (char *)pbd1;
				836	pkc1->nxt_offset = pkc1->pkblk_start + BLK_PLUS_PRIV(pkc1->blk_sizeof_priv);
				837
				838	BLOCK_O2FP(pbd1) = (__u32)BLK_PLUS_PRIV(pkc1->blk_sizeof_priv);
				839	BLOCK_O2PRIV(pbd1) = BLK_HDR_LEN;
				840
				841	pbd1->version = pkc1->version;
				842	pkc1->prev = pkc1->nxt_offset;
				843	pkc1->pkblk_end = pkc1->pkblk_start + pkc1->kblk_size;
				844
				845	prb_thaw_queue(pkc1);
				846	_prb_refresh_rx_retire_blk_timer(pkc1);
				847
				848	smp_wmb();
				849	}
				850
				851	/*
				852	* Queue freeze logic:
				853	* 1) Assume tp_block_nr = 8 blocks.
				854	* 2) At time 't0', user opens Rx ring.
				855	* 3) Some time past 't0', kernel starts filling blocks starting from 0 .. 7
				856	* 4) user-space is either sleeping or processing block '0'.
				857	* 5) tpacket_rcv is currently filling block '7', since there is no space left,
				858	* it will close block-7,loop around and try to fill block '0'.
				859	* call-flow:
				860	* __packet_lookup_frame_in_block
				861	* prb_retire_current_block()
				862	* prb_dispatch_next_block()
				863	* \|->(BLOCK_STATUS == USER) evaluates to true
				864	* 5.1) Since block-0 is currently in-use, we just freeze the queue.
				865	* 6) Now there are two cases:
				866	* 6.1) Link goes idle right after the queue is frozen.
				867	* But remember, the last open_block() refreshed the timer.
				868	* When this timer expires,it will refresh itself so that we can
				869	* re-open block-0 in near future.
				870	* 6.2) Link is busy and keeps on receiving packets. This is a simple
				871	* case and __packet_lookup_frame_in_block will check if block-0
				872	* is free and can now be re-used.
				873	*/
				874	static void prb_freeze_queue(struct tpacket_kbdq_core *pkc,
				875	struct packet_sock *po)
				876	{
				877	pkc->reset_pending_on_curr_blk = 1;
				878	po->stats.stats3.tp_freeze_q_cnt++;
				879	}
				880
				881	#define TOTAL_PKT_LEN_INCL_ALIGN(length) (ALIGN((length), V3_ALIGNMENT))
				882
				883	/*
				884	* If the next block is free then we will dispatch it
				885	* and return a good offset.
				886	* Else, we will freeze the queue.
				887	* So, caller must check the return value.
				888	*/
				889	static void prb_dispatch_next_block(struct tpacket_kbdq_core pkc,
				890	struct packet_sock *po)
				891	{
				892	struct tpacket_block_desc *pbd;
				893
				894	smp_rmb();
				895
				896	/* 1. Get current block num */
				897	pbd = GET_CURR_PBLOCK_DESC_FROM_CORE(pkc);
				898
				899	/* 2. If this block is currently in_use then freeze the queue */
				900	if (TP_STATUS_USER & BLOCK_STATUS(pbd)) {
				901	prb_freeze_queue(pkc, po);
				902	return NULL;
				903	}
				904
				905	/*
				906	* 3.
				907	* open this block and return the offset where the first packet
				908	* needs to get stored.
				909	*/
				910	prb_open_block(pkc, pbd);
				911	return (void *)pkc->nxt_offset;
				912	}
				913
				914	static void prb_retire_current_block(struct tpacket_kbdq_core *pkc,
				915	struct packet_sock *po, unsigned int status)
				916	{
				917	struct tpacket_block_desc *pbd = GET_CURR_PBLOCK_DESC_FROM_CORE(pkc);
				918
				919	/* retire/close the current block */
				920	if (likely(TP_STATUS_KERNEL == BLOCK_STATUS(pbd))) {
				921	/*
				922	* Plug the case where copy_bits() is in progress on
				923	* cpu-0 and tpacket_rcv() got invoked on cpu-1, didn't
				924	* have space to copy the pkt in the current block and
				925	* called prb_retire_current_block()
				926	*
				927	* We don't need to worry about the TMO case because
				928	* the timer-handler already handled this case.
				929	*/
				930	if (!(status & TP_STATUS_BLK_TMO)) {
				931	while (atomic_read(&pkc->blk_fill_in_prog)) {
				932	/* Waiting for skb_copy_bits to finish... */
				933	cpu_relax();
				934	}
				935	}
				936	prb_close_block(pkc, pbd, po, status);
				937	return;
				938	}
				939	}
				940
				941	static int prb_curr_blk_in_use(struct tpacket_block_desc *pbd)
				942	{
				943	return TP_STATUS_USER & BLOCK_STATUS(pbd);
				944	}
				945
				946	static int prb_queue_frozen(struct tpacket_kbdq_core *pkc)
				947	{
				948	return pkc->reset_pending_on_curr_blk;
				949	}
				950
				951	static void prb_clear_blk_fill_status(struct packet_ring_buffer *rb)
				952	{
				953	struct tpacket_kbdq_core *pkc = GET_PBDQC_FROM_RB(rb);
				954	atomic_dec(&pkc->blk_fill_in_prog);
				955	}
				956
				957	static void prb_fill_rxhash(struct tpacket_kbdq_core *pkc,
				958	struct tpacket3_hdr *ppd)
				959	{
				960	ppd->hv1.tp_rxhash = skb_get_hash(pkc->skb);
				961	}
				962
				963	static void prb_clear_rxhash(struct tpacket_kbdq_core *pkc,
				964	struct tpacket3_hdr *ppd)
				965	{
				966	ppd->hv1.tp_rxhash = 0;
				967	}
				968
				969	static void prb_fill_vlan_info(struct tpacket_kbdq_core *pkc,
				970	struct tpacket3_hdr *ppd)
				971	{
				972	if (skb_vlan_tag_present(pkc->skb)) {
				973	ppd->hv1.tp_vlan_tci = skb_vlan_tag_get(pkc->skb);
				974	ppd->hv1.tp_vlan_tpid = ntohs(pkc->skb->vlan_proto);
				975	ppd->tp_status = TP_STATUS_VLAN_VALID \| TP_STATUS_VLAN_TPID_VALID;
				976	} else {
				977	ppd->hv1.tp_vlan_tci = 0;
				978	ppd->hv1.tp_vlan_tpid = 0;
				979	ppd->tp_status = TP_STATUS_AVAILABLE;
				980	}
				981	}
				982
				983	static void prb_run_all_ft_ops(struct tpacket_kbdq_core *pkc,
				984	struct tpacket3_hdr *ppd)
				985	{
				986	ppd->hv1.tp_padding = 0;
				987	prb_fill_vlan_info(pkc, ppd);
				988
				989	if (pkc->feature_req_word & TP_FT_REQ_FILL_RXHASH)
				990	prb_fill_rxhash(pkc, ppd);
				991	else
				992	prb_clear_rxhash(pkc, ppd);
				993	}
				994
				995	static void prb_fill_curr_block(char *curr,
				996	struct tpacket_kbdq_core *pkc,
				997	struct tpacket_block_desc *pbd,
				998	unsigned int len)
				999	{
				1000	struct tpacket3_hdr *ppd;
				1001
				1002	ppd = (struct tpacket3_hdr *)curr;
				1003	ppd->tp_next_offset = TOTAL_PKT_LEN_INCL_ALIGN(len);
				1004	pkc->prev = curr;
				1005	pkc->nxt_offset += TOTAL_PKT_LEN_INCL_ALIGN(len);
				1006	BLOCK_LEN(pbd) += TOTAL_PKT_LEN_INCL_ALIGN(len);
				1007	BLOCK_NUM_PKTS(pbd) += 1;
				1008	atomic_inc(&pkc->blk_fill_in_prog);
				1009	prb_run_all_ft_ops(pkc, ppd);
				1010	}
				1011
				1012	/* Assumes caller has the sk->rx_queue.lock */
				1013	static void __packet_lookup_frame_in_block(struct packet_sock po,
				1014	struct sk_buff *skb,
				1015	int status,
				1016	unsigned int len
				1017	)
				1018	{
				1019	struct tpacket_kbdq_core *pkc;
				1020	struct tpacket_block_desc *pbd;
				1021	char curr, end;
				1022
				1023	pkc = GET_PBDQC_FROM_RB(&po->rx_ring);
				1024	pbd = GET_CURR_PBLOCK_DESC_FROM_CORE(pkc);
				1025
				1026	/* Queue is frozen when user space is lagging behind */
				1027	if (prb_queue_frozen(pkc)) {
				1028	/*
				1029	* Check if that last block which caused the queue to freeze,
				1030	* is still in_use by user-space.
				1031	*/
				1032	if (prb_curr_blk_in_use(pbd)) {
				1033	/* Can't record this packet */
				1034	return NULL;
				1035	} else {
				1036	/*
				1037	* Ok, the block was released by user-space.
				1038	* Now let's open that block.
				1039	* opening a block also thaws the queue.
				1040	* Thawing is a side effect.
				1041	*/
				1042	prb_open_block(pkc, pbd);
				1043	}
				1044	}
				1045
				1046	smp_mb();
				1047	curr = pkc->nxt_offset;
				1048	pkc->skb = skb;
				1049	end = (char *)pbd + pkc->kblk_size;
				1050
				1051	/* first try the current block */
				1052	if (curr+TOTAL_PKT_LEN_INCL_ALIGN(len) < end) {
				1053	prb_fill_curr_block(curr, pkc, pbd, len);
				1054	return (void *)curr;
				1055	}
				1056
				1057	/* Ok, close the current block */
				1058	prb_retire_current_block(pkc, po, 0);
				1059
				1060	/* Now, try to dispatch the next block */
				1061	curr = (char *)prb_dispatch_next_block(pkc, po);
				1062	if (curr) {
				1063	pbd = GET_CURR_PBLOCK_DESC_FROM_CORE(pkc);
				1064	prb_fill_curr_block(curr, pkc, pbd, len);
				1065	return (void *)curr;
				1066	}
				1067
				1068	/*
				1069	* No free blocks are available.user_space hasn't caught up yet.
				1070	* Queue was just frozen and now this packet will get dropped.
				1071	*/
				1072	return NULL;
				1073	}
				1074
				1075	static void packet_current_rx_frame(struct packet_sock po,
				1076	struct sk_buff *skb,
				1077	int status, unsigned int len)
				1078	{
				1079	char *curr = NULL;
				1080	switch (po->tp_version) {
				1081	case TPACKET_V1:
				1082	case TPACKET_V2:
				1083	curr = packet_lookup_frame(po, &po->rx_ring,
				1084	po->rx_ring.head, status);
				1085	return curr;
				1086	case TPACKET_V3:
				1087	return __packet_lookup_frame_in_block(po, skb, status, len);
				1088	default:
				1089	WARN(1, "TPACKET version not supported\n");
				1090	BUG();
				1091	return NULL;
				1092	}
				1093	}
				1094
				1095	static void prb_lookup_block(struct packet_sock po,
				1096	struct packet_ring_buffer *rb,
				1097	unsigned int idx,
				1098	int status)
				1099	{
				1100	struct tpacket_kbdq_core *pkc = GET_PBDQC_FROM_RB(rb);
				1101	struct tpacket_block_desc *pbd = GET_PBLOCK_DESC(pkc, idx);
				1102
				1103	if (status != BLOCK_STATUS(pbd))
				1104	return NULL;
				1105	return pbd;
				1106	}
				1107
				1108	static int prb_previous_blk_num(struct packet_ring_buffer *rb)
				1109	{
				1110	unsigned int prev;
				1111	if (rb->prb_bdqc.kactive_blk_num)
				1112	prev = rb->prb_bdqc.kactive_blk_num-1;
				1113	else
				1114	prev = rb->prb_bdqc.knum_blocks-1;
				1115	return prev;
				1116	}
				1117
				1118	/* Assumes caller has held the rx_queue.lock */
				1119	static void __prb_previous_block(struct packet_sock po,
				1120	struct packet_ring_buffer *rb,
				1121	int status)
				1122	{
				1123	unsigned int previous = prb_previous_blk_num(rb);
				1124	return prb_lookup_block(po, rb, previous, status);
				1125	}
				1126
				1127	static void packet_previous_rx_frame(struct packet_sock po,
				1128	struct packet_ring_buffer *rb,
				1129	int status)
				1130	{
				1131	if (po->tp_version <= TPACKET_V2)
				1132	return packet_previous_frame(po, rb, status);
				1133
				1134	return __prb_previous_block(po, rb, status);
				1135	}
				1136
				1137	static void packet_increment_rx_head(struct packet_sock *po,
				1138	struct packet_ring_buffer *rb)
				1139	{
				1140	switch (po->tp_version) {
				1141	case TPACKET_V1:
				1142	case TPACKET_V2:
				1143	return packet_increment_head(rb);
				1144	case TPACKET_V3:
				1145	default:
				1146	WARN(1, "TPACKET version not supported.\n");
				1147	BUG();
				1148	return;
				1149	}
				1150	}
				1151
				1152	static void packet_previous_frame(struct packet_sock po,
				1153	struct packet_ring_buffer *rb,
				1154	int status)
				1155	{
				1156	unsigned int previous = rb->head ? rb->head - 1 : rb->frame_max;
				1157	return packet_lookup_frame(po, rb, previous, status);
				1158	}
				1159
				1160	static void packet_increment_head(struct packet_ring_buffer *buff)
				1161	{
				1162	buff->head = buff->head != buff->frame_max ? buff->head+1 : 0;
				1163	}
				1164
				1165	static void packet_inc_pending(struct packet_ring_buffer *rb)
				1166	{
				1167	this_cpu_inc(*rb->pending_refcnt);
				1168	}
				1169
				1170	static void packet_dec_pending(struct packet_ring_buffer *rb)
				1171	{
				1172	this_cpu_dec(*rb->pending_refcnt);
				1173	}
				1174
				1175	static unsigned int packet_read_pending(const struct packet_ring_buffer *rb)
				1176	{
				1177	unsigned int refcnt = 0;
				1178	int cpu;
				1179
				1180	/* We don't use pending refcount in rx_ring. */
				1181	if (rb->pending_refcnt == NULL)
				1182	return 0;
				1183
				1184	for_each_possible_cpu(cpu)
				1185	refcnt += *per_cpu_ptr(rb->pending_refcnt, cpu);
				1186
				1187	return refcnt;
				1188	}
				1189
				1190	static int packet_alloc_pending(struct packet_sock *po)
				1191	{
				1192	po->rx_ring.pending_refcnt = NULL;
				1193
				1194	po->tx_ring.pending_refcnt = alloc_percpu(unsigned int);
				1195	if (unlikely(po->tx_ring.pending_refcnt == NULL))
				1196	return -ENOBUFS;
				1197
				1198	return 0;
				1199	}
				1200
				1201	static void packet_free_pending(struct packet_sock *po)
				1202	{
				1203	free_percpu(po->tx_ring.pending_refcnt);
				1204	}
				1205
				1206	#define ROOM_POW_OFF 2
				1207	#define ROOM_NONE 0x0
				1208	#define ROOM_LOW 0x1
				1209	#define ROOM_NORMAL 0x2
				1210
				1211	static bool __tpacket_has_room(struct packet_sock *po, int pow_off)
				1212	{
				1213	int idx, len;
				1214
				1215	len = po->rx_ring.frame_max + 1;
				1216	idx = po->rx_ring.head;
				1217	if (pow_off)
				1218	idx += len >> pow_off;
				1219	if (idx >= len)
				1220	idx -= len;
				1221	return packet_lookup_frame(po, &po->rx_ring, idx, TP_STATUS_KERNEL);
				1222	}
				1223
				1224	static bool __tpacket_v3_has_room(struct packet_sock *po, int pow_off)
				1225	{
				1226	int idx, len;
				1227
				1228	len = po->rx_ring.prb_bdqc.knum_blocks;
				1229	idx = po->rx_ring.prb_bdqc.kactive_blk_num;
				1230	if (pow_off)
				1231	idx += len >> pow_off;
				1232	if (idx >= len)
				1233	idx -= len;
				1234	return prb_lookup_block(po, &po->rx_ring, idx, TP_STATUS_KERNEL);
				1235	}
				1236
				1237	static int __packet_rcv_has_room(struct packet_sock po, struct sk_buff skb)
				1238	{
				1239	struct sock *sk = &po->sk;
				1240	int ret = ROOM_NONE;
				1241
				1242	if (po->prot_hook.func != tpacket_rcv) {
				1243	int avail = sk->sk_rcvbuf - atomic_read(&sk->sk_rmem_alloc)
				1244	- (skb ? skb->truesize : 0);
				1245	if (avail > (sk->sk_rcvbuf >> ROOM_POW_OFF))
				1246	return ROOM_NORMAL;
				1247	else if (avail > 0)
				1248	return ROOM_LOW;
				1249	else
				1250	return ROOM_NONE;
				1251	}
				1252
				1253	if (po->tp_version == TPACKET_V3) {
				1254	if (__tpacket_v3_has_room(po, ROOM_POW_OFF))
				1255	ret = ROOM_NORMAL;
				1256	else if (__tpacket_v3_has_room(po, 0))
				1257	ret = ROOM_LOW;
				1258	} else {
				1259	if (__tpacket_has_room(po, ROOM_POW_OFF))
				1260	ret = ROOM_NORMAL;
				1261	else if (__tpacket_has_room(po, 0))
				1262	ret = ROOM_LOW;
				1263	}
				1264
				1265	return ret;
				1266	}
				1267
				1268	static int packet_rcv_has_room(struct packet_sock po, struct sk_buff skb)
				1269	{
				1270	int ret;
				1271	bool has_room;
				1272
				1273	spin_lock_bh(&po->sk.sk_receive_queue.lock);
				1274	ret = __packet_rcv_has_room(po, skb);
				1275	has_room = ret == ROOM_NORMAL;
				1276	if (po->pressure == has_room)
				1277	po->pressure = !has_room;
				1278	spin_unlock_bh(&po->sk.sk_receive_queue.lock);
				1279
				1280	return ret;
				1281	}
				1282
				1283	static void packet_sock_destruct(struct sock *sk)
				1284	{
				1285	skb_queue_purge(&sk->sk_error_queue);
				1286
				1287	WARN_ON(atomic_read(&sk->sk_rmem_alloc));
				1288	WARN_ON(refcount_read(&sk->sk_wmem_alloc));
				1289
				1290	if (!sock_flag(sk, SOCK_DEAD)) {
				1291	pr_err("Attempt to release alive packet socket: %p\n", sk);
				1292	return;
				1293	}
				1294
				1295	sk_refcnt_debug_dec(sk);
				1296	}
				1297
				1298	static bool fanout_flow_is_huge(struct packet_sock po, struct sk_buff skb)
				1299	{
				1300	u32 rxhash;
				1301	int i, count = 0;
				1302
				1303	rxhash = skb_get_hash(skb);
				1304	for (i = 0; i < ROLLOVER_HLEN; i++)
				1305	if (po->rollover->history[i] == rxhash)
				1306	count++;
				1307
				1308	po->rollover->history[prandom_u32() % ROLLOVER_HLEN] = rxhash;
				1309	return count > (ROLLOVER_HLEN >> 1);
				1310	}
				1311
				1312	static unsigned int fanout_demux_hash(struct packet_fanout *f,
				1313	struct sk_buff *skb,
				1314	unsigned int num)
				1315	{
				1316	return reciprocal_scale(__skb_get_hash_symmetric(skb), num);
				1317	}
				1318
				1319	static unsigned int fanout_demux_lb(struct packet_fanout *f,
				1320	struct sk_buff *skb,
				1321	unsigned int num)
				1322	{
				1323	unsigned int val = atomic_inc_return(&f->rr_cur);
				1324
				1325	return val % num;
				1326	}
				1327
				1328	static unsigned int fanout_demux_cpu(struct packet_fanout *f,
				1329	struct sk_buff *skb,
				1330	unsigned int num)
				1331	{
				1332	return smp_processor_id() % num;
				1333	}
				1334
				1335	static unsigned int fanout_demux_rnd(struct packet_fanout *f,
				1336	struct sk_buff *skb,
				1337	unsigned int num)
				1338	{
				1339	return prandom_u32_max(num);
				1340	}
				1341
				1342	static unsigned int fanout_demux_rollover(struct packet_fanout *f,
				1343	struct sk_buff *skb,
				1344	unsigned int idx, bool try_self,
				1345	unsigned int num)
				1346	{
				1347	struct packet_sock po, po_next, *po_skip = NULL;
				1348	unsigned int i, j, room = ROOM_NONE;
				1349
				1350	po = pkt_sk(f->arr[idx]);
				1351
				1352	if (try_self) {
				1353	room = packet_rcv_has_room(po, skb);
				1354	if (room == ROOM_NORMAL \|\|
				1355	(room == ROOM_LOW && !fanout_flow_is_huge(po, skb)))
				1356	return idx;
				1357	po_skip = po;
				1358	}
				1359
				1360	i = j = min_t(int, po->rollover->sock, num - 1);
				1361	do {
				1362	po_next = pkt_sk(f->arr[i]);
				1363	if (po_next != po_skip && !po_next->pressure &&
				1364	packet_rcv_has_room(po_next, skb) == ROOM_NORMAL) {
				1365	if (i != j)
				1366	po->rollover->sock = i;
				1367	atomic_long_inc(&po->rollover->num);
				1368	if (room == ROOM_LOW)
				1369	atomic_long_inc(&po->rollover->num_huge);
				1370	return i;
				1371	}
				1372
				1373	if (++i == num)
				1374	i = 0;
				1375	} while (i != j);
				1376
				1377	atomic_long_inc(&po->rollover->num_failed);
				1378	return idx;
				1379	}
				1380
				1381	static unsigned int fanout_demux_qm(struct packet_fanout *f,
				1382	struct sk_buff *skb,
				1383	unsigned int num)
				1384	{
				1385	return skb_get_queue_mapping(skb) % num;
				1386	}
				1387
				1388	static unsigned int fanout_demux_bpf(struct packet_fanout *f,
				1389	struct sk_buff *skb,
				1390	unsigned int num)
				1391	{
				1392	struct bpf_prog *prog;
				1393	unsigned int ret = 0;
				1394
				1395	rcu_read_lock();
				1396	prog = rcu_dereference(f->bpf_prog);
				1397	if (prog)
				1398	ret = bpf_prog_run_clear_cb(prog, skb) % num;
				1399	rcu_read_unlock();
				1400
				1401	return ret;
				1402	}
				1403
				1404	static bool fanout_has_flag(struct packet_fanout *f, u16 flag)
				1405	{
				1406	return f->flags & (flag >> 8);
				1407	}
				1408
				1409	static int packet_rcv_fanout(struct sk_buff skb, struct net_device dev,
				1410	struct packet_type pt, struct net_device orig_dev)
				1411	{
				1412	struct packet_fanout *f = pt->af_packet_priv;
				1413	unsigned int num = READ_ONCE(f->num_members);
				1414	struct net *net = read_pnet(&f->net);
				1415	struct packet_sock *po;
				1416	unsigned int idx;
				1417
				1418	if (!net_eq(dev_net(dev), net) \|\| !num) {
				1419	kfree_skb(skb);
				1420	return 0;
				1421	}
				1422
				1423	if (fanout_has_flag(f, PACKET_FANOUT_FLAG_DEFRAG)) {
				1424	skb = ip_check_defrag(net, skb, IP_DEFRAG_AF_PACKET);
				1425	if (!skb)
				1426	return 0;
				1427	}
				1428	switch (f->type) {
				1429	case PACKET_FANOUT_HASH:
				1430	default:
				1431	idx = fanout_demux_hash(f, skb, num);
				1432	break;
				1433	case PACKET_FANOUT_LB:
				1434	idx = fanout_demux_lb(f, skb, num);
				1435	break;
				1436	case PACKET_FANOUT_CPU:
				1437	idx = fanout_demux_cpu(f, skb, num);
				1438	break;
				1439	case PACKET_FANOUT_RND:
				1440	idx = fanout_demux_rnd(f, skb, num);
				1441	break;
				1442	case PACKET_FANOUT_QM:
				1443	idx = fanout_demux_qm(f, skb, num);
				1444	break;
				1445	case PACKET_FANOUT_ROLLOVER:
				1446	idx = fanout_demux_rollover(f, skb, 0, false, num);
				1447	break;
				1448	case PACKET_FANOUT_CBPF:
				1449	case PACKET_FANOUT_EBPF:
				1450	idx = fanout_demux_bpf(f, skb, num);
				1451	break;
				1452	}
				1453
				1454	if (fanout_has_flag(f, PACKET_FANOUT_FLAG_ROLLOVER))
				1455	idx = fanout_demux_rollover(f, skb, idx, true, num);
				1456
				1457	po = pkt_sk(f->arr[idx]);
				1458	return po->prot_hook.func(skb, dev, &po->prot_hook, orig_dev);
				1459	}
				1460
				1461	DEFINE_MUTEX(fanout_mutex);
				1462	EXPORT_SYMBOL_GPL(fanout_mutex);
				1463	static LIST_HEAD(fanout_list);
				1464	static u16 fanout_next_id;
				1465
				1466	static void __fanout_link(struct sock sk, struct packet_sock po)
				1467	{
				1468	struct packet_fanout *f = po->fanout;
				1469
				1470	spin_lock(&f->lock);
				1471	f->arr[f->num_members] = sk;
				1472	smp_wmb();
				1473	f->num_members++;
				1474	if (f->num_members == 1)
				1475	dev_add_pack(&f->prot_hook);
				1476	spin_unlock(&f->lock);
				1477	}
				1478
				1479	static void __fanout_unlink(struct sock sk, struct packet_sock po)
				1480	{
				1481	struct packet_fanout *f = po->fanout;
				1482	int i;
				1483
				1484	spin_lock(&f->lock);
				1485	for (i = 0; i < f->num_members; i++) {
				1486	if (f->arr[i] == sk)
				1487	break;
				1488	}
				1489	BUG_ON(i >= f->num_members);
				1490	f->arr[i] = f->arr[f->num_members - 1];
				1491	f->num_members--;
				1492	if (f->num_members == 0)
				1493	__dev_remove_pack(&f->prot_hook);
				1494	spin_unlock(&f->lock);
				1495	}
				1496
				1497	static bool match_fanout_group(struct packet_type ptype, struct sock sk)
				1498	{
				1499	if (sk->sk_family != PF_PACKET)
				1500	return false;
				1501
				1502	return ptype->af_packet_priv == pkt_sk(sk)->fanout;
				1503	}
				1504
				1505	static void fanout_init_data(struct packet_fanout *f)
				1506	{
				1507	switch (f->type) {
				1508	case PACKET_FANOUT_LB:
				1509	atomic_set(&f->rr_cur, 0);
				1510	break;
				1511	case PACKET_FANOUT_CBPF:
				1512	case PACKET_FANOUT_EBPF:
				1513	RCU_INIT_POINTER(f->bpf_prog, NULL);
				1514	break;
				1515	}
				1516	}
				1517
				1518	static void __fanout_set_data_bpf(struct packet_fanout f, struct bpf_prog new)
				1519	{
				1520	struct bpf_prog *old;
				1521
				1522	spin_lock(&f->lock);
				1523	old = rcu_dereference_protected(f->bpf_prog, lockdep_is_held(&f->lock));
				1524	rcu_assign_pointer(f->bpf_prog, new);
				1525	spin_unlock(&f->lock);
				1526
				1527	if (old) {
				1528	synchronize_net();
				1529	bpf_prog_destroy(old);
				1530	}
				1531	}
				1532
				1533	static int fanout_set_data_cbpf(struct packet_sock po, char __user data,
				1534	unsigned int len)
				1535	{
				1536	struct bpf_prog *new;
				1537	struct sock_fprog fprog;
				1538	int ret;
				1539
				1540	if (sock_flag(&po->sk, SOCK_FILTER_LOCKED))
				1541	return -EPERM;
				1542	if (len != sizeof(fprog))
				1543	return -EINVAL;
				1544	if (copy_from_user(&fprog, data, len))
				1545	return -EFAULT;
				1546
				1547	ret = bpf_prog_create_from_user(&new, &fprog, NULL, false);
				1548	if (ret)
				1549	return ret;
				1550
				1551	__fanout_set_data_bpf(po->fanout, new);
				1552	return 0;
				1553	}
				1554
				1555	static int fanout_set_data_ebpf(struct packet_sock po, char __user data,
				1556	unsigned int len)
				1557	{
				1558	struct bpf_prog *new;
				1559	u32 fd;
				1560
				1561	if (sock_flag(&po->sk, SOCK_FILTER_LOCKED))
				1562	return -EPERM;
				1563	if (len != sizeof(fd))
				1564	return -EINVAL;
				1565	if (copy_from_user(&fd, data, len))
				1566	return -EFAULT;
				1567
				1568	new = bpf_prog_get_type(fd, BPF_PROG_TYPE_SOCKET_FILTER);
				1569	if (IS_ERR(new))
				1570	return PTR_ERR(new);
				1571
				1572	__fanout_set_data_bpf(po->fanout, new);
				1573	return 0;
				1574	}
				1575
				1576	static int fanout_set_data(struct packet_sock po, char __user data,
				1577	unsigned int len)
				1578	{
				1579	switch (po->fanout->type) {
				1580	case PACKET_FANOUT_CBPF:
				1581	return fanout_set_data_cbpf(po, data, len);
				1582	case PACKET_FANOUT_EBPF:
				1583	return fanout_set_data_ebpf(po, data, len);
				1584	default:
				1585	return -EINVAL;
				1586	}
				1587	}
				1588
				1589	static void fanout_release_data(struct packet_fanout *f)
				1590	{
				1591	switch (f->type) {
				1592	case PACKET_FANOUT_CBPF:
				1593	case PACKET_FANOUT_EBPF:
				1594	__fanout_set_data_bpf(f, NULL);
				1595	}
				1596	}
				1597
				1598	static bool __fanout_id_is_free(struct sock *sk, u16 candidate_id)
				1599	{
				1600	struct packet_fanout *f;
				1601
				1602	list_for_each_entry(f, &fanout_list, list) {
				1603	if (f->id == candidate_id &&
				1604	read_pnet(&f->net) == sock_net(sk)) {
				1605	return false;
				1606	}
				1607	}
				1608	return true;
				1609	}
				1610
				1611	static bool fanout_find_new_id(struct sock sk, u16 new_id)
				1612	{
				1613	u16 id = fanout_next_id;
				1614
				1615	do {
				1616	if (__fanout_id_is_free(sk, id)) {
				1617	*new_id = id;
				1618	fanout_next_id = id + 1;
				1619	return true;
				1620	}
				1621
				1622	id++;
				1623	} while (id != fanout_next_id);
				1624
				1625	return false;
				1626	}
				1627
				1628	static int fanout_add(struct sock *sk, u16 id, u16 type_flags)
				1629	{
				1630	struct packet_rollover *rollover = NULL;
				1631	struct packet_sock *po = pkt_sk(sk);
				1632	struct packet_fanout f, match;
				1633	u8 type = type_flags & 0xff;
				1634	u8 flags = type_flags >> 8;
				1635	int err;
				1636
				1637	switch (type) {
				1638	case PACKET_FANOUT_ROLLOVER:
				1639	if (type_flags & PACKET_FANOUT_FLAG_ROLLOVER)
				1640	return -EINVAL;
				1641	case PACKET_FANOUT_HASH:
				1642	case PACKET_FANOUT_LB:
				1643	case PACKET_FANOUT_CPU:
				1644	case PACKET_FANOUT_RND:
				1645	case PACKET_FANOUT_QM:
				1646	case PACKET_FANOUT_CBPF:
				1647	case PACKET_FANOUT_EBPF:
				1648	break;
				1649	default:
				1650	return -EINVAL;
				1651	}
				1652
				1653	mutex_lock(&fanout_mutex);
				1654
				1655	err = -EALREADY;
				1656	if (po->fanout)
				1657	goto out;
				1658
				1659	if (type == PACKET_FANOUT_ROLLOVER \|\|
				1660	(type_flags & PACKET_FANOUT_FLAG_ROLLOVER)) {
				1661	err = -ENOMEM;
				1662	rollover = kzalloc(sizeof(*rollover), GFP_KERNEL);
				1663	if (!rollover)
				1664	goto out;
				1665	atomic_long_set(&rollover->num, 0);
				1666	atomic_long_set(&rollover->num_huge, 0);
				1667	atomic_long_set(&rollover->num_failed, 0);
				1668	}
				1669
				1670	if (type_flags & PACKET_FANOUT_FLAG_UNIQUEID) {
				1671	if (id != 0) {
				1672	err = -EINVAL;
				1673	goto out;
				1674	}
				1675	if (!fanout_find_new_id(sk, &id)) {
				1676	err = -ENOMEM;
				1677	goto out;
				1678	}
				1679	/* ephemeral flag for the first socket in the group: drop it */
				1680	flags &= ~(PACKET_FANOUT_FLAG_UNIQUEID >> 8);
				1681	}
				1682
				1683	match = NULL;
				1684	list_for_each_entry(f, &fanout_list, list) {
				1685	if (f->id == id &&
				1686	read_pnet(&f->net) == sock_net(sk)) {
				1687	match = f;
				1688	break;
				1689	}
				1690	}
				1691	err = -EINVAL;
				1692	if (match && match->flags != flags)
				1693	goto out;
				1694	if (!match) {
				1695	err = -ENOMEM;
				1696	match = kzalloc(sizeof(*match), GFP_KERNEL);
				1697	if (!match)
				1698	goto out;
				1699	write_pnet(&match->net, sock_net(sk));
				1700	match->id = id;
				1701	match->type = type;
				1702	match->flags = flags;
				1703	INIT_LIST_HEAD(&match->list);
				1704	spin_lock_init(&match->lock);
				1705	refcount_set(&match->sk_ref, 0);
				1706	fanout_init_data(match);
				1707	match->prot_hook.type = po->prot_hook.type;
				1708	match->prot_hook.dev = po->prot_hook.dev;
				1709	match->prot_hook.func = packet_rcv_fanout;
				1710	match->prot_hook.af_packet_priv = match;
				1711	match->prot_hook.id_match = match_fanout_group;
				1712	list_add(&match->list, &fanout_list);
				1713	}
				1714	err = -EINVAL;
				1715
				1716	spin_lock(&po->bind_lock);
				1717	if (po->running &&
				1718	match->type == type &&
				1719	match->prot_hook.type == po->prot_hook.type &&
				1720	match->prot_hook.dev == po->prot_hook.dev) {
				1721	err = -ENOSPC;
				1722	if (refcount_read(&match->sk_ref) < PACKET_FANOUT_MAX) {
				1723	__dev_remove_pack(&po->prot_hook);
				1724	po->fanout = match;
				1725	po->rollover = rollover;
				1726	rollover = NULL;
				1727	refcount_set(&match->sk_ref, refcount_read(&match->sk_ref) + 1);
				1728	__fanout_link(sk, po);
				1729	err = 0;
				1730	}
				1731	}
				1732	spin_unlock(&po->bind_lock);
				1733
				1734	if (err && !refcount_read(&match->sk_ref)) {
				1735	list_del(&match->list);
				1736	kfree(match);
				1737	}
				1738
				1739	out:
				1740	kfree(rollover);
				1741	mutex_unlock(&fanout_mutex);
				1742	return err;
				1743	}
				1744
				1745	/* If pkt_sk(sk)->fanout->sk_ref is zero, this function removes
				1746	* pkt_sk(sk)->fanout from fanout_list and returns pkt_sk(sk)->fanout.
				1747	* It is the responsibility of the caller to call fanout_release_data() and
				1748	* free the returned packet_fanout (after synchronize_net())
				1749	*/
				1750	static struct packet_fanout fanout_release(struct sock sk)
				1751	{
				1752	struct packet_sock *po = pkt_sk(sk);
				1753	struct packet_fanout *f;
				1754
				1755	mutex_lock(&fanout_mutex);
				1756	f = po->fanout;
				1757	if (f) {
				1758	po->fanout = NULL;
				1759
				1760	if (refcount_dec_and_test(&f->sk_ref))
				1761	list_del(&f->list);
				1762	else
				1763	f = NULL;
				1764	}
				1765	mutex_unlock(&fanout_mutex);
				1766
				1767	return f;
				1768	}
				1769
				1770	static bool packet_extra_vlan_len_allowed(const struct net_device *dev,
				1771	struct sk_buff *skb)
				1772	{
				1773	/* Earlier code assumed this would be a VLAN pkt, double-check
				1774	* this now that we have the actual packet in hand. We can only
				1775	* do this check on Ethernet devices.
				1776	*/
				1777	if (unlikely(dev->type != ARPHRD_ETHER))
				1778	return false;
				1779
				1780	skb_reset_mac_header(skb);
				1781	return likely(eth_hdr(skb)->h_proto == htons(ETH_P_8021Q));
				1782	}
				1783
				1784	static const struct proto_ops packet_ops;
				1785
				1786	static const struct proto_ops packet_ops_spkt;
				1787
				1788	static int packet_rcv_spkt(struct sk_buff skb, struct net_device dev,
				1789	struct packet_type pt, struct net_device orig_dev)
				1790	{
				1791	struct sock *sk;
				1792	struct sockaddr_pkt *spkt;
				1793	struct packet_sock *po;
				1794
				1795	/*
				1796	* When we registered the protocol we saved the socket in the data
				1797	* field for just this event.
				1798	*/
				1799
				1800	sk = pt->af_packet_priv;
				1801	po = pkt_sk(sk);
				1802
				1803	/*
				1804	* Yank back the headers [hope the device set this
				1805	* right or kerboom...]
				1806	*
				1807	* Incoming packets have ll header pulled,
				1808	* push it back.
				1809	*
				1810	* For outgoing ones skb->data == skb_mac_header(skb)
				1811	* so that this procedure is noop.
				1812	*/
				1813
				1814	if (!(po->pkt_type & (1 << skb->pkt_type)))
				1815	goto out;
				1816
				1817	if (!net_eq(dev_net(dev), sock_net(sk)))
				1818	goto out;
				1819
				1820	skb = skb_share_check(skb, GFP_ATOMIC);
				1821	if (skb == NULL)
				1822	goto oom;
				1823
				1824	/* drop any routing info */
				1825	skb_dst_drop(skb);
				1826
				1827	/* drop conntrack reference */
				1828	nf_reset(skb);
				1829
				1830	spkt = &PACKET_SKB_CB(skb)->sa.pkt;
				1831
				1832	skb_push(skb, skb->data - skb_mac_header(skb));
				1833
				1834	/*
				1835	* The SOCK_PACKET socket receives _all_ frames.
				1836	*/
				1837
				1838	spkt->spkt_family = dev->type;
				1839	strlcpy(spkt->spkt_device, dev->name, sizeof(spkt->spkt_device));
				1840	spkt->spkt_protocol = skb->protocol;
				1841
				1842	/*
				1843	* Charge the memory to the socket. This is done specifically
				1844	* to prevent sockets using all the memory up.
				1845	*/
				1846
				1847	if (sock_queue_rcv_skb(sk, skb) == 0)
				1848	return 0;
				1849
				1850	out:
				1851	kfree_skb(skb);
				1852	oom:
				1853	return 0;
				1854	}
				1855
				1856
				1857	/*
				1858	* Output a raw packet to a device layer. This bypasses all the other
				1859	* protocol layers and you must therefore supply it with a complete frame
				1860	*/
				1861
				1862	static int packet_sendmsg_spkt(struct socket sock, struct msghdr msg,
				1863	size_t len)
				1864	{
				1865	struct sock *sk = sock->sk;
				1866	DECLARE_SOCKADDR(struct sockaddr_pkt *, saddr, msg->msg_name);
				1867	struct sk_buff *skb = NULL;
				1868	struct net_device *dev;
				1869	struct sockcm_cookie sockc;
				1870	__be16 proto = 0;
				1871	int err;
				1872	int extra_len = 0;
				1873
				1874	/*
				1875	* Get and verify the address.
				1876	*/
				1877
				1878	if (saddr) {
				1879	if (msg->msg_namelen < sizeof(struct sockaddr))
				1880	return -EINVAL;
				1881	if (msg->msg_namelen == sizeof(struct sockaddr_pkt))
				1882	proto = saddr->spkt_protocol;
				1883	} else
				1884	return -ENOTCONN; /* SOCK_PACKET must be sent giving an address */
				1885
				1886	/*
				1887	* Find the device first to size check it
				1888	*/
				1889
				1890	saddr->spkt_device[sizeof(saddr->spkt_device) - 1] = 0;
				1891	retry:
				1892	rcu_read_lock();
				1893	dev = dev_get_by_name_rcu(sock_net(sk), saddr->spkt_device);
				1894	err = -ENODEV;
				1895	if (dev == NULL)
				1896	goto out_unlock;
				1897
				1898	err = -ENETDOWN;
				1899	if (!(dev->flags & IFF_UP))
				1900	goto out_unlock;
				1901
				1902	/*
				1903	* You may not queue a frame bigger than the mtu. This is the lowest level
				1904	* raw protocol and you must do your own fragmentation at this level.
				1905	*/
				1906
				1907	if (unlikely(sock_flag(sk, SOCK_NOFCS))) {
				1908	if (!netif_supports_nofcs(dev)) {
				1909	err = -EPROTONOSUPPORT;
				1910	goto out_unlock;
				1911	}
				1912	extra_len = 4; /* We're doing our own CRC */
				1913	}
				1914
				1915	err = -EMSGSIZE;
				1916	if (len > dev->mtu + dev->hard_header_len + VLAN_HLEN + extra_len)
				1917	goto out_unlock;
				1918
				1919	if (!skb) {
				1920	size_t reserved = LL_RESERVED_SPACE(dev);
				1921	int tlen = dev->needed_tailroom;
				1922	unsigned int hhlen = dev->header_ops ? dev->hard_header_len : 0;
				1923
				1924	rcu_read_unlock();
				1925	skb = sock_wmalloc(sk, len + reserved + tlen, 0, GFP_KERNEL);
				1926	if (skb == NULL)
				1927	return -ENOBUFS;
				1928	/* FIXME: Save some space for broken drivers that write a hard
				1929	* header at transmission time by themselves. PPP is the notable
				1930	* one here. This should really be fixed at the driver level.
				1931	*/
				1932	skb_reserve(skb, reserved);
				1933	skb_reset_network_header(skb);
				1934
				1935	/* Try to align data part correctly */
				1936	if (hhlen) {
				1937	skb->data -= hhlen;
				1938	skb->tail -= hhlen;
				1939	if (len < hhlen)
				1940	skb_reset_network_header(skb);
				1941	}
				1942	err = memcpy_from_msg(skb_put(skb, len), msg, len);
				1943	if (err)
				1944	goto out_free;
				1945	goto retry;
				1946	}
				1947
				1948	if (!dev_validate_header(dev, skb->data, len)) {
				1949	err = -EINVAL;
				1950	goto out_unlock;
				1951	}
				1952	if (len > (dev->mtu + dev->hard_header_len + extra_len) &&
				1953	!packet_extra_vlan_len_allowed(dev, skb)) {
				1954	err = -EMSGSIZE;
				1955	goto out_unlock;
				1956	}
				1957
				1958	sockcm_init(&sockc, sk);
				1959	if (msg->msg_controllen) {
				1960	err = sock_cmsg_send(sk, msg, &sockc);
				1961	if (unlikely(err))
				1962	goto out_unlock;
				1963	}
				1964
				1965	skb->protocol = proto;
				1966	skb->dev = dev;
				1967	skb->priority = sk->sk_priority;
				1968	skb->mark = sk->sk_mark;
				1969	skb->tstamp = sockc.transmit_time;
				1970
				1971	sock_tx_timestamp(sk, sockc.tsflags, &skb_shinfo(skb)->tx_flags);
				1972
				1973	if (unlikely(extra_len == 4))
				1974	skb->no_fcs = 1;
				1975
				1976	skb_probe_transport_header(skb, 0);
				1977
				1978	dev_queue_xmit(skb);
				1979	rcu_read_unlock();
				1980	return len;
				1981
				1982	out_unlock:
				1983	rcu_read_unlock();
				1984	out_free:
				1985	kfree_skb(skb);
				1986	return err;
				1987	}
				1988
				1989	static unsigned int run_filter(struct sk_buff *skb,
				1990	const struct sock *sk,
				1991	unsigned int res)
				1992	{
				1993	struct sk_filter *filter;
				1994
				1995	rcu_read_lock();
				1996	filter = rcu_dereference(sk->sk_filter);
				1997	if (filter != NULL)
				1998	res = bpf_prog_run_clear_cb(filter->prog, skb);
				1999	rcu_read_unlock();
				2000
				2001	return res;
				2002	}
				2003
				2004	static int packet_rcv_vnet(struct msghdr msg, const struct sk_buff skb,
				2005	size_t *len)
				2006	{
				2007	struct virtio_net_hdr vnet_hdr;
				2008
				2009	if (*len < sizeof(vnet_hdr))
				2010	return -EINVAL;
				2011	*len -= sizeof(vnet_hdr);
				2012
				2013	if (virtio_net_hdr_from_skb(skb, &vnet_hdr, vio_le(), true, 0))
				2014	return -EINVAL;
				2015
				2016	return memcpy_to_msg(msg, (void *)&vnet_hdr, sizeof(vnet_hdr));
				2017	}
				2018
				2019	/*
				2020	* This function makes lazy skb cloning in hope that most of packets
				2021	* are discarded by BPF.
				2022	*
				2023	* Note tricky part: we DO mangle shared skb! skb->data, skb->len
				2024	* and skb->cb are mangled. It works because (and until) packets
				2025	* falling here are owned by current CPU. Output packets are cloned
				2026	* by dev_queue_xmit_nit(), input packets are processed by net_bh
				2027	* sequencially, so that if we return skb to original state on exit,
				2028	* we will not harm anyone.
				2029	*/
				2030
				2031	static int packet_rcv(struct sk_buff skb, struct net_device dev,
				2032	struct packet_type pt, struct net_device orig_dev)
				2033	{
				2034	struct sock *sk;
				2035	struct sockaddr_ll *sll;
				2036	struct packet_sock *po;
				2037	u8 *skb_head = skb->data;
				2038	int skb_len = skb->len;
				2039	unsigned int snaplen, res;
				2040	bool is_drop_n_account = false;
				2041
				2042	sk = pt->af_packet_priv;
				2043	po = pkt_sk(sk);
				2044
				2045	if (!(po->pkt_type & (1 << skb->pkt_type)))
				2046	goto drop;
				2047
				2048	if (!net_eq(dev_net(dev), sock_net(sk)))
				2049	goto drop;
				2050
				2051	skb->dev = dev;
				2052
				2053	if (dev->header_ops) {
				2054	/* The device has an explicit notion of ll header,
				2055	* exported to higher levels.
				2056	*
				2057	* Otherwise, the device hides details of its frame
				2058	* structure, so that corresponding packet head is
				2059	* never delivered to user.
				2060	*/
				2061	if (sk->sk_type != SOCK_DGRAM)
				2062	skb_push(skb, skb->data - skb_mac_header(skb));
				2063	else if (skb->pkt_type == PACKET_OUTGOING) {
				2064	/* Special case: outgoing packets have ll header at head */
				2065	skb_pull(skb, skb_network_offset(skb));
				2066	}
				2067	}
				2068
				2069	snaplen = skb->len;
				2070
				2071	res = run_filter(skb, sk, snaplen);
				2072	if (!res)
				2073	goto drop_n_restore;
				2074	if (snaplen > res)
				2075	snaplen = res;
				2076
				2077	if (atomic_read(&sk->sk_rmem_alloc) >= sk->sk_rcvbuf)
				2078	goto drop_n_acct;
				2079
				2080	if (skb_shared(skb)) {
				2081	struct sk_buff *nskb = skb_clone(skb, GFP_ATOMIC);
				2082	if (nskb == NULL)
				2083	goto drop_n_acct;
				2084
				2085	if (skb_head != skb->data) {
				2086	skb->data = skb_head;
				2087	skb->len = skb_len;
				2088	}
				2089	consume_skb(skb);
				2090	skb = nskb;
				2091	}
				2092
				2093	sock_skb_cb_check_size(sizeof(*PACKET_SKB_CB(skb)) + MAX_ADDR_LEN - 8);
				2094
				2095	sll = &PACKET_SKB_CB(skb)->sa.ll;
				2096	sll->sll_hatype = dev->type;
				2097	sll->sll_pkttype = skb->pkt_type;
				2098	if (unlikely(po->origdev))
				2099	sll->sll_ifindex = orig_dev->ifindex;
				2100	else
				2101	sll->sll_ifindex = dev->ifindex;
				2102
				2103	sll->sll_halen = dev_parse_header(skb, sll->sll_addr);
				2104
				2105	/* sll->sll_family and sll->sll_protocol are set in packet_recvmsg().
				2106	* Use their space for storing the original skb length.
				2107	*/
				2108	PACKET_SKB_CB(skb)->sa.origlen = skb->len;
				2109
				2110	if (pskb_trim(skb, snaplen))
				2111	goto drop_n_acct;
				2112
				2113	skb_set_owner_r(skb, sk);
				2114	skb->dev = NULL;
				2115	skb_dst_drop(skb);
				2116
				2117	/* drop conntrack reference */
				2118	nf_reset(skb);
				2119
				2120	spin_lock(&sk->sk_receive_queue.lock);
				2121	po->stats.stats1.tp_packets++;
				2122	sock_skb_set_dropcount(sk, skb);
				2123	__skb_queue_tail(&sk->sk_receive_queue, skb);
				2124	spin_unlock(&sk->sk_receive_queue.lock);
				2125	sk->sk_data_ready(sk);
				2126	return 0;
				2127
				2128	drop_n_acct:
				2129	is_drop_n_account = true;
				2130	spin_lock(&sk->sk_receive_queue.lock);
				2131	po->stats.stats1.tp_drops++;
				2132	atomic_inc(&sk->sk_drops);
				2133	spin_unlock(&sk->sk_receive_queue.lock);
				2134
				2135	drop_n_restore:
				2136	if (skb_head != skb->data && skb_shared(skb)) {
				2137	skb->data = skb_head;
				2138	skb->len = skb_len;
				2139	}
				2140	drop:
				2141	if (!is_drop_n_account)
				2142	consume_skb(skb);
				2143	else
				2144	kfree_skb(skb);
				2145	return 0;
				2146	}
				2147
				2148	static int tpacket_rcv(struct sk_buff skb, struct net_device dev,
				2149	struct packet_type pt, struct net_device orig_dev)
				2150	{
				2151	struct sock *sk;
				2152	struct packet_sock *po;
				2153	struct sockaddr_ll *sll;
				2154	union tpacket_uhdr h;
				2155	u8 *skb_head = skb->data;
				2156	int skb_len = skb->len;
				2157	unsigned int snaplen, res;
				2158	unsigned long status = TP_STATUS_USER;
				2159	unsigned short macoff, netoff, hdrlen;
				2160	struct sk_buff *copy_skb = NULL;
				2161	struct timespec ts;
				2162	__u32 ts_status;
				2163	bool is_drop_n_account = false;
				2164	bool do_vnet = false;
				2165
				2166	/* struct tpacket{2,3}_hdr is aligned to a multiple of TPACKET_ALIGNMENT.
				2167	* We may add members to them until current aligned size without forcing
				2168	* userspace to call getsockopt(..., PACKET_HDRLEN, ...).
				2169	*/
				2170	BUILD_BUG_ON(TPACKET_ALIGN(sizeof(*h.h2)) != 32);
				2171	BUILD_BUG_ON(TPACKET_ALIGN(sizeof(*h.h3)) != 48);
				2172
				2173	sk = pt->af_packet_priv;
				2174	po = pkt_sk(sk);
				2175
				2176	if (!(po->pkt_type & (1 << skb->pkt_type)))
				2177	goto drop;
				2178
				2179	if (!net_eq(dev_net(dev), sock_net(sk)))
				2180	goto drop;
				2181
				2182	if (dev->header_ops) {
				2183	if (sk->sk_type != SOCK_DGRAM)
				2184	skb_push(skb, skb->data - skb_mac_header(skb));
				2185	else if (skb->pkt_type == PACKET_OUTGOING) {
				2186	/* Special case: outgoing packets have ll header at head */
				2187	skb_pull(skb, skb_network_offset(skb));
				2188	}
				2189	}
				2190
				2191	snaplen = skb->len;
				2192
				2193	res = run_filter(skb, sk, snaplen);
				2194	if (!res)
				2195	goto drop_n_restore;
				2196
				2197	if (skb->ip_summed == CHECKSUM_PARTIAL)
				2198	status \|= TP_STATUS_CSUMNOTREADY;
				2199	else if (skb->pkt_type != PACKET_OUTGOING &&
				2200	(skb->ip_summed == CHECKSUM_COMPLETE \|\|
				2201	skb_csum_unnecessary(skb)))
				2202	status \|= TP_STATUS_CSUM_VALID;
				2203
				2204	if (snaplen > res)
				2205	snaplen = res;
				2206
				2207	if (sk->sk_type == SOCK_DGRAM) {
				2208	macoff = netoff = TPACKET_ALIGN(po->tp_hdrlen) + 16 +
				2209	po->tp_reserve;
				2210	} else {
				2211	unsigned int maclen = skb_network_offset(skb);
				2212	netoff = TPACKET_ALIGN(po->tp_hdrlen +
				2213	(maclen < 16 ? 16 : maclen)) +
				2214	po->tp_reserve;
				2215	if (po->has_vnet_hdr) {
				2216	netoff += sizeof(struct virtio_net_hdr);
				2217	do_vnet = true;
				2218	}
				2219	macoff = netoff - maclen;
				2220	}
				2221	if (po->tp_version <= TPACKET_V2) {
				2222	if (macoff + snaplen > po->rx_ring.frame_size) {
				2223	if (po->copy_thresh &&
				2224	atomic_read(&sk->sk_rmem_alloc) < sk->sk_rcvbuf) {
				2225	if (skb_shared(skb)) {
				2226	copy_skb = skb_clone(skb, GFP_ATOMIC);
				2227	} else {
				2228	copy_skb = skb_get(skb);
				2229	skb_head = skb->data;
				2230	}
				2231	if (copy_skb)
				2232	skb_set_owner_r(copy_skb, sk);
				2233	}
				2234	snaplen = po->rx_ring.frame_size - macoff;
				2235	if ((int)snaplen < 0) {
				2236	snaplen = 0;
				2237	do_vnet = false;
				2238	}
				2239	}
				2240	} else if (unlikely(macoff + snaplen >
				2241	GET_PBDQC_FROM_RB(&po->rx_ring)->max_frame_len)) {
				2242	u32 nval;
				2243
				2244	nval = GET_PBDQC_FROM_RB(&po->rx_ring)->max_frame_len - macoff;
				2245	pr_err_once("tpacket_rcv: packet too big, clamped from %u to %u. macoff=%u\n",
				2246	snaplen, nval, macoff);
				2247	snaplen = nval;
				2248	if (unlikely((int)snaplen < 0)) {
				2249	snaplen = 0;
				2250	macoff = GET_PBDQC_FROM_RB(&po->rx_ring)->max_frame_len;
				2251	do_vnet = false;
				2252	}
				2253	}
				2254	spin_lock(&sk->sk_receive_queue.lock);
				2255	h.raw = packet_current_rx_frame(po, skb,
				2256	TP_STATUS_KERNEL, (macoff+snaplen));
				2257	if (!h.raw)
				2258	goto drop_n_account;
				2259	if (po->tp_version <= TPACKET_V2) {
				2260	packet_increment_rx_head(po, &po->rx_ring);
				2261	/*
				2262	* LOSING will be reported till you read the stats,
				2263	* because it's COR - Clear On Read.
				2264	* Anyways, moving it for V1/V2 only as V3 doesn't need this
				2265	* at packet level.
				2266	*/
				2267	if (po->stats.stats1.tp_drops)
				2268	status \|= TP_STATUS_LOSING;
				2269	}
				2270
				2271	if (do_vnet &&
				2272	virtio_net_hdr_from_skb(skb, h.raw + macoff -
				2273	sizeof(struct virtio_net_hdr),
				2274	vio_le(), true, 0))
				2275	goto drop_n_account;
				2276
				2277	po->stats.stats1.tp_packets++;
				2278	if (copy_skb) {
				2279	status \|= TP_STATUS_COPY;
				2280	__skb_queue_tail(&sk->sk_receive_queue, copy_skb);
				2281	}
				2282	spin_unlock(&sk->sk_receive_queue.lock);
				2283
				2284	skb_copy_bits(skb, 0, h.raw + macoff, snaplen);
				2285
				2286	if (!(ts_status = tpacket_get_timestamp(skb, &ts, po->tp_tstamp)))
				2287	getnstimeofday(&ts);
				2288
				2289	status \|= ts_status;
				2290
				2291	switch (po->tp_version) {
				2292	case TPACKET_V1:
				2293	h.h1->tp_len = skb->len;
				2294	h.h1->tp_snaplen = snaplen;
				2295	h.h1->tp_mac = macoff;
				2296	h.h1->tp_net = netoff;
				2297	h.h1->tp_sec = ts.tv_sec;
				2298	h.h1->tp_usec = ts.tv_nsec / NSEC_PER_USEC;
				2299	hdrlen = sizeof(*h.h1);
				2300	break;
				2301	case TPACKET_V2:
				2302	h.h2->tp_len = skb->len;
				2303	h.h2->tp_snaplen = snaplen;
				2304	h.h2->tp_mac = macoff;
				2305	h.h2->tp_net = netoff;
				2306	h.h2->tp_sec = ts.tv_sec;
				2307	h.h2->tp_nsec = ts.tv_nsec;
				2308	if (skb_vlan_tag_present(skb)) {
				2309	h.h2->tp_vlan_tci = skb_vlan_tag_get(skb);
				2310	h.h2->tp_vlan_tpid = ntohs(skb->vlan_proto);
				2311	status \|= TP_STATUS_VLAN_VALID \| TP_STATUS_VLAN_TPID_VALID;
				2312	} else {
				2313	h.h2->tp_vlan_tci = 0;
				2314	h.h2->tp_vlan_tpid = 0;
				2315	}
				2316	memset(h.h2->tp_padding, 0, sizeof(h.h2->tp_padding));
				2317	hdrlen = sizeof(*h.h2);
				2318	break;
				2319	case TPACKET_V3:
				2320	/* tp_nxt_offset,vlan are already populated above.
				2321	* So DONT clear those fields here
				2322	*/
				2323	h.h3->tp_status \|= status;
				2324	h.h3->tp_len = skb->len;
				2325	h.h3->tp_snaplen = snaplen;
				2326	h.h3->tp_mac = macoff;
				2327	h.h3->tp_net = netoff;
				2328	h.h3->tp_sec = ts.tv_sec;
				2329	h.h3->tp_nsec = ts.tv_nsec;
				2330	memset(h.h3->tp_padding, 0, sizeof(h.h3->tp_padding));
				2331	hdrlen = sizeof(*h.h3);
				2332	break;
				2333	default:
				2334	BUG();
				2335	}
				2336
				2337	sll = h.raw + TPACKET_ALIGN(hdrlen);
				2338	sll->sll_halen = dev_parse_header(skb, sll->sll_addr);
				2339	sll->sll_family = AF_PACKET;
				2340	sll->sll_hatype = dev->type;
				2341	sll->sll_protocol = skb->protocol;
				2342	sll->sll_pkttype = skb->pkt_type;
				2343	if (unlikely(po->origdev))
				2344	sll->sll_ifindex = orig_dev->ifindex;
				2345	else
				2346	sll->sll_ifindex = dev->ifindex;
				2347
				2348	smp_mb();
				2349
				2350	#if ARCH_IMPLEMENTS_FLUSH_DCACHE_PAGE == 1
				2351	if (po->tp_version <= TPACKET_V2) {
				2352	u8 start, end;
				2353
				2354	end = (u8 *) PAGE_ALIGN((unsigned long) h.raw +
				2355	macoff + snaplen);
				2356
				2357	for (start = h.raw; start < end; start += PAGE_SIZE)
				2358	flush_dcache_page(pgv_to_page(start));
				2359	}
				2360	smp_wmb();
				2361	#endif
				2362
				2363	if (po->tp_version <= TPACKET_V2) {
				2364	__packet_set_status(po, h.raw, status);
				2365	sk->sk_data_ready(sk);
				2366	} else {
				2367	prb_clear_blk_fill_status(&po->rx_ring);
				2368	}
				2369
				2370	drop_n_restore:
				2371	if (skb_head != skb->data && skb_shared(skb)) {
				2372	skb->data = skb_head;
				2373	skb->len = skb_len;
				2374	}
				2375	drop:
				2376	if (!is_drop_n_account)
				2377	consume_skb(skb);
				2378	else
				2379	kfree_skb(skb);
				2380	return 0;
				2381
				2382	drop_n_account:
				2383	is_drop_n_account = true;
				2384	po->stats.stats1.tp_drops++;
				2385	spin_unlock(&sk->sk_receive_queue.lock);
				2386
				2387	sk->sk_data_ready(sk);
				2388	kfree_skb(copy_skb);
				2389	goto drop_n_restore;
				2390	}
				2391
				2392	static void tpacket_destruct_skb(struct sk_buff *skb)
				2393	{
				2394	struct packet_sock *po = pkt_sk(skb->sk);
				2395
				2396	if (likely(po->tx_ring.pg_vec)) {
				2397	void *ph;
				2398	__u32 ts;
				2399
				2400	ph = skb_zcopy_get_nouarg(skb);
				2401	packet_dec_pending(&po->tx_ring);
				2402
				2403	ts = __packet_set_timestamp(po, ph, skb);
				2404	__packet_set_status(po, ph, TP_STATUS_AVAILABLE \| ts);
				2405
				2406	if (!packet_read_pending(&po->tx_ring))
				2407	complete(&po->skb_completion);
				2408	}
				2409
				2410	sock_wfree(skb);
				2411	}
				2412
				2413	static void tpacket_set_protocol(const struct net_device *dev,
				2414	struct sk_buff *skb)
				2415	{
				2416	if (dev->type == ARPHRD_ETHER) {
				2417	skb_reset_mac_header(skb);
				2418	skb->protocol = eth_hdr(skb)->h_proto;
				2419	}
				2420	}
				2421
				2422	static int __packet_snd_vnet_parse(struct virtio_net_hdr *vnet_hdr, size_t len)
				2423	{
				2424	if ((vnet_hdr->flags & VIRTIO_NET_HDR_F_NEEDS_CSUM) &&
				2425	(__virtio16_to_cpu(vio_le(), vnet_hdr->csum_start) +
				2426	__virtio16_to_cpu(vio_le(), vnet_hdr->csum_offset) + 2 >
				2427	__virtio16_to_cpu(vio_le(), vnet_hdr->hdr_len)))
				2428	vnet_hdr->hdr_len = __cpu_to_virtio16(vio_le(),
				2429	__virtio16_to_cpu(vio_le(), vnet_hdr->csum_start) +
				2430	__virtio16_to_cpu(vio_le(), vnet_hdr->csum_offset) + 2);
				2431
				2432	if (__virtio16_to_cpu(vio_le(), vnet_hdr->hdr_len) > len)
				2433	return -EINVAL;
				2434
				2435	return 0;
				2436	}
				2437
				2438	static int packet_snd_vnet_parse(struct msghdr msg, size_t len,
				2439	struct virtio_net_hdr *vnet_hdr)
				2440	{
				2441	if (len < sizeof(vnet_hdr))
				2442	return -EINVAL;
				2443	len -= sizeof(vnet_hdr);
				2444
				2445	if (!copy_from_iter_full(vnet_hdr, sizeof(*vnet_hdr), &msg->msg_iter))
				2446	return -EFAULT;
				2447
				2448	return __packet_snd_vnet_parse(vnet_hdr, *len);
				2449	}
				2450
				2451	static int tpacket_fill_skb(struct packet_sock po, struct sk_buff skb,
				2452	void frame, struct net_device dev, void *data, int tp_len,
				2453	__be16 proto, unsigned char *addr, int hlen, int copylen,
				2454	const struct sockcm_cookie *sockc)
				2455	{
				2456	union tpacket_uhdr ph;
				2457	int to_write, offset, len, nr_frags, len_max;
				2458	struct socket *sock = po->sk.sk_socket;
				2459	struct page *page;
				2460	int err;
				2461
				2462	ph.raw = frame;
				2463
				2464	skb->protocol = proto;
				2465	skb->dev = dev;
				2466	skb->priority = po->sk.sk_priority;
				2467	skb->mark = po->sk.sk_mark;
				2468	skb->tstamp = sockc->transmit_time;
				2469	sock_tx_timestamp(&po->sk, sockc->tsflags, &skb_shinfo(skb)->tx_flags);
				2470	skb_zcopy_set_nouarg(skb, ph.raw);
				2471
				2472	skb_reserve(skb, hlen);
				2473	skb_reset_network_header(skb);
				2474
				2475	to_write = tp_len;
				2476
				2477	if (sock->type == SOCK_DGRAM) {
				2478	err = dev_hard_header(skb, dev, ntohs(proto), addr,
				2479	NULL, tp_len);
				2480	if (unlikely(err < 0))
				2481	return -EINVAL;
				2482	} else if (copylen) {
				2483	int hdrlen = min_t(int, copylen, tp_len);
				2484
				2485	skb_push(skb, dev->hard_header_len);
				2486	skb_put(skb, copylen - dev->hard_header_len);
				2487	err = skb_store_bits(skb, 0, data, hdrlen);
				2488	if (unlikely(err))
				2489	return err;
				2490	if (!dev_validate_header(dev, skb->data, hdrlen))
				2491	return -EINVAL;
				2492	if (!skb->protocol)
				2493	tpacket_set_protocol(dev, skb);
				2494
				2495	data += hdrlen;
				2496	to_write -= hdrlen;
				2497	}
				2498
				2499	offset = offset_in_page(data);
				2500	len_max = PAGE_SIZE - offset;
				2501	len = ((to_write > len_max) ? len_max : to_write);
				2502
				2503	skb->data_len = to_write;
				2504	skb->len += to_write;
				2505	skb->truesize += to_write;
				2506	refcount_add(to_write, &po->sk.sk_wmem_alloc);
				2507
				2508	while (likely(to_write)) {
				2509	nr_frags = skb_shinfo(skb)->nr_frags;
				2510
				2511	if (unlikely(nr_frags >= MAX_SKB_FRAGS)) {
				2512	pr_err("Packet exceed the number of skb frags(%lu)\n",
				2513	MAX_SKB_FRAGS);
				2514	return -EFAULT;
				2515	}
				2516
				2517	page = pgv_to_page(data);
				2518	data += len;
				2519	flush_dcache_page(page);
				2520	get_page(page);
				2521	skb_fill_page_desc(skb, nr_frags, page, offset, len);
				2522	to_write -= len;
				2523	offset = 0;
				2524	len_max = PAGE_SIZE;
				2525	len = ((to_write > len_max) ? len_max : to_write);
				2526	}
				2527
				2528	skb_probe_transport_header(skb, 0);
				2529
				2530	return tp_len;
				2531	}
				2532
				2533	static int tpacket_parse_header(struct packet_sock po, void frame,
				2534	int size_max, void **data)
				2535	{
				2536	union tpacket_uhdr ph;
				2537	int tp_len, off;
				2538
				2539	ph.raw = frame;
				2540
				2541	switch (po->tp_version) {
				2542	case TPACKET_V3:
				2543	if (ph.h3->tp_next_offset != 0) {
				2544	pr_warn_once("variable sized slot not supported");
				2545	return -EINVAL;
				2546	}
				2547	tp_len = ph.h3->tp_len;
				2548	break;
				2549	case TPACKET_V2:
				2550	tp_len = ph.h2->tp_len;
				2551	break;
				2552	default:
				2553	tp_len = ph.h1->tp_len;
				2554	break;
				2555	}
				2556	if (unlikely(tp_len > size_max)) {
				2557	pr_err("packet size is too long (%d > %d)\n", tp_len, size_max);
				2558	return -EMSGSIZE;
				2559	}
				2560
				2561	if (unlikely(po->tp_tx_has_off)) {
				2562	int off_min, off_max;
				2563
				2564	off_min = po->tp_hdrlen - sizeof(struct sockaddr_ll);
				2565	off_max = po->tx_ring.frame_size - tp_len;
				2566	if (po->sk.sk_type == SOCK_DGRAM) {
				2567	switch (po->tp_version) {
				2568	case TPACKET_V3:
				2569	off = ph.h3->tp_net;
				2570	break;
				2571	case TPACKET_V2:
				2572	off = ph.h2->tp_net;
				2573	break;
				2574	default:
				2575	off = ph.h1->tp_net;
				2576	break;
				2577	}
				2578	} else {
				2579	switch (po->tp_version) {
				2580	case TPACKET_V3:
				2581	off = ph.h3->tp_mac;
				2582	break;
				2583	case TPACKET_V2:
				2584	off = ph.h2->tp_mac;
				2585	break;
				2586	default:
				2587	off = ph.h1->tp_mac;
				2588	break;
				2589	}
				2590	}
				2591	if (unlikely((off < off_min) \|\| (off_max < off)))
				2592	return -EINVAL;
				2593	} else {
				2594	off = po->tp_hdrlen - sizeof(struct sockaddr_ll);
				2595	}
				2596
				2597	*data = frame + off;
				2598	return tp_len;
				2599	}
				2600
				2601	static int tpacket_snd(struct packet_sock po, struct msghdr msg)
				2602	{
				2603	struct sk_buff *skb = NULL;
				2604	struct net_device *dev;
				2605	struct virtio_net_hdr *vnet_hdr = NULL;
				2606	struct sockcm_cookie sockc;
				2607	__be16 proto;
				2608	int err, reserve = 0;
				2609	void *ph;
				2610	DECLARE_SOCKADDR(struct sockaddr_ll *, saddr, msg->msg_name);
				2611	bool need_wait = !(msg->msg_flags & MSG_DONTWAIT);
				2612	unsigned char *addr = NULL;
				2613	int tp_len, size_max;
				2614	void *data;
				2615	int len_sum = 0;
				2616	int status = TP_STATUS_AVAILABLE;
				2617	int hlen, tlen, copylen = 0;
				2618	long timeo = 0;
				2619
				2620	mutex_lock(&po->pg_vec_lock);
				2621
				2622	/* packet_sendmsg() check on tx_ring.pg_vec was lockless,
				2623	* we need to confirm it under protection of pg_vec_lock.
				2624	*/
				2625	if (unlikely(!po->tx_ring.pg_vec)) {
				2626	err = -EBUSY;
				2627	goto out;
				2628	}
				2629	if (likely(saddr == NULL)) {
				2630	dev = packet_cached_dev_get(po);
				2631	proto = po->num;
				2632	} else {
				2633	err = -EINVAL;
				2634	if (msg->msg_namelen < sizeof(struct sockaddr_ll))
				2635	goto out;
				2636	if (msg->msg_namelen < (saddr->sll_halen
				2637	+ offsetof(struct sockaddr_ll,
				2638	sll_addr)))
				2639	goto out;
				2640	proto = saddr->sll_protocol;
				2641	dev = dev_get_by_index(sock_net(&po->sk), saddr->sll_ifindex);
				2642	if (po->sk.sk_socket->type == SOCK_DGRAM) {
				2643	if (dev && msg->msg_namelen < dev->addr_len +
				2644	offsetof(struct sockaddr_ll, sll_addr))
				2645	goto out_put;
				2646	addr = saddr->sll_addr;
				2647	}
				2648	}
				2649
				2650	err = -ENXIO;
				2651	if (unlikely(dev == NULL))
				2652	goto out;
				2653	err = -ENETDOWN;
				2654	if (unlikely(!(dev->flags & IFF_UP)))
				2655	goto out_put;
				2656
				2657	sockcm_init(&sockc, &po->sk);
				2658	if (msg->msg_controllen) {
				2659	err = sock_cmsg_send(&po->sk, msg, &sockc);
				2660	if (unlikely(err))
				2661	goto out_put;
				2662	}
				2663
				2664	if (po->sk.sk_socket->type == SOCK_RAW)
				2665	reserve = dev->hard_header_len;
				2666	size_max = po->tx_ring.frame_size
				2667	- (po->tp_hdrlen - sizeof(struct sockaddr_ll));
				2668
				2669	if ((size_max > dev->mtu + reserve + VLAN_HLEN) && !po->has_vnet_hdr)
				2670	size_max = dev->mtu + reserve + VLAN_HLEN;
				2671
				2672	reinit_completion(&po->skb_completion);
				2673
				2674	do {
				2675	ph = packet_current_frame(po, &po->tx_ring,
				2676	TP_STATUS_SEND_REQUEST);
				2677	if (unlikely(ph == NULL)) {
				2678	if (need_wait && skb) {
				2679	timeo = sock_sndtimeo(&po->sk, msg->msg_flags & MSG_DONTWAIT);
				2680	timeo = wait_for_completion_interruptible_timeout(&po->skb_completion, timeo);
				2681	if (timeo <= 0) {
				2682	err = !timeo ? -ETIMEDOUT : -ERESTARTSYS;
				2683	goto out_put;
				2684	}
				2685	}
				2686	/* check for additional frames */
				2687	continue;
				2688	}
				2689
				2690	skb = NULL;
				2691	tp_len = tpacket_parse_header(po, ph, size_max, &data);
				2692	if (tp_len < 0)
				2693	goto tpacket_error;
				2694
				2695	status = TP_STATUS_SEND_REQUEST;
				2696	hlen = LL_RESERVED_SPACE(dev);
				2697	tlen = dev->needed_tailroom;
				2698	if (po->has_vnet_hdr) {
				2699	vnet_hdr = data;
				2700	data += sizeof(*vnet_hdr);
				2701	tp_len -= sizeof(*vnet_hdr);
				2702	if (tp_len < 0 \|\|
				2703	__packet_snd_vnet_parse(vnet_hdr, tp_len)) {
				2704	tp_len = -EINVAL;
				2705	goto tpacket_error;
				2706	}
				2707	copylen = __virtio16_to_cpu(vio_le(),
				2708	vnet_hdr->hdr_len);
				2709	}
				2710	copylen = max_t(int, copylen, dev->hard_header_len);
				2711	skb = sock_alloc_send_skb(&po->sk,
				2712	hlen + tlen + sizeof(struct sockaddr_ll) +
				2713	(copylen - dev->hard_header_len),
				2714	!need_wait, &err);
				2715
				2716	if (unlikely(skb == NULL)) {
				2717	/* we assume the socket was initially writeable ... */
				2718	if (likely(len_sum > 0))
				2719	err = len_sum;
				2720	goto out_status;
				2721	}
				2722	tp_len = tpacket_fill_skb(po, skb, ph, dev, data, tp_len, proto,
				2723	addr, hlen, copylen, &sockc);
				2724	if (likely(tp_len >= 0) &&
				2725	tp_len > dev->mtu + reserve &&
				2726	!po->has_vnet_hdr &&
				2727	!packet_extra_vlan_len_allowed(dev, skb))
				2728	tp_len = -EMSGSIZE;
				2729
				2730	if (unlikely(tp_len < 0)) {
				2731	tpacket_error:
				2732	if (po->tp_loss) {
				2733	__packet_set_status(po, ph,
				2734	TP_STATUS_AVAILABLE);
				2735	packet_increment_head(&po->tx_ring);
				2736	kfree_skb(skb);
				2737	continue;
				2738	} else {
				2739	status = TP_STATUS_WRONG_FORMAT;
				2740	err = tp_len;
				2741	goto out_status;
				2742	}
				2743	}
				2744
				2745	if (po->has_vnet_hdr) {
				2746	if (virtio_net_hdr_to_skb(skb, vnet_hdr, vio_le())) {
				2747	tp_len = -EINVAL;
				2748	goto tpacket_error;
				2749	}
				2750	virtio_net_hdr_set_proto(skb, vnet_hdr);
				2751	}
				2752
				2753	skb->destructor = tpacket_destruct_skb;
				2754	__packet_set_status(po, ph, TP_STATUS_SENDING);
				2755	packet_inc_pending(&po->tx_ring);
				2756
				2757	status = TP_STATUS_SEND_REQUEST;
				2758	err = po->xmit(skb);
				2759	if (unlikely(err > 0)) {
				2760	err = net_xmit_errno(err);
				2761	if (err && __packet_get_status(po, ph) ==
				2762	TP_STATUS_AVAILABLE) {
				2763	/* skb was destructed already */
				2764	skb = NULL;
				2765	goto out_status;
				2766	}
				2767	/*
				2768	* skb was dropped but not destructed yet;
				2769	* let's treat it like congestion or err < 0
				2770	*/
				2771	err = 0;
				2772	}
				2773	packet_increment_head(&po->tx_ring);
				2774	len_sum += tp_len;
				2775	} while (likely((ph != NULL) \|\|
				2776	/* Note: packet_read_pending() might be slow if we have
				2777	* to call it as it's per_cpu variable, but in fast-path
				2778	* we already short-circuit the loop with the first
				2779	* condition, and luckily don't have to go that path
				2780	* anyway.
				2781	*/
				2782	(need_wait && packet_read_pending(&po->tx_ring))));
				2783
				2784	err = len_sum;
				2785	goto out_put;
				2786
				2787	out_status:
				2788	__packet_set_status(po, ph, status);
				2789	kfree_skb(skb);
				2790	out_put:
				2791	dev_put(dev);
				2792	out:
				2793	mutex_unlock(&po->pg_vec_lock);
				2794	return err;
				2795	}
				2796
				2797	static struct sk_buff packet_alloc_skb(struct sock sk, size_t prepad,
				2798	size_t reserve, size_t len,
				2799	size_t linear, int noblock,
				2800	int *err)
				2801	{
				2802	struct sk_buff *skb;
				2803
				2804	/* Under a page? Don't bother with paged skb. */
				2805	if (prepad + len < PAGE_SIZE \|\| !linear)
				2806	linear = len;
				2807
				2808	skb = sock_alloc_send_pskb(sk, prepad + linear, len - linear, noblock,
				2809	err, 0);
				2810	if (!skb)
				2811	return NULL;
				2812
				2813	skb_reserve(skb, reserve);
				2814	skb_put(skb, linear);
				2815	skb->data_len = len - linear;
				2816	skb->len += len - linear;
				2817
				2818	return skb;
				2819	}
				2820
				2821	static int packet_snd(struct socket sock, struct msghdr msg, size_t len)
				2822	{
				2823	struct sock *sk = sock->sk;
				2824	DECLARE_SOCKADDR(struct sockaddr_ll *, saddr, msg->msg_name);
				2825	struct sk_buff *skb;
				2826	struct net_device *dev;
				2827	__be16 proto;
				2828	unsigned char *addr = NULL;
				2829	int err, reserve = 0;
				2830	struct sockcm_cookie sockc;
				2831	struct virtio_net_hdr vnet_hdr = { 0 };
				2832	int offset = 0;
				2833	struct packet_sock *po = pkt_sk(sk);
				2834	bool has_vnet_hdr = false;
				2835	int hlen, tlen, linear;
				2836	int extra_len = 0;
				2837
				2838	/*
				2839	* Get and verify the address.
				2840	*/
				2841
				2842	if (likely(saddr == NULL)) {
				2843	dev = packet_cached_dev_get(po);
				2844	proto = po->num;
				2845	} else {
				2846	err = -EINVAL;
				2847	if (msg->msg_namelen < sizeof(struct sockaddr_ll))
				2848	goto out;
				2849	if (msg->msg_namelen < (saddr->sll_halen + offsetof(struct sockaddr_ll, sll_addr)))
				2850	goto out;
				2851	proto = saddr->sll_protocol;
				2852	dev = dev_get_by_index(sock_net(sk), saddr->sll_ifindex);
				2853	if (sock->type == SOCK_DGRAM) {
				2854	if (dev && msg->msg_namelen < dev->addr_len +
				2855	offsetof(struct sockaddr_ll, sll_addr))
				2856	goto out_unlock;
				2857	addr = saddr->sll_addr;
				2858	}
				2859	}
				2860
				2861	err = -ENXIO;
				2862	if (unlikely(dev == NULL))
				2863	goto out_unlock;
				2864	err = -ENETDOWN;
				2865	if (unlikely(!(dev->flags & IFF_UP)))
				2866	goto out_unlock;
				2867
				2868	sockcm_init(&sockc, sk);
				2869	sockc.mark = sk->sk_mark;
				2870	if (msg->msg_controllen) {
				2871	err = sock_cmsg_send(sk, msg, &sockc);
				2872	if (unlikely(err))
				2873	goto out_unlock;
				2874	}
				2875
				2876	if (sock->type == SOCK_RAW)
				2877	reserve = dev->hard_header_len;
				2878	if (po->has_vnet_hdr) {
				2879	err = packet_snd_vnet_parse(msg, &len, &vnet_hdr);
				2880	if (err)
				2881	goto out_unlock;
				2882	has_vnet_hdr = true;
				2883	}
				2884
				2885	if (unlikely(sock_flag(sk, SOCK_NOFCS))) {
				2886	if (!netif_supports_nofcs(dev)) {
				2887	err = -EPROTONOSUPPORT;
				2888	goto out_unlock;
				2889	}
				2890	extra_len = 4; /* We're doing our own CRC */
				2891	}
				2892
				2893	err = -EMSGSIZE;
				2894	if (!vnet_hdr.gso_type &&
				2895	(len > dev->mtu + reserve + VLAN_HLEN + extra_len))
				2896	goto out_unlock;
				2897
				2898	err = -ENOBUFS;
				2899	hlen = LL_RESERVED_SPACE(dev);
				2900	tlen = dev->needed_tailroom;
				2901	linear = __virtio16_to_cpu(vio_le(), vnet_hdr.hdr_len);
				2902	linear = max(linear, min_t(int, len, dev->hard_header_len));
				2903	skb = packet_alloc_skb(sk, hlen + tlen, hlen, len, linear,
				2904	msg->msg_flags & MSG_DONTWAIT, &err);
				2905	if (skb == NULL)
				2906	goto out_unlock;
				2907
				2908	skb_reset_network_header(skb);
				2909
				2910	err = -EINVAL;
				2911	if (sock->type == SOCK_DGRAM) {
				2912	offset = dev_hard_header(skb, dev, ntohs(proto), addr, NULL, len);
				2913	if (unlikely(offset < 0))
				2914	goto out_free;
				2915	} else if (reserve) {
				2916	skb_reserve(skb, -reserve);
				2917	if (len < reserve + sizeof(struct ipv6hdr) &&
				2918	dev->min_header_len != dev->hard_header_len)
				2919	skb_reset_network_header(skb);
				2920	}
				2921
				2922	/* Returns -EFAULT on error */
				2923	err = skb_copy_datagram_from_iter(skb, offset, &msg->msg_iter, len);
				2924	if (err)
				2925	goto out_free;
				2926
				2927	if (sock->type == SOCK_RAW &&
				2928	!dev_validate_header(dev, skb->data, len)) {
				2929	err = -EINVAL;
				2930	goto out_free;
				2931	}
				2932
				2933	sock_tx_timestamp(sk, sockc.tsflags, &skb_shinfo(skb)->tx_flags);
				2934
				2935	if (!vnet_hdr.gso_type && (len > dev->mtu + reserve + extra_len) &&
				2936	!packet_extra_vlan_len_allowed(dev, skb)) {
				2937	err = -EMSGSIZE;
				2938	goto out_free;
				2939	}
				2940
				2941	skb->protocol = proto;
				2942	skb->dev = dev;
				2943	skb->priority = sk->sk_priority;
				2944	skb->mark = sockc.mark;
				2945	skb->tstamp = sockc.transmit_time;
				2946
				2947	if (has_vnet_hdr) {
				2948	err = virtio_net_hdr_to_skb(skb, &vnet_hdr, vio_le());
				2949	if (err)
				2950	goto out_free;
				2951	len += sizeof(vnet_hdr);
				2952	virtio_net_hdr_set_proto(skb, &vnet_hdr);
				2953	}
				2954
				2955	skb_probe_transport_header(skb, reserve);
				2956
				2957	if (unlikely(extra_len == 4))
				2958	skb->no_fcs = 1;
				2959
				2960	err = po->xmit(skb);
				2961	if (err > 0 && (err = net_xmit_errno(err)) != 0)
				2962	goto out_unlock;
				2963
				2964	dev_put(dev);
				2965
				2966	return len;
				2967
				2968	out_free:
				2969	kfree_skb(skb);
				2970	out_unlock:
				2971	if (dev)
				2972	dev_put(dev);
				2973	out:
				2974	return err;
				2975	}
				2976
				2977	static int packet_sendmsg(struct socket sock, struct msghdr msg, size_t len)
				2978	{
				2979	struct sock *sk = sock->sk;
				2980	struct packet_sock *po = pkt_sk(sk);
				2981
				2982	if (po->tx_ring.pg_vec)
				2983	return tpacket_snd(po, msg);
				2984	else
				2985	return packet_snd(sock, msg, len);
				2986	}
				2987
				2988	/*
				2989	* Close a PACKET socket. This is fairly simple. We immediately go
				2990	* to 'closed' state and remove our protocol entry in the device list.
				2991	*/
				2992
				2993	static int packet_release(struct socket *sock)
				2994	{
				2995	struct sock *sk = sock->sk;
				2996	struct packet_sock *po;
				2997	struct packet_fanout *f;
				2998	struct net *net;
				2999	union tpacket_req_u req_u;
				3000
				3001	if (!sk)
				3002	return 0;
				3003
				3004	net = sock_net(sk);
				3005	po = pkt_sk(sk);
				3006
				3007	mutex_lock(&net->packet.sklist_lock);
				3008	sk_del_node_init_rcu(sk);
				3009	mutex_unlock(&net->packet.sklist_lock);
				3010
				3011	preempt_disable();
				3012	sock_prot_inuse_add(net, sk->sk_prot, -1);
				3013	preempt_enable();
				3014
				3015	spin_lock(&po->bind_lock);
				3016	unregister_prot_hook(sk, false);
				3017	packet_cached_dev_reset(po);
				3018
				3019	if (po->prot_hook.dev) {
				3020	dev_put(po->prot_hook.dev);
				3021	po->prot_hook.dev = NULL;
				3022	}
				3023	spin_unlock(&po->bind_lock);
				3024
				3025	packet_flush_mclist(sk);
				3026
				3027	lock_sock(sk);
				3028	if (po->rx_ring.pg_vec) {
				3029	memset(&req_u, 0, sizeof(req_u));
				3030	packet_set_ring(sk, &req_u, 1, 0);
				3031	}
				3032
				3033	if (po->tx_ring.pg_vec) {
				3034	memset(&req_u, 0, sizeof(req_u));
				3035	packet_set_ring(sk, &req_u, 1, 1);
				3036	}
				3037	release_sock(sk);
				3038
				3039	f = fanout_release(sk);
				3040
				3041	synchronize_net();
				3042
				3043	kfree(po->rollover);
				3044	if (f) {
				3045	fanout_release_data(f);
				3046	kfree(f);
				3047	}
				3048	/*
				3049	* Now the socket is dead. No more input will appear.
				3050	*/
				3051	sock_orphan(sk);
				3052	sock->sk = NULL;
				3053
				3054	/* Purge queues */
				3055
				3056	skb_queue_purge(&sk->sk_receive_queue);
				3057	packet_free_pending(po);
				3058	sk_refcnt_debug_release(sk);
				3059
				3060	sock_put(sk);
				3061	return 0;
				3062	}
				3063
				3064	/*
				3065	* Attach a packet hook.
				3066	*/
				3067
				3068	static int packet_do_bind(struct sock sk, const char name, int ifindex,
				3069	__be16 proto)
				3070	{
				3071	struct packet_sock *po = pkt_sk(sk);
				3072	struct net_device *dev_curr;
				3073	__be16 proto_curr;
				3074	bool need_rehook;
				3075	struct net_device *dev = NULL;
				3076	int ret = 0;
				3077	bool unlisted = false;
				3078
				3079	lock_sock(sk);
				3080	spin_lock(&po->bind_lock);
				3081	rcu_read_lock();
				3082
				3083	if (po->fanout) {
				3084	ret = -EINVAL;
				3085	goto out_unlock;
				3086	}
				3087
				3088	if (name) {
				3089	dev = dev_get_by_name_rcu(sock_net(sk), name);
				3090	if (!dev) {
				3091	ret = -ENODEV;
				3092	goto out_unlock;
				3093	}
				3094	} else if (ifindex) {
				3095	dev = dev_get_by_index_rcu(sock_net(sk), ifindex);
				3096	if (!dev) {
				3097	ret = -ENODEV;
				3098	goto out_unlock;
				3099	}
				3100	}
				3101
				3102	if (dev)
				3103	dev_hold(dev);
				3104
				3105	proto_curr = po->prot_hook.type;
				3106	dev_curr = po->prot_hook.dev;
				3107
				3108	need_rehook = proto_curr != proto \|\| dev_curr != dev;
				3109
				3110	if (need_rehook) {
				3111	if (po->running) {
				3112	rcu_read_unlock();
				3113	/* prevents packet_notifier() from calling
				3114	* register_prot_hook()
				3115	*/
				3116	po->num = 0;
				3117	__unregister_prot_hook(sk, true);
				3118	rcu_read_lock();
				3119	dev_curr = po->prot_hook.dev;
				3120	if (dev)
				3121	unlisted = !dev_get_by_index_rcu(sock_net(sk),
				3122	dev->ifindex);
				3123	}
				3124
				3125	BUG_ON(po->running);
				3126	po->num = proto;
				3127	po->prot_hook.type = proto;
				3128
				3129	if (unlikely(unlisted)) {
				3130	dev_put(dev);
				3131	po->prot_hook.dev = NULL;
				3132	po->ifindex = -1;
				3133	packet_cached_dev_reset(po);
				3134	} else {
				3135	po->prot_hook.dev = dev;
				3136	po->ifindex = dev ? dev->ifindex : 0;
				3137	packet_cached_dev_assign(po, dev);
				3138	}
				3139	}
				3140	if (dev_curr)
				3141	dev_put(dev_curr);
				3142
				3143	if (proto == 0 \|\| !need_rehook)
				3144	goto out_unlock;
				3145
				3146	if (!unlisted && (!dev \|\| (dev->flags & IFF_UP))) {
				3147	register_prot_hook(sk);
				3148	} else {
				3149	sk->sk_err = ENETDOWN;
				3150	if (!sock_flag(sk, SOCK_DEAD))
				3151	sk->sk_error_report(sk);
				3152	}
				3153
				3154	out_unlock:
				3155	rcu_read_unlock();
				3156	spin_unlock(&po->bind_lock);
				3157	release_sock(sk);
				3158	return ret;
				3159	}
				3160
				3161	/*
				3162	* Bind a packet socket to a device
				3163	*/
				3164
				3165	static int packet_bind_spkt(struct socket sock, struct sockaddr uaddr,
				3166	int addr_len)
				3167	{
				3168	struct sock *sk = sock->sk;
				3169	char name[sizeof(uaddr->sa_data) + 1];
				3170
				3171	/*
				3172	* Check legality
				3173	*/
				3174
				3175	if (addr_len != sizeof(struct sockaddr))
				3176	return -EINVAL;
				3177	/* uaddr->sa_data comes from the userspace, it's not guaranteed to be
				3178	* zero-terminated.
				3179	*/
				3180	memcpy(name, uaddr->sa_data, sizeof(uaddr->sa_data));
				3181	name[sizeof(uaddr->sa_data)] = 0;
				3182
				3183	return packet_do_bind(sk, name, 0, pkt_sk(sk)->num);
				3184	}
				3185
				3186	static int packet_bind(struct socket sock, struct sockaddr uaddr, int addr_len)
				3187	{
				3188	struct sockaddr_ll sll = (struct sockaddr_ll )uaddr;
				3189	struct sock *sk = sock->sk;
				3190
				3191	/*
				3192	* Check legality
				3193	*/
				3194
				3195	if (addr_len < sizeof(struct sockaddr_ll))
				3196	return -EINVAL;
				3197	if (sll->sll_family != AF_PACKET)
				3198	return -EINVAL;
				3199
				3200	return packet_do_bind(sk, NULL, sll->sll_ifindex,
				3201	sll->sll_protocol ? : pkt_sk(sk)->num);
				3202	}
				3203
				3204	static struct proto packet_proto = {
				3205	.name = "PACKET",
				3206	.owner = THIS_MODULE,
				3207	.obj_size = sizeof(struct packet_sock),
				3208	};
				3209
				3210	/*
				3211	* Create a packet of type SOCK_PACKET.
				3212	*/
				3213
				3214	static int packet_create(struct net net, struct socket sock, int protocol,
				3215	int kern)
				3216	{
				3217	struct sock *sk;
				3218	struct packet_sock *po;
				3219	__be16 proto = (__force __be16)protocol; /* weird, but documented */
				3220	int err;
				3221
				3222	if (!ns_capable(net->user_ns, CAP_NET_RAW))
				3223	return -EPERM;
				3224	if (sock->type != SOCK_DGRAM && sock->type != SOCK_RAW &&
				3225	sock->type != SOCK_PACKET)
				3226	return -ESOCKTNOSUPPORT;
				3227
				3228	sock->state = SS_UNCONNECTED;
				3229
				3230	err = -ENOBUFS;
				3231	sk = sk_alloc(net, PF_PACKET, GFP_KERNEL, &packet_proto, kern);
				3232	if (sk == NULL)
				3233	goto out;
				3234
				3235	sock->ops = &packet_ops;
				3236	if (sock->type == SOCK_PACKET)
				3237	sock->ops = &packet_ops_spkt;
				3238
				3239	sock_init_data(sock, sk);
				3240
				3241	po = pkt_sk(sk);
				3242	init_completion(&po->skb_completion);
				3243	sk->sk_family = PF_PACKET;
				3244	po->num = proto;
				3245	po->xmit = dev_queue_xmit;
				3246
				3247	err = packet_alloc_pending(po);
				3248	if (err)
				3249	goto out2;
				3250
				3251	packet_cached_dev_reset(po);
				3252
				3253	sk->sk_destruct = packet_sock_destruct;
				3254	sk_refcnt_debug_inc(sk);
				3255
				3256	/*
				3257	* Attach a protocol block
				3258	*/
				3259
				3260	spin_lock_init(&po->bind_lock);
				3261	mutex_init(&po->pg_vec_lock);
				3262	po->rollover = NULL;
				3263	po->prot_hook.func = packet_rcv;
				3264	po->pkt_type = PACKET_MASK_ANY & ~(1 << PACKET_LOOPBACK);
				3265
				3266	if (sock->type == SOCK_PACKET)
				3267	po->prot_hook.func = packet_rcv_spkt;
				3268
				3269	po->prot_hook.af_packet_priv = sk;
				3270
				3271	if (proto) {
				3272	po->prot_hook.type = proto;
				3273	__register_prot_hook(sk);
				3274	}
				3275
				3276	mutex_lock(&net->packet.sklist_lock);
				3277	sk_add_node_tail_rcu(sk, &net->packet.sklist);
				3278	mutex_unlock(&net->packet.sklist_lock);
				3279
				3280	preempt_disable();
				3281	sock_prot_inuse_add(net, &packet_proto, 1);
				3282	preempt_enable();
				3283
				3284	return 0;
				3285	out2:
				3286	sk_free(sk);
				3287	out:
				3288	return err;
				3289	}
				3290
				3291	/*
				3292	* Pull a packet from our receive queue and hand it to the user.
				3293	* If necessary we block.
				3294	*/
				3295
				3296	static int packet_recvmsg(struct socket sock, struct msghdr msg, size_t len,
				3297	int flags)
				3298	{
				3299	struct sock *sk = sock->sk;
				3300	struct sk_buff *skb;
				3301	int copied, err;
				3302	int vnet_hdr_len = 0;
				3303	unsigned int origlen = 0;
				3304
				3305	err = -EINVAL;
				3306	if (flags & ~(MSG_PEEK\|MSG_DONTWAIT\|MSG_TRUNC\|MSG_CMSG_COMPAT\|MSG_ERRQUEUE))
				3307	goto out;
				3308
				3309	#if 0
				3310	/* What error should we return now? EUNATTACH? */
				3311	if (pkt_sk(sk)->ifindex < 0)
				3312	return -ENODEV;
				3313	#endif
				3314
				3315	if (flags & MSG_ERRQUEUE) {
				3316	err = sock_recv_errqueue(sk, msg, len,
				3317	SOL_PACKET, PACKET_TX_TIMESTAMP);
				3318	goto out;
				3319	}
				3320
				3321	/*
				3322	* Call the generic datagram receiver. This handles all sorts
				3323	* of horrible races and re-entrancy so we can forget about it
				3324	* in the protocol layers.
				3325	*
				3326	* Now it will return ENETDOWN, if device have just gone down,
				3327	* but then it will block.
				3328	*/
				3329
				3330	skb = skb_recv_datagram(sk, flags, flags & MSG_DONTWAIT, &err);
				3331
				3332	/*
				3333	* An error occurred so return it. Because skb_recv_datagram()
				3334	* handles the blocking we don't see and worry about blocking
				3335	* retries.
				3336	*/
				3337
				3338	if (skb == NULL)
				3339	goto out;
				3340
				3341	if (pkt_sk(sk)->pressure)
				3342	packet_rcv_has_room(pkt_sk(sk), NULL);
				3343
				3344	if (pkt_sk(sk)->has_vnet_hdr) {
				3345	err = packet_rcv_vnet(msg, skb, &len);
				3346	if (err)
				3347	goto out_free;
				3348	vnet_hdr_len = sizeof(struct virtio_net_hdr);
				3349	}
				3350
				3351	/* You lose any data beyond the buffer you gave. If it worries
				3352	* a user program they can ask the device for its MTU
				3353	* anyway.
				3354	*/
				3355	copied = skb->len;
				3356	if (copied > len) {
				3357	copied = len;
				3358	msg->msg_flags \|= MSG_TRUNC;
				3359	}
				3360
				3361	err = skb_copy_datagram_msg(skb, 0, msg, copied);
				3362	if (err)
				3363	goto out_free;
				3364
				3365	if (sock->type != SOCK_PACKET) {
				3366	struct sockaddr_ll *sll = &PACKET_SKB_CB(skb)->sa.ll;
				3367
				3368	/* Original length was stored in sockaddr_ll fields */
				3369	origlen = PACKET_SKB_CB(skb)->sa.origlen;
				3370	sll->sll_family = AF_PACKET;
				3371	sll->sll_protocol = skb->protocol;
				3372	}
				3373
				3374	sock_recv_ts_and_drops(msg, sk, skb);
				3375
				3376	if (msg->msg_name) {
				3377	/* If the address length field is there to be filled
				3378	* in, we fill it in now.
				3379	*/
				3380	if (sock->type == SOCK_PACKET) {
				3381	__sockaddr_check_size(sizeof(struct sockaddr_pkt));
				3382	msg->msg_namelen = sizeof(struct sockaddr_pkt);
				3383	} else {
				3384	struct sockaddr_ll *sll = &PACKET_SKB_CB(skb)->sa.ll;
				3385
				3386	msg->msg_namelen = sll->sll_halen +
				3387	offsetof(struct sockaddr_ll, sll_addr);
				3388	}
				3389	memcpy(msg->msg_name, &PACKET_SKB_CB(skb)->sa,
				3390	msg->msg_namelen);
				3391	}
				3392
				3393	if (pkt_sk(sk)->auxdata) {
				3394	struct tpacket_auxdata aux;
				3395
				3396	aux.tp_status = TP_STATUS_USER;
				3397	if (skb->ip_summed == CHECKSUM_PARTIAL)
				3398	aux.tp_status \|= TP_STATUS_CSUMNOTREADY;
				3399	else if (skb->pkt_type != PACKET_OUTGOING &&
				3400	(skb->ip_summed == CHECKSUM_COMPLETE \|\|
				3401	skb_csum_unnecessary(skb)))
				3402	aux.tp_status \|= TP_STATUS_CSUM_VALID;
				3403
				3404	aux.tp_len = origlen;
				3405	aux.tp_snaplen = skb->len;
				3406	aux.tp_mac = 0;
				3407	aux.tp_net = skb_network_offset(skb);
				3408	if (skb_vlan_tag_present(skb)) {
				3409	aux.tp_vlan_tci = skb_vlan_tag_get(skb);
				3410	aux.tp_vlan_tpid = ntohs(skb->vlan_proto);
				3411	aux.tp_status \|= TP_STATUS_VLAN_VALID \| TP_STATUS_VLAN_TPID_VALID;
				3412	} else {
				3413	aux.tp_vlan_tci = 0;
				3414	aux.tp_vlan_tpid = 0;
				3415	}
				3416	put_cmsg(msg, SOL_PACKET, PACKET_AUXDATA, sizeof(aux), &aux);
				3417	}
				3418
				3419	/*
				3420	* Free or return the buffer as appropriate. Again this
				3421	* hides all the races and re-entrancy issues from us.
				3422	*/
				3423	err = vnet_hdr_len + ((flags&MSG_TRUNC) ? skb->len : copied);
				3424
				3425	out_free:
				3426	skb_free_datagram(sk, skb);
				3427	out:
				3428	return err;
				3429	}
				3430
				3431	static int packet_getname_spkt(struct socket sock, struct sockaddr uaddr,
				3432	int peer)
				3433	{
				3434	struct net_device *dev;
				3435	struct sock *sk = sock->sk;
				3436
				3437	if (peer)
				3438	return -EOPNOTSUPP;
				3439
				3440	uaddr->sa_family = AF_PACKET;
				3441	memset(uaddr->sa_data, 0, sizeof(uaddr->sa_data));
				3442	rcu_read_lock();
				3443	dev = dev_get_by_index_rcu(sock_net(sk), pkt_sk(sk)->ifindex);
				3444	if (dev)
				3445	strlcpy(uaddr->sa_data, dev->name, sizeof(uaddr->sa_data));
				3446	rcu_read_unlock();
				3447
				3448	return sizeof(*uaddr);
				3449	}
				3450
				3451	static int packet_getname(struct socket sock, struct sockaddr uaddr,
				3452	int peer)
				3453	{
				3454	struct net_device *dev;
				3455	struct sock *sk = sock->sk;
				3456	struct packet_sock *po = pkt_sk(sk);
				3457	DECLARE_SOCKADDR(struct sockaddr_ll *, sll, uaddr);
				3458
				3459	if (peer)
				3460	return -EOPNOTSUPP;
				3461
				3462	sll->sll_family = AF_PACKET;
				3463	sll->sll_ifindex = po->ifindex;
				3464	sll->sll_protocol = po->num;
				3465	sll->sll_pkttype = 0;
				3466	rcu_read_lock();
				3467	dev = dev_get_by_index_rcu(sock_net(sk), po->ifindex);
				3468	if (dev) {
				3469	sll->sll_hatype = dev->type;
				3470	sll->sll_halen = dev->addr_len;
				3471	memcpy(sll->sll_addr, dev->dev_addr, dev->addr_len);
				3472	} else {
				3473	sll->sll_hatype = 0; /* Bad: we have no ARPHRD_UNSPEC */
				3474	sll->sll_halen = 0;
				3475	}
				3476	rcu_read_unlock();
				3477
				3478	return offsetof(struct sockaddr_ll, sll_addr) + sll->sll_halen;
				3479	}
				3480
				3481	static int packet_dev_mc(struct net_device dev, struct packet_mclist i,
				3482	int what)
				3483	{
				3484	switch (i->type) {
				3485	case PACKET_MR_MULTICAST:
				3486	if (i->alen != dev->addr_len)
				3487	return -EINVAL;
				3488	if (what > 0)
				3489	return dev_mc_add(dev, i->addr);
				3490	else
				3491	return dev_mc_del(dev, i->addr);
				3492	break;
				3493	case PACKET_MR_PROMISC:
				3494	return dev_set_promiscuity(dev, what);
				3495	case PACKET_MR_ALLMULTI:
				3496	return dev_set_allmulti(dev, what);
				3497	case PACKET_MR_UNICAST:
				3498	if (i->alen != dev->addr_len)
				3499	return -EINVAL;
				3500	if (what > 0)
				3501	return dev_uc_add(dev, i->addr);
				3502	else
				3503	return dev_uc_del(dev, i->addr);
				3504	break;
				3505	default:
				3506	break;
				3507	}
				3508	return 0;
				3509	}
				3510
				3511	static void packet_dev_mclist_delete(struct net_device *dev,
				3512	struct packet_mclist **mlp)
				3513	{
				3514	struct packet_mclist *ml;
				3515
				3516	while ((ml = *mlp) != NULL) {
				3517	if (ml->ifindex == dev->ifindex) {
				3518	packet_dev_mc(dev, ml, -1);
				3519	*mlp = ml->next;
				3520	kfree(ml);
				3521	} else
				3522	mlp = &ml->next;
				3523	}
				3524	}
				3525
				3526	static int packet_mc_add(struct sock sk, struct packet_mreq_max mreq)
				3527	{
				3528	struct packet_sock *po = pkt_sk(sk);
				3529	struct packet_mclist ml, i;
				3530	struct net_device *dev;
				3531	int err;
				3532
				3533	rtnl_lock();
				3534
				3535	err = -ENODEV;
				3536	dev = __dev_get_by_index(sock_net(sk), mreq->mr_ifindex);
				3537	if (!dev)
				3538	goto done;
				3539
				3540	err = -EINVAL;
				3541	if (mreq->mr_alen > dev->addr_len)
				3542	goto done;
				3543
				3544	err = -ENOBUFS;
				3545	i = kmalloc(sizeof(*i), GFP_KERNEL);
				3546	if (i == NULL)
				3547	goto done;
				3548
				3549	err = 0;
				3550	for (ml = po->mclist; ml; ml = ml->next) {
				3551	if (ml->ifindex == mreq->mr_ifindex &&
				3552	ml->type == mreq->mr_type &&
				3553	ml->alen == mreq->mr_alen &&
				3554	memcmp(ml->addr, mreq->mr_address, ml->alen) == 0) {
				3555	ml->count++;
				3556	/* Free the new element ... */
				3557	kfree(i);
				3558	goto done;
				3559	}
				3560	}
				3561
				3562	i->type = mreq->mr_type;
				3563	i->ifindex = mreq->mr_ifindex;
				3564	i->alen = mreq->mr_alen;
				3565	memcpy(i->addr, mreq->mr_address, i->alen);
				3566	memset(i->addr + i->alen, 0, sizeof(i->addr) - i->alen);
				3567	i->count = 1;
				3568	i->next = po->mclist;
				3569	po->mclist = i;
				3570	err = packet_dev_mc(dev, i, 1);
				3571	if (err) {
				3572	po->mclist = i->next;
				3573	kfree(i);
				3574	}
				3575
				3576	done:
				3577	rtnl_unlock();
				3578	return err;
				3579	}
				3580
				3581	static int packet_mc_drop(struct sock sk, struct packet_mreq_max mreq)
				3582	{
				3583	struct packet_mclist ml, *mlp;
				3584
				3585	rtnl_lock();
				3586
				3587	for (mlp = &pkt_sk(sk)->mclist; (ml = *mlp) != NULL; mlp = &ml->next) {
				3588	if (ml->ifindex == mreq->mr_ifindex &&
				3589	ml->type == mreq->mr_type &&
				3590	ml->alen == mreq->mr_alen &&
				3591	memcmp(ml->addr, mreq->mr_address, ml->alen) == 0) {
				3592	if (--ml->count == 0) {
				3593	struct net_device *dev;
				3594	*mlp = ml->next;
				3595	dev = __dev_get_by_index(sock_net(sk), ml->ifindex);
				3596	if (dev)
				3597	packet_dev_mc(dev, ml, -1);
				3598	kfree(ml);
				3599	}
				3600	break;
				3601	}
				3602	}
				3603	rtnl_unlock();
				3604	return 0;
				3605	}
				3606
				3607	static void packet_flush_mclist(struct sock *sk)
				3608	{
				3609	struct packet_sock *po = pkt_sk(sk);
				3610	struct packet_mclist *ml;
				3611
				3612	if (!po->mclist)
				3613	return;
				3614
				3615	rtnl_lock();
				3616	while ((ml = po->mclist) != NULL) {
				3617	struct net_device *dev;
				3618
				3619	po->mclist = ml->next;
				3620	dev = __dev_get_by_index(sock_net(sk), ml->ifindex);
				3621	if (dev != NULL)
				3622	packet_dev_mc(dev, ml, -1);
				3623	kfree(ml);
				3624	}
				3625	rtnl_unlock();
				3626	}
				3627
				3628	static int
				3629	packet_setsockopt(struct socket sock, int level, int optname, char __user optval, unsigned int optlen)
				3630	{
				3631	struct sock *sk = sock->sk;
				3632	struct packet_sock *po = pkt_sk(sk);
				3633	int ret;
				3634
				3635	if (level != SOL_PACKET)
				3636	return -ENOPROTOOPT;
				3637
				3638	switch (optname) {
				3639	case PACKET_ADD_MEMBERSHIP:
				3640	case PACKET_DROP_MEMBERSHIP:
				3641	{
				3642	struct packet_mreq_max mreq;
				3643	int len = optlen;
				3644	memset(&mreq, 0, sizeof(mreq));
				3645	if (len < sizeof(struct packet_mreq))
				3646	return -EINVAL;
				3647	if (len > sizeof(mreq))
				3648	len = sizeof(mreq);
				3649	if (copy_from_user(&mreq, optval, len))
				3650	return -EFAULT;
				3651	if (len < (mreq.mr_alen + offsetof(struct packet_mreq, mr_address)))
				3652	return -EINVAL;
				3653	if (optname == PACKET_ADD_MEMBERSHIP)
				3654	ret = packet_mc_add(sk, &mreq);
				3655	else
				3656	ret = packet_mc_drop(sk, &mreq);
				3657	return ret;
				3658	}
				3659
				3660	case PACKET_RX_RING:
				3661	case PACKET_TX_RING:
				3662	{
				3663	union tpacket_req_u req_u;
				3664	int len;
				3665
				3666	lock_sock(sk);
				3667	switch (po->tp_version) {
				3668	case TPACKET_V1:
				3669	case TPACKET_V2:
				3670	len = sizeof(req_u.req);
				3671	break;
				3672	case TPACKET_V3:
				3673	default:
				3674	len = sizeof(req_u.req3);
				3675	break;
				3676	}
				3677	if (optlen < len) {
				3678	ret = -EINVAL;
				3679	} else {
				3680	if (copy_from_user(&req_u.req, optval, len))
				3681	ret = -EFAULT;
				3682	else
				3683	ret = packet_set_ring(sk, &req_u, 0,
				3684	optname == PACKET_TX_RING);
				3685	}
				3686	release_sock(sk);
				3687	return ret;
				3688	}
				3689	case PACKET_COPY_THRESH:
				3690	{
				3691	int val;
				3692
				3693	if (optlen != sizeof(val))
				3694	return -EINVAL;
				3695	if (copy_from_user(&val, optval, sizeof(val)))
				3696	return -EFAULT;
				3697
				3698	pkt_sk(sk)->copy_thresh = val;
				3699	return 0;
				3700	}
				3701	case PACKET_VERSION:
				3702	{
				3703	int val;
				3704
				3705	if (optlen != sizeof(val))
				3706	return -EINVAL;
				3707	if (copy_from_user(&val, optval, sizeof(val)))
				3708	return -EFAULT;
				3709	switch (val) {
				3710	case TPACKET_V1:
				3711	case TPACKET_V2:
				3712	case TPACKET_V3:
				3713	break;
				3714	default:
				3715	return -EINVAL;
				3716	}
				3717	lock_sock(sk);
				3718	if (po->rx_ring.pg_vec \|\| po->tx_ring.pg_vec) {
				3719	ret = -EBUSY;
				3720	} else {
				3721	po->tp_version = val;
				3722	ret = 0;
				3723	}
				3724	release_sock(sk);
				3725	return ret;
				3726	}
				3727	case PACKET_RESERVE:
				3728	{
				3729	unsigned int val;
				3730
				3731	if (optlen != sizeof(val))
				3732	return -EINVAL;
				3733	if (copy_from_user(&val, optval, sizeof(val)))
				3734	return -EFAULT;
				3735	if (val > INT_MAX)
				3736	return -EINVAL;
				3737	lock_sock(sk);
				3738	if (po->rx_ring.pg_vec \|\| po->tx_ring.pg_vec) {
				3739	ret = -EBUSY;
				3740	} else {
				3741	po->tp_reserve = val;
				3742	ret = 0;
				3743	}
				3744	release_sock(sk);
				3745	return ret;
				3746	}
				3747	case PACKET_LOSS:
				3748	{
				3749	unsigned int val;
				3750
				3751	if (optlen != sizeof(val))
				3752	return -EINVAL;
				3753	if (copy_from_user(&val, optval, sizeof(val)))
				3754	return -EFAULT;
				3755
				3756	lock_sock(sk);
				3757	if (po->rx_ring.pg_vec \|\| po->tx_ring.pg_vec) {
				3758	ret = -EBUSY;
				3759	} else {
				3760	po->tp_loss = !!val;
				3761	ret = 0;
				3762	}
				3763	release_sock(sk);
				3764	return ret;
				3765	}
				3766	case PACKET_AUXDATA:
				3767	{
				3768	int val;
				3769
				3770	if (optlen < sizeof(val))
				3771	return -EINVAL;
				3772	if (copy_from_user(&val, optval, sizeof(val)))
				3773	return -EFAULT;
				3774
				3775	lock_sock(sk);
				3776	po->auxdata = !!val;
				3777	release_sock(sk);
				3778	return 0;
				3779	}
				3780	case PACKET_ORIGDEV:
				3781	{
				3782	int val;
				3783
				3784	if (optlen < sizeof(val))
				3785	return -EINVAL;
				3786	if (copy_from_user(&val, optval, sizeof(val)))
				3787	return -EFAULT;
				3788
				3789	lock_sock(sk);
				3790	po->origdev = !!val;
				3791	release_sock(sk);
				3792	return 0;
				3793	}
				3794	case PACKET_VNET_HDR:
				3795	{
				3796	int val;
				3797
				3798	if (sock->type != SOCK_RAW)
				3799	return -EINVAL;
				3800	if (optlen < sizeof(val))
				3801	return -EINVAL;
				3802	if (copy_from_user(&val, optval, sizeof(val)))
				3803	return -EFAULT;
				3804
				3805	lock_sock(sk);
				3806	if (po->rx_ring.pg_vec \|\| po->tx_ring.pg_vec) {
				3807	ret = -EBUSY;
				3808	} else {
				3809	po->has_vnet_hdr = !!val;
				3810	ret = 0;
				3811	}
				3812	release_sock(sk);
				3813	return ret;
				3814	}
				3815	case PACKET_TIMESTAMP:
				3816	{
				3817	int val;
				3818
				3819	if (optlen != sizeof(val))
				3820	return -EINVAL;
				3821	if (copy_from_user(&val, optval, sizeof(val)))
				3822	return -EFAULT;
				3823
				3824	po->tp_tstamp = val;
				3825	return 0;
				3826	}
				3827	case PACKET_FANOUT:
				3828	{
				3829	int val;
				3830
				3831	if (optlen != sizeof(val))
				3832	return -EINVAL;
				3833	if (copy_from_user(&val, optval, sizeof(val)))
				3834	return -EFAULT;
				3835
				3836	return fanout_add(sk, val & 0xffff, val >> 16);
				3837	}
				3838	case PACKET_FANOUT_DATA:
				3839	{
				3840	if (!po->fanout)
				3841	return -EINVAL;
				3842
				3843	return fanout_set_data(po, optval, optlen);
				3844	}
				3845	case PACKET_TX_HAS_OFF:
				3846	{
				3847	unsigned int val;
				3848
				3849	if (optlen != sizeof(val))
				3850	return -EINVAL;
				3851	if (copy_from_user(&val, optval, sizeof(val)))
				3852	return -EFAULT;
				3853
				3854	lock_sock(sk);
				3855	if (po->rx_ring.pg_vec \|\| po->tx_ring.pg_vec) {
				3856	ret = -EBUSY;
				3857	} else {
				3858	po->tp_tx_has_off = !!val;
				3859	ret = 0;
				3860	}
				3861	release_sock(sk);
				3862	return 0;
				3863	}
				3864	case PACKET_QDISC_BYPASS:
				3865	{
				3866	int val;
				3867
				3868	if (optlen != sizeof(val))
				3869	return -EINVAL;
				3870	if (copy_from_user(&val, optval, sizeof(val)))
				3871	return -EFAULT;
				3872
				3873	po->xmit = val ? packet_direct_xmit : dev_queue_xmit;
				3874	return 0;
				3875	}
				3876	case PACKET_RECV_TYPE:
				3877	{
				3878	unsigned int val;
				3879	if (optlen != sizeof(val))
				3880	return -EINVAL;
				3881	if (copy_from_user(&val, optval, sizeof(val)))
				3882	return -EFAULT;
				3883	po->pkt_type = val & ~BIT(PACKET_LOOPBACK);
				3884	return 0;
				3885	}
				3886	default:
				3887	return -ENOPROTOOPT;
				3888	}
				3889	}
				3890
				3891	static int packet_getsockopt(struct socket *sock, int level, int optname,
				3892	char __user optval, int __user optlen)
				3893	{
				3894	int len;
				3895	int val, lv = sizeof(val);
				3896	struct sock *sk = sock->sk;
				3897	struct packet_sock *po = pkt_sk(sk);
				3898	void *data = &val;
				3899	union tpacket_stats_u st;
				3900	struct tpacket_rollover_stats rstats;
				3901
				3902	if (level != SOL_PACKET)
				3903	return -ENOPROTOOPT;
				3904
				3905	if (get_user(len, optlen))
				3906	return -EFAULT;
				3907
				3908	if (len < 0)
				3909	return -EINVAL;
				3910
				3911	switch (optname) {
				3912	case PACKET_STATISTICS:
				3913	spin_lock_bh(&sk->sk_receive_queue.lock);
				3914	memcpy(&st, &po->stats, sizeof(st));
				3915	memset(&po->stats, 0, sizeof(po->stats));
				3916	spin_unlock_bh(&sk->sk_receive_queue.lock);
				3917
				3918	if (po->tp_version == TPACKET_V3) {
				3919	lv = sizeof(struct tpacket_stats_v3);
				3920	st.stats3.tp_packets += st.stats3.tp_drops;
				3921	data = &st.stats3;
				3922	} else {
				3923	lv = sizeof(struct tpacket_stats);
				3924	st.stats1.tp_packets += st.stats1.tp_drops;
				3925	data = &st.stats1;
				3926	}
				3927
				3928	break;
				3929	case PACKET_AUXDATA:
				3930	val = po->auxdata;
				3931	break;
				3932	case PACKET_ORIGDEV:
				3933	val = po->origdev;
				3934	break;
				3935	case PACKET_VNET_HDR:
				3936	val = po->has_vnet_hdr;
				3937	break;
				3938	case PACKET_RECV_TYPE:
				3939	if (len > sizeof(unsigned int))
				3940	len = sizeof(unsigned int);
				3941	val = po->pkt_type;
				3942
				3943	data = &val;
				3944	break;
				3945	case PACKET_VERSION:
				3946	val = po->tp_version;
				3947	break;
				3948	case PACKET_HDRLEN:
				3949	if (len > sizeof(int))
				3950	len = sizeof(int);
				3951	if (len < sizeof(int))
				3952	return -EINVAL;
				3953	if (copy_from_user(&val, optval, len))
				3954	return -EFAULT;
				3955	switch (val) {
				3956	case TPACKET_V1:
				3957	val = sizeof(struct tpacket_hdr);
				3958	break;
				3959	case TPACKET_V2:
				3960	val = sizeof(struct tpacket2_hdr);
				3961	break;
				3962	case TPACKET_V3:
				3963	val = sizeof(struct tpacket3_hdr);
				3964	break;
				3965	default:
				3966	return -EINVAL;
				3967	}
				3968	break;
				3969	case PACKET_RESERVE:
				3970	val = po->tp_reserve;
				3971	break;
				3972	case PACKET_LOSS:
				3973	val = po->tp_loss;
				3974	break;
				3975	case PACKET_TIMESTAMP:
				3976	val = po->tp_tstamp;
				3977	break;
				3978	case PACKET_FANOUT:
				3979	val = (po->fanout ?
				3980	((u32)po->fanout->id \|
				3981	((u32)po->fanout->type << 16) \|
				3982	((u32)po->fanout->flags << 24)) :
				3983	0);
				3984	break;
				3985	case PACKET_ROLLOVER_STATS:
				3986	if (!po->rollover)
				3987	return -EINVAL;
				3988	rstats.tp_all = atomic_long_read(&po->rollover->num);
				3989	rstats.tp_huge = atomic_long_read(&po->rollover->num_huge);
				3990	rstats.tp_failed = atomic_long_read(&po->rollover->num_failed);
				3991	data = &rstats;
				3992	lv = sizeof(rstats);
				3993	break;
				3994	case PACKET_TX_HAS_OFF:
				3995	val = po->tp_tx_has_off;
				3996	break;
				3997	case PACKET_QDISC_BYPASS:
				3998	val = packet_use_direct_xmit(po);
				3999	break;
				4000	default:
				4001	return -ENOPROTOOPT;
				4002	}
				4003
				4004	if (len > lv)
				4005	len = lv;
				4006	if (put_user(len, optlen))
				4007	return -EFAULT;
				4008	if (copy_to_user(optval, data, len))
				4009	return -EFAULT;
				4010	return 0;
				4011	}
				4012
				4013
				4014	#ifdef CONFIG_COMPAT
				4015	static int compat_packet_setsockopt(struct socket *sock, int level, int optname,
				4016	char __user *optval, unsigned int optlen)
				4017	{
				4018	struct packet_sock *po = pkt_sk(sock->sk);
				4019
				4020	if (level != SOL_PACKET)
				4021	return -ENOPROTOOPT;
				4022
				4023	if (optname == PACKET_FANOUT_DATA &&
				4024	po->fanout && po->fanout->type == PACKET_FANOUT_CBPF) {
				4025	optval = (char __user *)get_compat_bpf_fprog(optval);
				4026	if (!optval)
				4027	return -EFAULT;
				4028	optlen = sizeof(struct sock_fprog);
				4029	}
				4030
				4031	return packet_setsockopt(sock, level, optname, optval, optlen);
				4032	}
				4033	#endif
				4034
				4035	static int packet_notifier(struct notifier_block *this,
				4036	unsigned long msg, void *ptr)
				4037	{
				4038	struct sock *sk;
				4039	struct net_device *dev = netdev_notifier_info_to_dev(ptr);
				4040	struct net *net = dev_net(dev);
				4041
				4042	rcu_read_lock();
				4043	sk_for_each_rcu(sk, &net->packet.sklist) {
				4044	struct packet_sock *po = pkt_sk(sk);
				4045
				4046	switch (msg) {
				4047	case NETDEV_UNREGISTER:
				4048	if (po->mclist)
				4049	packet_dev_mclist_delete(dev, &po->mclist);
				4050	/* fallthrough */
				4051
				4052	case NETDEV_DOWN:
				4053	if (dev->ifindex == po->ifindex) {
				4054	spin_lock(&po->bind_lock);
				4055	if (po->running) {
				4056	__unregister_prot_hook(sk, false);
				4057	sk->sk_err = ENETDOWN;
				4058	if (!sock_flag(sk, SOCK_DEAD))
				4059	sk->sk_error_report(sk);
				4060	}
				4061	if (msg == NETDEV_UNREGISTER) {
				4062	packet_cached_dev_reset(po);
				4063	po->ifindex = -1;
				4064	if (po->prot_hook.dev)
				4065	dev_put(po->prot_hook.dev);
				4066	po->prot_hook.dev = NULL;
				4067	}
				4068	spin_unlock(&po->bind_lock);
				4069	}
				4070	break;
				4071	case NETDEV_UP:
				4072	if (dev->ifindex == po->ifindex) {
				4073	spin_lock(&po->bind_lock);
				4074	if (po->num)
				4075	register_prot_hook(sk);
				4076	spin_unlock(&po->bind_lock);
				4077	}
				4078	break;
				4079	}
				4080	}
				4081	rcu_read_unlock();
				4082	return NOTIFY_DONE;
				4083	}
				4084
				4085
				4086	static int packet_ioctl(struct socket *sock, unsigned int cmd,
				4087	unsigned long arg)
				4088	{
				4089	struct sock *sk = sock->sk;
				4090
				4091	switch (cmd) {
				4092	case SIOCOUTQ:
				4093	{
				4094	int amount = sk_wmem_alloc_get(sk);
				4095
				4096	return put_user(amount, (int __user *)arg);
				4097	}
				4098	case SIOCINQ:
				4099	{
				4100	struct sk_buff *skb;
				4101	int amount = 0;
				4102
				4103	spin_lock_bh(&sk->sk_receive_queue.lock);
				4104	skb = skb_peek(&sk->sk_receive_queue);
				4105	if (skb)
				4106	amount = skb->len;
				4107	spin_unlock_bh(&sk->sk_receive_queue.lock);
				4108	return put_user(amount, (int __user *)arg);
				4109	}
				4110	case SIOCGSTAMP:
				4111	return sock_get_timestamp(sk, (struct timeval __user *)arg);
				4112	case SIOCGSTAMPNS:
				4113	return sock_get_timestampns(sk, (struct timespec __user *)arg);
				4114
				4115	#ifdef CONFIG_INET
				4116	case SIOCADDRT:
				4117	case SIOCDELRT:
				4118	case SIOCDARP:
				4119	case SIOCGARP:
				4120	case SIOCSARP:
				4121	case SIOCGIFADDR:
				4122	case SIOCSIFADDR:
				4123	case SIOCGIFBRDADDR:
				4124	case SIOCSIFBRDADDR:
				4125	case SIOCGIFNETMASK:
				4126	case SIOCSIFNETMASK:
				4127	case SIOCGIFDSTADDR:
				4128	case SIOCSIFDSTADDR:
				4129	case SIOCSIFFLAGS:
				4130	return inet_dgram_ops.ioctl(sock, cmd, arg);
				4131	#endif
				4132
				4133	default:
				4134	return -ENOIOCTLCMD;
				4135	}
				4136	return 0;
				4137	}
				4138
				4139	static __poll_t packet_poll(struct file file, struct socket sock,
				4140	poll_table *wait)
				4141	{
				4142	struct sock *sk = sock->sk;
				4143	struct packet_sock *po = pkt_sk(sk);
				4144	__poll_t mask = datagram_poll(file, sock, wait);
				4145
				4146	spin_lock_bh(&sk->sk_receive_queue.lock);
				4147	if (po->rx_ring.pg_vec) {
				4148	if (!packet_previous_rx_frame(po, &po->rx_ring,
				4149	TP_STATUS_KERNEL))
				4150	mask \|= EPOLLIN \| EPOLLRDNORM;
				4151	}
				4152	if (po->pressure && __packet_rcv_has_room(po, NULL) == ROOM_NORMAL)
				4153	po->pressure = 0;
				4154	spin_unlock_bh(&sk->sk_receive_queue.lock);
				4155	spin_lock_bh(&sk->sk_write_queue.lock);
				4156	if (po->tx_ring.pg_vec) {
				4157	if (packet_current_frame(po, &po->tx_ring, TP_STATUS_AVAILABLE))
				4158	mask \|= EPOLLOUT \| EPOLLWRNORM;
				4159	}
				4160	spin_unlock_bh(&sk->sk_write_queue.lock);
				4161	return mask;
				4162	}
				4163
				4164
				4165	/* Dirty? Well, I still did not learn better way to account
				4166	* for user mmaps.
				4167	*/
				4168
				4169	static void packet_mm_open(struct vm_area_struct *vma)
				4170	{
				4171	struct file *file = vma->vm_file;
				4172	struct socket *sock = file->private_data;
				4173	struct sock *sk = sock->sk;
				4174
				4175	if (sk)
				4176	atomic_inc(&pkt_sk(sk)->mapped);
				4177	}
				4178
				4179	static void packet_mm_close(struct vm_area_struct *vma)
				4180	{
				4181	struct file *file = vma->vm_file;
				4182	struct socket *sock = file->private_data;
				4183	struct sock *sk = sock->sk;
				4184
				4185	if (sk)
				4186	atomic_dec(&pkt_sk(sk)->mapped);
				4187	}
				4188
				4189	static const struct vm_operations_struct packet_mmap_ops = {
				4190	.open = packet_mm_open,
				4191	.close = packet_mm_close,
				4192	};
				4193
				4194	static void free_pg_vec(struct pgv *pg_vec, unsigned int order,
				4195	unsigned int len)
				4196	{
				4197	int i;
				4198
				4199	for (i = 0; i < len; i++) {
				4200	if (likely(pg_vec[i].buffer)) {
				4201	if (is_vmalloc_addr(pg_vec[i].buffer))
				4202	vfree(pg_vec[i].buffer);
				4203	else
				4204	free_pages((unsigned long)pg_vec[i].buffer,
				4205	order);
				4206	pg_vec[i].buffer = NULL;
				4207	}
				4208	}
				4209	kfree(pg_vec);
				4210	}
				4211
				4212	static char *alloc_one_pg_vec_page(unsigned long order)
				4213	{
				4214	char *buffer;
				4215	gfp_t gfp_flags = GFP_KERNEL \| __GFP_COMP \|
				4216	__GFP_ZERO \| __GFP_NOWARN \| __GFP_NORETRY;
				4217
				4218	buffer = (char *) __get_free_pages(gfp_flags, order);
				4219	if (buffer)
				4220	return buffer;
				4221
				4222	/* __get_free_pages failed, fall back to vmalloc */
				4223	buffer = vzalloc(array_size((1 << order), PAGE_SIZE));
				4224	if (buffer)
				4225	return buffer;
				4226
				4227	/* vmalloc failed, lets dig into swap here */
				4228	gfp_flags &= ~__GFP_NORETRY;
				4229	buffer = (char *) __get_free_pages(gfp_flags, order);
				4230	if (buffer)
				4231	return buffer;
				4232
				4233	/* complete and utter failure */
				4234	return NULL;
				4235	}
				4236
				4237	static struct pgv alloc_pg_vec(struct tpacket_req req, int order)
				4238	{
				4239	unsigned int block_nr = req->tp_block_nr;
				4240	struct pgv *pg_vec;
				4241	int i;
				4242
				4243	pg_vec = kcalloc(block_nr, sizeof(struct pgv), GFP_KERNEL \| __GFP_NOWARN);
				4244	if (unlikely(!pg_vec))
				4245	goto out;
				4246
				4247	for (i = 0; i < block_nr; i++) {
				4248	pg_vec[i].buffer = alloc_one_pg_vec_page(order);
				4249	if (unlikely(!pg_vec[i].buffer))
				4250	goto out_free_pgvec;
				4251	}
				4252
				4253	out:
				4254	return pg_vec;
				4255
				4256	out_free_pgvec:
				4257	free_pg_vec(pg_vec, order, block_nr);
				4258	pg_vec = NULL;
				4259	goto out;
				4260	}
				4261
				4262	static int packet_set_ring(struct sock sk, union tpacket_req_u req_u,
				4263	int closing, int tx_ring)
				4264	{
				4265	struct pgv *pg_vec = NULL;
				4266	struct packet_sock *po = pkt_sk(sk);
				4267	int was_running, order = 0;
				4268	struct packet_ring_buffer *rb;
				4269	struct sk_buff_head *rb_queue;
				4270	__be16 num;
				4271	int err = -EINVAL;
				4272	/* Added to avoid minimal code churn */
				4273	struct tpacket_req *req = &req_u->req;
				4274
				4275	rb = tx_ring ? &po->tx_ring : &po->rx_ring;
				4276	rb_queue = tx_ring ? &sk->sk_write_queue : &sk->sk_receive_queue;
				4277
				4278	err = -EBUSY;
				4279	if (!closing) {
				4280	if (atomic_read(&po->mapped))
				4281	goto out;
				4282	if (packet_read_pending(rb))
				4283	goto out;
				4284	}
				4285
				4286	if (req->tp_block_nr) {
				4287	unsigned int min_frame_size;
				4288
				4289	/* Sanity tests and some calculations */
				4290	err = -EBUSY;
				4291	if (unlikely(rb->pg_vec))
				4292	goto out;
				4293
				4294	switch (po->tp_version) {
				4295	case TPACKET_V1:
				4296	po->tp_hdrlen = TPACKET_HDRLEN;
				4297	break;
				4298	case TPACKET_V2:
				4299	po->tp_hdrlen = TPACKET2_HDRLEN;
				4300	break;
				4301	case TPACKET_V3:
				4302	po->tp_hdrlen = TPACKET3_HDRLEN;
				4303	break;
				4304	}
				4305
				4306	err = -EINVAL;
				4307	if (unlikely((int)req->tp_block_size <= 0))
				4308	goto out;
				4309	if (unlikely(!PAGE_ALIGNED(req->tp_block_size)))
				4310	goto out;
				4311	min_frame_size = po->tp_hdrlen + po->tp_reserve;
				4312	if (po->tp_version >= TPACKET_V3 &&
				4313	req->tp_block_size <
				4314	BLK_PLUS_PRIV((u64)req_u->req3.tp_sizeof_priv) + min_frame_size)
				4315	goto out;
				4316	if (unlikely(req->tp_frame_size < min_frame_size))
				4317	goto out;
				4318	if (unlikely(req->tp_frame_size & (TPACKET_ALIGNMENT - 1)))
				4319	goto out;
				4320
				4321	rb->frames_per_block = req->tp_block_size / req->tp_frame_size;
				4322	if (unlikely(rb->frames_per_block == 0))
				4323	goto out;
				4324	if (unlikely(rb->frames_per_block > UINT_MAX / req->tp_block_nr))
				4325	goto out;
				4326	if (unlikely((rb->frames_per_block * req->tp_block_nr) !=
				4327	req->tp_frame_nr))
				4328	goto out;
				4329
				4330	err = -ENOMEM;
				4331	order = get_order(req->tp_block_size);
				4332	pg_vec = alloc_pg_vec(req, order);
				4333	if (unlikely(!pg_vec))
				4334	goto out;
				4335	switch (po->tp_version) {
				4336	case TPACKET_V3:
				4337	/* Block transmit is not supported yet */
				4338	if (!tx_ring) {
				4339	init_prb_bdqc(po, rb, pg_vec, req_u);
				4340	} else {
				4341	struct tpacket_req3 *req3 = &req_u->req3;
				4342
				4343	if (req3->tp_retire_blk_tov \|\|
				4344	req3->tp_sizeof_priv \|\|
				4345	req3->tp_feature_req_word) {
				4346	err = -EINVAL;
				4347	goto out_free_pg_vec;
				4348	}
				4349	}
				4350	break;
				4351	default:
				4352	break;
				4353	}
				4354	}
				4355	/* Done */
				4356	else {
				4357	err = -EINVAL;
				4358	if (unlikely(req->tp_frame_nr))
				4359	goto out;
				4360	}
				4361
				4362
				4363	/* Detach socket from network */
				4364	spin_lock(&po->bind_lock);
				4365	was_running = po->running;
				4366	num = po->num;
				4367	if (was_running) {
				4368	po->num = 0;
				4369	__unregister_prot_hook(sk, false);
				4370	}
				4371	spin_unlock(&po->bind_lock);
				4372
				4373	synchronize_net();
				4374
				4375	err = -EBUSY;
				4376	mutex_lock(&po->pg_vec_lock);
				4377	if (closing \|\| atomic_read(&po->mapped) == 0) {
				4378	err = 0;
				4379	spin_lock_bh(&rb_queue->lock);
				4380	swap(rb->pg_vec, pg_vec);
				4381	rb->frame_max = (req->tp_frame_nr - 1);
				4382	rb->head = 0;
				4383	rb->frame_size = req->tp_frame_size;
				4384	spin_unlock_bh(&rb_queue->lock);
				4385
				4386	swap(rb->pg_vec_order, order);
				4387	swap(rb->pg_vec_len, req->tp_block_nr);
				4388
				4389	rb->pg_vec_pages = req->tp_block_size/PAGE_SIZE;
				4390	po->prot_hook.func = (po->rx_ring.pg_vec) ?
				4391	tpacket_rcv : packet_rcv;
				4392	skb_queue_purge(rb_queue);
				4393	if (atomic_read(&po->mapped))
				4394	pr_err("packet_mmap: vma is busy: %d\n",
				4395	atomic_read(&po->mapped));
				4396	}
				4397	mutex_unlock(&po->pg_vec_lock);
				4398
				4399	spin_lock(&po->bind_lock);
				4400	if (was_running) {
				4401	po->num = num;
				4402	register_prot_hook(sk);
				4403	}
				4404	spin_unlock(&po->bind_lock);
				4405	if (pg_vec && (po->tp_version > TPACKET_V2)) {
				4406	/* Because we don't support block-based V3 on tx-ring */
				4407	if (!tx_ring)
				4408	prb_shutdown_retire_blk_timer(po, rb_queue);
				4409	}
				4410
				4411	out_free_pg_vec:
				4412	if (pg_vec)
				4413	free_pg_vec(pg_vec, order, req->tp_block_nr);
				4414	out:
				4415	return err;
				4416	}
				4417
				4418	static int packet_mmap(struct file file, struct socket sock,
				4419	struct vm_area_struct *vma)
				4420	{
				4421	struct sock *sk = sock->sk;
				4422	struct packet_sock *po = pkt_sk(sk);
				4423	unsigned long size, expected_size;
				4424	struct packet_ring_buffer *rb;
				4425	unsigned long start;
				4426	int err = -EINVAL;
				4427	int i;
				4428
				4429	if (vma->vm_pgoff)
				4430	return -EINVAL;
				4431
				4432	mutex_lock(&po->pg_vec_lock);
				4433
				4434	expected_size = 0;
				4435	for (rb = &po->rx_ring; rb <= &po->tx_ring; rb++) {
				4436	if (rb->pg_vec) {
				4437	expected_size += rb->pg_vec_len
				4438	* rb->pg_vec_pages
				4439	* PAGE_SIZE;
				4440	}
				4441	}
				4442
				4443	if (expected_size == 0)
				4444	goto out;
				4445
				4446	size = vma->vm_end - vma->vm_start;
				4447	if (size != expected_size)
				4448	goto out;
				4449
				4450	start = vma->vm_start;
				4451	for (rb = &po->rx_ring; rb <= &po->tx_ring; rb++) {
				4452	if (rb->pg_vec == NULL)
				4453	continue;
				4454
				4455	for (i = 0; i < rb->pg_vec_len; i++) {
				4456	struct page *page;
				4457	void *kaddr = rb->pg_vec[i].buffer;
				4458	int pg_num;
				4459
				4460	for (pg_num = 0; pg_num < rb->pg_vec_pages; pg_num++) {
				4461	page = pgv_to_page(kaddr);
				4462	err = vm_insert_page(vma, start, page);
				4463	if (unlikely(err))
				4464	goto out;
				4465	start += PAGE_SIZE;
				4466	kaddr += PAGE_SIZE;
				4467	}
				4468	}
				4469	}
				4470
				4471	atomic_inc(&po->mapped);
				4472	vma->vm_ops = &packet_mmap_ops;
				4473	err = 0;
				4474
				4475	out:
				4476	mutex_unlock(&po->pg_vec_lock);
				4477	return err;
				4478	}
				4479
				4480	static const struct proto_ops packet_ops_spkt = {
				4481	.family = PF_PACKET,
				4482	.owner = THIS_MODULE,
				4483	.release = packet_release,
				4484	.bind = packet_bind_spkt,
				4485	.connect = sock_no_connect,
				4486	.socketpair = sock_no_socketpair,
				4487	.accept = sock_no_accept,
				4488	.getname = packet_getname_spkt,
				4489	.poll = datagram_poll,
				4490	.ioctl = packet_ioctl,
				4491	.listen = sock_no_listen,
				4492	.shutdown = sock_no_shutdown,
				4493	.setsockopt = sock_no_setsockopt,
				4494	.getsockopt = sock_no_getsockopt,
				4495	.sendmsg = packet_sendmsg_spkt,
				4496	.recvmsg = packet_recvmsg,
				4497	.mmap = sock_no_mmap,
				4498	.sendpage = sock_no_sendpage,
				4499	};
				4500
				4501	static const struct proto_ops packet_ops = {
				4502	.family = PF_PACKET,
				4503	.owner = THIS_MODULE,
				4504	.release = packet_release,
				4505	.bind = packet_bind,
				4506	.connect = sock_no_connect,
				4507	.socketpair = sock_no_socketpair,
				4508	.accept = sock_no_accept,
				4509	.getname = packet_getname,
				4510	.poll = packet_poll,
				4511	.ioctl = packet_ioctl,
				4512	.listen = sock_no_listen,
				4513	.shutdown = sock_no_shutdown,
				4514	.setsockopt = packet_setsockopt,
				4515	.getsockopt = packet_getsockopt,
				4516	#ifdef CONFIG_COMPAT
				4517	.compat_setsockopt = compat_packet_setsockopt,
				4518	#endif
				4519	.sendmsg = packet_sendmsg,
				4520	.recvmsg = packet_recvmsg,
				4521	.mmap = packet_mmap,
				4522	.sendpage = sock_no_sendpage,
				4523	};
				4524
				4525	static const struct net_proto_family packet_family_ops = {
				4526	.family = PF_PACKET,
				4527	.create = packet_create,
				4528	.owner = THIS_MODULE,
				4529	};
				4530
				4531	static struct notifier_block packet_netdev_notifier = {
				4532	.notifier_call = packet_notifier,
				4533	};
				4534
				4535	#ifdef CONFIG_PROC_FS
				4536
				4537	static void packet_seq_start(struct seq_file seq, loff_t *pos)
				4538	__acquires(RCU)
				4539	{
				4540	struct net *net = seq_file_net(seq);
				4541
				4542	rcu_read_lock();
				4543	return seq_hlist_start_head_rcu(&net->packet.sklist, *pos);
				4544	}
				4545
				4546	static void packet_seq_next(struct seq_file seq, void v, loff_t pos)
				4547	{
				4548	struct net *net = seq_file_net(seq);
				4549	return seq_hlist_next_rcu(v, &net->packet.sklist, pos);
				4550	}
				4551
				4552	static void packet_seq_stop(struct seq_file seq, void v)
				4553	__releases(RCU)
				4554	{
				4555	rcu_read_unlock();
				4556	}
				4557
				4558	static int packet_seq_show(struct seq_file seq, void v)
				4559	{
				4560	if (v == SEQ_START_TOKEN)
				4561	seq_puts(seq, "sk RefCnt Type Proto Iface R Rmem User Inode\n");
				4562	else {
				4563	struct sock *s = sk_entry(v);
				4564	const struct packet_sock *po = pkt_sk(s);
				4565
				4566	seq_printf(seq,
				4567	"%pK %-6d %-4d %04x %-5d %1d %-6u %-6u %-6lu\n",
				4568	s,
				4569	refcount_read(&s->sk_refcnt),
				4570	s->sk_type,
				4571	ntohs(po->num),
				4572	po->ifindex,
				4573	po->running,
				4574	atomic_read(&s->sk_rmem_alloc),
				4575	from_kuid_munged(seq_user_ns(seq), sock_i_uid(s)),
				4576	sock_i_ino(s));
				4577	}
				4578
				4579	return 0;
				4580	}
				4581
				4582	static const struct seq_operations packet_seq_ops = {
				4583	.start = packet_seq_start,
				4584	.next = packet_seq_next,
				4585	.stop = packet_seq_stop,
				4586	.show = packet_seq_show,
				4587	};
				4588	#endif
				4589
				4590	static int __net_init packet_net_init(struct net *net)
				4591	{
				4592	mutex_init(&net->packet.sklist_lock);
				4593	INIT_HLIST_HEAD(&net->packet.sklist);
				4594
				4595	if (!proc_create_net("packet", 0, net->proc_net, &packet_seq_ops,
				4596	sizeof(struct seq_net_private)))
				4597	return -ENOMEM;
				4598
				4599	return 0;
				4600	}
				4601
				4602	static void __net_exit packet_net_exit(struct net *net)
				4603	{
				4604	remove_proc_entry("packet", net->proc_net);
				4605	WARN_ON_ONCE(!hlist_empty(&net->packet.sklist));
				4606	}
				4607
				4608	static struct pernet_operations packet_net_ops = {
				4609	.init = packet_net_init,
				4610	.exit = packet_net_exit,
				4611	};
				4612
				4613
				4614	static void __exit packet_exit(void)
				4615	{
				4616	unregister_netdevice_notifier(&packet_netdev_notifier);
				4617	unregister_pernet_subsys(&packet_net_ops);
				4618	sock_unregister(PF_PACKET);
				4619	proto_unregister(&packet_proto);
				4620	}
				4621
				4622	static int __init packet_init(void)
				4623	{
				4624	int rc;
				4625
				4626	rc = proto_register(&packet_proto, 0);
				4627	if (rc)
				4628	goto out;
				4629	rc = sock_register(&packet_family_ops);
				4630	if (rc)
				4631	goto out_proto;
				4632	rc = register_pernet_subsys(&packet_net_ops);
				4633	if (rc)
				4634	goto out_sock;
				4635	rc = register_netdevice_notifier(&packet_netdev_notifier);
				4636	if (rc)
				4637	goto out_pernet;
				4638
				4639	return 0;
				4640
				4641	out_pernet:
				4642	unregister_pernet_subsys(&packet_net_ops);
				4643	out_sock:
				4644	sock_unregister(PF_PACKET);
				4645	out_proto:
				4646	proto_unregister(&packet_proto);
				4647	out:
				4648	return rc;
				4649	}
				4650
				4651	module_init(packet_init);
				4652	module_exit(packet_exit);
				4653	MODULE_LICENSE("GPL");
				4654	MODULE_ALIAS_NETPROTO(PF_PACKET);