Blame - src/kernel/linux/v4.14/drivers/net/vrf.c - T103

blob: 811fe0bde8a3a472e3aaca98a597b7779ca789f2 [file] [log] [blame]

rjw	1f88458	2022-01-06 17:20:42 +0800	[diff] [blame^]	1	/*
				2	* vrf.c: device driver to encapsulate a VRF space
				3	*
				4	* Copyright (c) 2015 Cumulus Networks. All rights reserved.
				5	* Copyright (c) 2015 Shrijeet Mukherjee <shm@cumulusnetworks.com>
				6	* Copyright (c) 2015 David Ahern <dsa@cumulusnetworks.com>
				7	*
				8	* Based on dummy, team and ipvlan drivers
				9	*
				10	* This program is free software; you can redistribute it and/or modify
				11	* it under the terms of the GNU General Public License as published by
				12	* the Free Software Foundation; either version 2 of the License, or
				13	* (at your option) any later version.
				14	*/
				15
				16	#include <linux/module.h>
				17	#include <linux/kernel.h>
				18	#include <linux/netdevice.h>
				19	#include <linux/etherdevice.h>
				20	#include <linux/ip.h>
				21	#include <linux/init.h>
				22	#include <linux/moduleparam.h>
				23	#include <linux/netfilter.h>
				24	#include <linux/rtnetlink.h>
				25	#include <net/rtnetlink.h>
				26	#include <linux/u64_stats_sync.h>
				27	#include <linux/hashtable.h>
				28
				29	#include <linux/inetdevice.h>
				30	#include <net/arp.h>
				31	#include <net/ip.h>
				32	#include <net/ip_fib.h>
				33	#include <net/ip6_fib.h>
				34	#include <net/ip6_route.h>
				35	#include <net/route.h>
				36	#include <net/addrconf.h>
				37	#include <net/l3mdev.h>
				38	#include <net/fib_rules.h>
				39	#include <net/netns/generic.h>
				40
				41	#define DRV_NAME "vrf"
				42	#define DRV_VERSION "1.0"
				43
				44	#define FIB_RULE_PREF 1000 /* default preference for FIB rules */
				45
				46	static unsigned int vrf_net_id;
				47
				48	struct net_vrf {
				49	struct rtable __rcu *rth;
				50	struct rt6_info __rcu *rt6;
				51	u32 tb_id;
				52	};
				53
				54	struct pcpu_dstats {
				55	u64 tx_pkts;
				56	u64 tx_bytes;
				57	u64 tx_drps;
				58	u64 rx_pkts;
				59	u64 rx_bytes;
				60	u64 rx_drps;
				61	struct u64_stats_sync syncp;
				62	};
				63
				64	static void vrf_rx_stats(struct net_device *dev, int len)
				65	{
				66	struct pcpu_dstats *dstats = this_cpu_ptr(dev->dstats);
				67
				68	u64_stats_update_begin(&dstats->syncp);
				69	dstats->rx_pkts++;
				70	dstats->rx_bytes += len;
				71	u64_stats_update_end(&dstats->syncp);
				72	}
				73
				74	static void vrf_tx_error(struct net_device vrf_dev, struct sk_buff skb)
				75	{
				76	vrf_dev->stats.tx_errors++;
				77	kfree_skb(skb);
				78	}
				79
				80	static void vrf_get_stats64(struct net_device *dev,
				81	struct rtnl_link_stats64 *stats)
				82	{
				83	int i;
				84
				85	for_each_possible_cpu(i) {
				86	const struct pcpu_dstats *dstats;
				87	u64 tbytes, tpkts, tdrops, rbytes, rpkts;
				88	unsigned int start;
				89
				90	dstats = per_cpu_ptr(dev->dstats, i);
				91	do {
				92	start = u64_stats_fetch_begin_irq(&dstats->syncp);
				93	tbytes = dstats->tx_bytes;
				94	tpkts = dstats->tx_pkts;
				95	tdrops = dstats->tx_drps;
				96	rbytes = dstats->rx_bytes;
				97	rpkts = dstats->rx_pkts;
				98	} while (u64_stats_fetch_retry_irq(&dstats->syncp, start));
				99	stats->tx_bytes += tbytes;
				100	stats->tx_packets += tpkts;
				101	stats->tx_dropped += tdrops;
				102	stats->rx_bytes += rbytes;
				103	stats->rx_packets += rpkts;
				104	}
				105	}
				106
				107	/* by default VRF devices do not have a qdisc and are expected
				108	* to be created with only a single queue.
				109	*/
				110	static bool qdisc_tx_is_default(const struct net_device *dev)
				111	{
				112	struct netdev_queue *txq;
				113	struct Qdisc *qdisc;
				114
				115	if (dev->num_tx_queues > 1)
				116	return false;
				117
				118	txq = netdev_get_tx_queue(dev, 0);
				119	qdisc = rcu_access_pointer(txq->qdisc);
				120
				121	return !qdisc->enqueue;
				122	}
				123
				124	/* Local traffic destined to local address. Reinsert the packet to rx
				125	* path, similar to loopback handling.
				126	*/
				127	static int vrf_local_xmit(struct sk_buff skb, struct net_device dev,
				128	struct dst_entry *dst)
				129	{
				130	int len = skb->len;
				131
				132	skb_orphan(skb);
				133
				134	skb_dst_set(skb, dst);
				135	skb_dst_force(skb);
				136
				137	/* set pkt_type to avoid skb hitting packet taps twice -
				138	* once on Tx and again in Rx processing
				139	*/
				140	skb->pkt_type = PACKET_LOOPBACK;
				141
				142	skb->protocol = eth_type_trans(skb, dev);
				143
				144	if (likely(netif_rx(skb) == NET_RX_SUCCESS))
				145	vrf_rx_stats(dev, len);
				146	else
				147	this_cpu_inc(dev->dstats->rx_drps);
				148
				149	return NETDEV_TX_OK;
				150	}
				151
				152	#if IS_ENABLED(CONFIG_IPV6)
				153	static int vrf_ip6_local_out(struct net net, struct sock sk,
				154	struct sk_buff *skb)
				155	{
				156	int err;
				157
				158	err = nf_hook(NFPROTO_IPV6, NF_INET_LOCAL_OUT, net,
				159	sk, skb, NULL, skb_dst(skb)->dev, dst_output);
				160
				161	if (likely(err == 1))
				162	err = dst_output(net, sk, skb);
				163
				164	return err;
				165	}
				166
				167	static netdev_tx_t vrf_process_v6_outbound(struct sk_buff *skb,
				168	struct net_device *dev)
				169	{
				170	const struct ipv6hdr *iph;
				171	struct net *net = dev_net(skb->dev);
				172	struct flowi6 fl6;
				173	int ret = NET_XMIT_DROP;
				174	struct dst_entry *dst;
				175	struct dst_entry *dst_null = &net->ipv6.ip6_null_entry->dst;
				176
				177	if (!pskb_may_pull(skb, ETH_HLEN + sizeof(struct ipv6hdr)))
				178	goto err;
				179
				180	iph = ipv6_hdr(skb);
				181
				182	memset(&fl6, 0, sizeof(fl6));
				183	/* needed to match OIF rule */
				184	fl6.flowi6_oif = dev->ifindex;
				185	fl6.flowi6_iif = LOOPBACK_IFINDEX;
				186	fl6.daddr = iph->daddr;
				187	fl6.saddr = iph->saddr;
				188	fl6.flowlabel = ip6_flowinfo(iph);
				189	fl6.flowi6_mark = skb->mark;
				190	fl6.flowi6_proto = iph->nexthdr;
				191	fl6.flowi6_flags = FLOWI_FLAG_SKIP_NH_OIF;
				192
				193	dst = ip6_route_output(net, NULL, &fl6);
				194	if (dst == dst_null)
				195	goto err;
				196
				197	skb_dst_drop(skb);
				198
				199	/* if dst.dev is loopback or the VRF device again this is locally
				200	* originated traffic destined to a local address. Short circuit
				201	* to Rx path
				202	*/
				203	if (dst->dev == dev)
				204	return vrf_local_xmit(skb, dev, dst);
				205
				206	skb_dst_set(skb, dst);
				207
				208	/* strip the ethernet header added for pass through VRF device */
				209	__skb_pull(skb, skb_network_offset(skb));
				210
				211	ret = vrf_ip6_local_out(net, skb->sk, skb);
				212	if (unlikely(net_xmit_eval(ret)))
				213	dev->stats.tx_errors++;
				214	else
				215	ret = NET_XMIT_SUCCESS;
				216
				217	return ret;
				218	err:
				219	vrf_tx_error(dev, skb);
				220	return NET_XMIT_DROP;
				221	}
				222	#else
				223	static netdev_tx_t vrf_process_v6_outbound(struct sk_buff *skb,
				224	struct net_device *dev)
				225	{
				226	vrf_tx_error(dev, skb);
				227	return NET_XMIT_DROP;
				228	}
				229	#endif
				230
				231	/* based on ip_local_out; can't use it b/c the dst is switched pointing to us */
				232	static int vrf_ip_local_out(struct net net, struct sock sk,
				233	struct sk_buff *skb)
				234	{
				235	int err;
				236
				237	err = nf_hook(NFPROTO_IPV4, NF_INET_LOCAL_OUT, net, sk,
				238	skb, NULL, skb_dst(skb)->dev, dst_output);
				239	if (likely(err == 1))
				240	err = dst_output(net, sk, skb);
				241
				242	return err;
				243	}
				244
				245	static netdev_tx_t vrf_process_v4_outbound(struct sk_buff *skb,
				246	struct net_device *vrf_dev)
				247	{
				248	struct iphdr *ip4h;
				249	int ret = NET_XMIT_DROP;
				250	struct flowi4 fl4;
				251	struct net *net = dev_net(vrf_dev);
				252	struct rtable *rt;
				253
				254	if (!pskb_may_pull(skb, ETH_HLEN + sizeof(struct iphdr)))
				255	goto err;
				256
				257	ip4h = ip_hdr(skb);
				258
				259	memset(&fl4, 0, sizeof(fl4));
				260	/* needed to match OIF rule */
				261	fl4.flowi4_oif = vrf_dev->ifindex;
				262	fl4.flowi4_iif = LOOPBACK_IFINDEX;
				263	fl4.flowi4_tos = RT_TOS(ip4h->tos);
				264	fl4.flowi4_flags = FLOWI_FLAG_ANYSRC \| FLOWI_FLAG_SKIP_NH_OIF;
				265	fl4.flowi4_proto = ip4h->protocol;
				266	fl4.daddr = ip4h->daddr;
				267	fl4.saddr = ip4h->saddr;
				268
				269	rt = ip_route_output_flow(net, &fl4, NULL);
				270	if (IS_ERR(rt))
				271	goto err;
				272
				273	skb_dst_drop(skb);
				274
				275	/* if dst.dev is loopback or the VRF device again this is locally
				276	* originated traffic destined to a local address. Short circuit
				277	* to Rx path
				278	*/
				279	if (rt->dst.dev == vrf_dev)
				280	return vrf_local_xmit(skb, vrf_dev, &rt->dst);
				281
				282	skb_dst_set(skb, &rt->dst);
				283
				284	/* strip the ethernet header added for pass through VRF device */
				285	__skb_pull(skb, skb_network_offset(skb));
				286
				287	if (!ip4h->saddr) {
				288	ip4h->saddr = inet_select_addr(skb_dst(skb)->dev, 0,
				289	RT_SCOPE_LINK);
				290	}
				291
				292	ret = vrf_ip_local_out(dev_net(skb_dst(skb)->dev), skb->sk, skb);
				293	if (unlikely(net_xmit_eval(ret)))
				294	vrf_dev->stats.tx_errors++;
				295	else
				296	ret = NET_XMIT_SUCCESS;
				297
				298	out:
				299	return ret;
				300	err:
				301	vrf_tx_error(vrf_dev, skb);
				302	goto out;
				303	}
				304
				305	static netdev_tx_t is_ip_tx_frame(struct sk_buff skb, struct net_device dev)
				306	{
				307	switch (skb->protocol) {
				308	case htons(ETH_P_IP):
				309	return vrf_process_v4_outbound(skb, dev);
				310	case htons(ETH_P_IPV6):
				311	return vrf_process_v6_outbound(skb, dev);
				312	default:
				313	vrf_tx_error(dev, skb);
				314	return NET_XMIT_DROP;
				315	}
				316	}
				317
				318	static netdev_tx_t vrf_xmit(struct sk_buff skb, struct net_device dev)
				319	{
				320	int len = skb->len;
				321	netdev_tx_t ret = is_ip_tx_frame(skb, dev);
				322
				323	if (likely(ret == NET_XMIT_SUCCESS \|\| ret == NET_XMIT_CN)) {
				324	struct pcpu_dstats *dstats = this_cpu_ptr(dev->dstats);
				325
				326	u64_stats_update_begin(&dstats->syncp);
				327	dstats->tx_pkts++;
				328	dstats->tx_bytes += len;
				329	u64_stats_update_end(&dstats->syncp);
				330	} else {
				331	this_cpu_inc(dev->dstats->tx_drps);
				332	}
				333
				334	return ret;
				335	}
				336
				337	static int vrf_finish_direct(struct net net, struct sock sk,
				338	struct sk_buff *skb)
				339	{
				340	struct net_device *vrf_dev = skb->dev;
				341
				342	if (!list_empty(&vrf_dev->ptype_all) &&
				343	likely(skb_headroom(skb) >= ETH_HLEN)) {
				344	struct ethhdr *eth = skb_push(skb, ETH_HLEN);
				345
				346	ether_addr_copy(eth->h_source, vrf_dev->dev_addr);
				347	eth_zero_addr(eth->h_dest);
				348	eth->h_proto = skb->protocol;
				349
				350	rcu_read_lock_bh();
				351	dev_queue_xmit_nit(skb, vrf_dev);
				352	rcu_read_unlock_bh();
				353
				354	skb_pull(skb, ETH_HLEN);
				355	}
				356
				357	return 1;
				358	}
				359
				360	#if IS_ENABLED(CONFIG_IPV6)
				361	/* modelled after ip6_finish_output2 */
				362	static int vrf_finish_output6(struct net net, struct sock sk,
				363	struct sk_buff *skb)
				364	{
				365	struct dst_entry *dst = skb_dst(skb);
				366	struct net_device *dev = dst->dev;
				367	struct neighbour *neigh;
				368	struct in6_addr *nexthop;
				369	int ret;
				370
				371	nf_reset(skb);
				372
				373	skb->protocol = htons(ETH_P_IPV6);
				374	skb->dev = dev;
				375
				376	rcu_read_lock_bh();
				377	nexthop = rt6_nexthop((struct rt6_info *)dst, &ipv6_hdr(skb)->daddr);
				378	neigh = __ipv6_neigh_lookup_noref(dst->dev, nexthop);
				379	if (unlikely(!neigh))
				380	neigh = __neigh_create(&nd_tbl, nexthop, dst->dev, false);
				381	if (!IS_ERR(neigh)) {
				382	sock_confirm_neigh(skb, neigh);
				383	ret = neigh_output(neigh, skb);
				384	rcu_read_unlock_bh();
				385	return ret;
				386	}
				387	rcu_read_unlock_bh();
				388
				389	IP6_INC_STATS(dev_net(dst->dev),
				390	ip6_dst_idev(dst), IPSTATS_MIB_OUTNOROUTES);
				391	kfree_skb(skb);
				392	return -EINVAL;
				393	}
				394
				395	/* modelled after ip6_output */
				396	static int vrf_output6(struct net net, struct sock sk, struct sk_buff *skb)
				397	{
				398	return NF_HOOK_COND(NFPROTO_IPV6, NF_INET_POST_ROUTING,
				399	net, sk, skb, NULL, skb_dst(skb)->dev,
				400	vrf_finish_output6,
				401	!(IP6CB(skb)->flags & IP6SKB_REROUTED));
				402	}
				403
				404	/* set dst on skb to send packet to us via dev_xmit path. Allows
				405	* packet to go through device based features such as qdisc, netfilter
				406	* hooks and packet sockets with skb->dev set to vrf device.
				407	*/
				408	static struct sk_buff vrf_ip6_out_redirect(struct net_device vrf_dev,
				409	struct sk_buff *skb)
				410	{
				411	struct net_vrf *vrf = netdev_priv(vrf_dev);
				412	struct dst_entry *dst = NULL;
				413	struct rt6_info *rt6;
				414
				415	rcu_read_lock();
				416
				417	rt6 = rcu_dereference(vrf->rt6);
				418	if (likely(rt6)) {
				419	dst = &rt6->dst;
				420	dst_hold(dst);
				421	}
				422
				423	rcu_read_unlock();
				424
				425	if (unlikely(!dst)) {
				426	vrf_tx_error(vrf_dev, skb);
				427	return NULL;
				428	}
				429
				430	skb_dst_drop(skb);
				431	skb_dst_set(skb, dst);
				432
				433	return skb;
				434	}
				435
				436	static int vrf_output6_direct(struct net net, struct sock sk,
				437	struct sk_buff *skb)
				438	{
				439	skb->protocol = htons(ETH_P_IPV6);
				440
				441	return NF_HOOK_COND(NFPROTO_IPV6, NF_INET_POST_ROUTING,
				442	net, sk, skb, NULL, skb->dev,
				443	vrf_finish_direct,
				444	!(IPCB(skb)->flags & IPSKB_REROUTED));
				445	}
				446
				447	static struct sk_buff vrf_ip6_out_direct(struct net_device vrf_dev,
				448	struct sock *sk,
				449	struct sk_buff *skb)
				450	{
				451	struct net *net = dev_net(vrf_dev);
				452	int err;
				453
				454	skb->dev = vrf_dev;
				455
				456	err = nf_hook(NFPROTO_IPV6, NF_INET_LOCAL_OUT, net, sk,
				457	skb, NULL, vrf_dev, vrf_output6_direct);
				458
				459	if (likely(err == 1))
				460	err = vrf_output6_direct(net, sk, skb);
				461
				462	/* reset skb device */
				463	if (likely(err == 1))
				464	nf_reset(skb);
				465	else
				466	skb = NULL;
				467
				468	return skb;
				469	}
				470
				471	static struct sk_buff vrf_ip6_out(struct net_device vrf_dev,
				472	struct sock *sk,
				473	struct sk_buff *skb)
				474	{
				475	/* don't divert link scope packets */
				476	if (rt6_need_strict(&ipv6_hdr(skb)->daddr))
				477	return skb;
				478
				479	if (qdisc_tx_is_default(vrf_dev) \|\|
				480	IP6CB(skb)->flags & IP6SKB_XFRM_TRANSFORMED)
				481	return vrf_ip6_out_direct(vrf_dev, sk, skb);
				482
				483	return vrf_ip6_out_redirect(vrf_dev, skb);
				484	}
				485
				486	/* holding rtnl */
				487	static void vrf_rt6_release(struct net_device dev, struct net_vrf vrf)
				488	{
				489	struct rt6_info *rt6 = rtnl_dereference(vrf->rt6);
				490	struct net *net = dev_net(dev);
				491	struct dst_entry *dst;
				492
				493	RCU_INIT_POINTER(vrf->rt6, NULL);
				494	synchronize_rcu();
				495
				496	/* move dev in dst's to loopback so this VRF device can be deleted
				497	* - based on dst_ifdown
				498	*/
				499	if (rt6) {
				500	dst = &rt6->dst;
				501	dev_put(dst->dev);
				502	dst->dev = net->loopback_dev;
				503	dev_hold(dst->dev);
				504	dst_release(dst);
				505	}
				506	}
				507
				508	static int vrf_rt6_create(struct net_device *dev)
				509	{
				510	int flags = DST_HOST \| DST_NOPOLICY \| DST_NOXFRM;
				511	struct net_vrf *vrf = netdev_priv(dev);
				512	struct net *net = dev_net(dev);
				513	struct fib6_table *rt6i_table;
				514	struct rt6_info *rt6;
				515	int rc = -ENOMEM;
				516
				517	/* IPv6 can be CONFIG enabled and then disabled runtime */
				518	if (!ipv6_mod_enabled())
				519	return 0;
				520
				521	rt6i_table = fib6_new_table(net, vrf->tb_id);
				522	if (!rt6i_table)
				523	goto out;
				524
				525	/* create a dst for routing packets out a VRF device */
				526	rt6 = ip6_dst_alloc(net, dev, flags);
				527	if (!rt6)
				528	goto out;
				529
				530	rt6->rt6i_table = rt6i_table;
				531	rt6->dst.output = vrf_output6;
				532
				533	rcu_assign_pointer(vrf->rt6, rt6);
				534
				535	rc = 0;
				536	out:
				537	return rc;
				538	}
				539	#else
				540	static struct sk_buff vrf_ip6_out(struct net_device vrf_dev,
				541	struct sock *sk,
				542	struct sk_buff *skb)
				543	{
				544	return skb;
				545	}
				546
				547	static void vrf_rt6_release(struct net_device dev, struct net_vrf vrf)
				548	{
				549	}
				550
				551	static int vrf_rt6_create(struct net_device *dev)
				552	{
				553	return 0;
				554	}
				555	#endif
				556
				557	/* modelled after ip_finish_output2 */
				558	static int vrf_finish_output(struct net net, struct sock sk, struct sk_buff *skb)
				559	{
				560	struct dst_entry *dst = skb_dst(skb);
				561	struct rtable rt = (struct rtable )dst;
				562	struct net_device *dev = dst->dev;
				563	unsigned int hh_len = LL_RESERVED_SPACE(dev);
				564	struct neighbour *neigh;
				565	u32 nexthop;
				566	int ret = -EINVAL;
				567
				568	nf_reset(skb);
				569
				570	/* Be paranoid, rather than too clever. */
				571	if (unlikely(skb_headroom(skb) < hh_len && dev->header_ops)) {
				572	struct sk_buff *skb2;
				573
				574	skb2 = skb_realloc_headroom(skb, LL_RESERVED_SPACE(dev));
				575	if (!skb2) {
				576	ret = -ENOMEM;
				577	goto err;
				578	}
				579	if (skb->sk)
				580	skb_set_owner_w(skb2, skb->sk);
				581
				582	consume_skb(skb);
				583	skb = skb2;
				584	}
				585
				586	rcu_read_lock_bh();
				587
				588	nexthop = (__force u32)rt_nexthop(rt, ip_hdr(skb)->daddr);
				589	neigh = __ipv4_neigh_lookup_noref(dev, nexthop);
				590	if (unlikely(!neigh))
				591	neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);
				592	if (!IS_ERR(neigh)) {
				593	sock_confirm_neigh(skb, neigh);
				594	ret = neigh_output(neigh, skb);
				595	rcu_read_unlock_bh();
				596	return ret;
				597	}
				598
				599	rcu_read_unlock_bh();
				600	err:
				601	vrf_tx_error(skb->dev, skb);
				602	return ret;
				603	}
				604
				605	static int vrf_output(struct net net, struct sock sk, struct sk_buff *skb)
				606	{
				607	struct net_device *dev = skb_dst(skb)->dev;
				608
				609	IP_UPD_PO_STATS(net, IPSTATS_MIB_OUT, skb->len);
				610
				611	skb->dev = dev;
				612	skb->protocol = htons(ETH_P_IP);
				613
				614	return NF_HOOK_COND(NFPROTO_IPV4, NF_INET_POST_ROUTING,
				615	net, sk, skb, NULL, dev,
				616	vrf_finish_output,
				617	!(IPCB(skb)->flags & IPSKB_REROUTED));
				618	}
				619
				620	/* set dst on skb to send packet to us via dev_xmit path. Allows
				621	* packet to go through device based features such as qdisc, netfilter
				622	* hooks and packet sockets with skb->dev set to vrf device.
				623	*/
				624	static struct sk_buff vrf_ip_out_redirect(struct net_device vrf_dev,
				625	struct sk_buff *skb)
				626	{
				627	struct net_vrf *vrf = netdev_priv(vrf_dev);
				628	struct dst_entry *dst = NULL;
				629	struct rtable *rth;
				630
				631	rcu_read_lock();
				632
				633	rth = rcu_dereference(vrf->rth);
				634	if (likely(rth)) {
				635	dst = &rth->dst;
				636	dst_hold(dst);
				637	}
				638
				639	rcu_read_unlock();
				640
				641	if (unlikely(!dst)) {
				642	vrf_tx_error(vrf_dev, skb);
				643	return NULL;
				644	}
				645
				646	skb_dst_drop(skb);
				647	skb_dst_set(skb, dst);
				648
				649	return skb;
				650	}
				651
				652	static int vrf_output_direct(struct net net, struct sock sk,
				653	struct sk_buff *skb)
				654	{
				655	skb->protocol = htons(ETH_P_IP);
				656
				657	return NF_HOOK_COND(NFPROTO_IPV4, NF_INET_POST_ROUTING,
				658	net, sk, skb, NULL, skb->dev,
				659	vrf_finish_direct,
				660	!(IPCB(skb)->flags & IPSKB_REROUTED));
				661	}
				662
				663	static struct sk_buff vrf_ip_out_direct(struct net_device vrf_dev,
				664	struct sock *sk,
				665	struct sk_buff *skb)
				666	{
				667	struct net *net = dev_net(vrf_dev);
				668	int err;
				669
				670	skb->dev = vrf_dev;
				671
				672	err = nf_hook(NFPROTO_IPV4, NF_INET_LOCAL_OUT, net, sk,
				673	skb, NULL, vrf_dev, vrf_output_direct);
				674
				675	if (likely(err == 1))
				676	err = vrf_output_direct(net, sk, skb);
				677
				678	/* reset skb device */
				679	if (likely(err == 1))
				680	nf_reset(skb);
				681	else
				682	skb = NULL;
				683
				684	return skb;
				685	}
				686
				687	static struct sk_buff vrf_ip_out(struct net_device vrf_dev,
				688	struct sock *sk,
				689	struct sk_buff *skb)
				690	{
				691	/* don't divert multicast or local broadcast */
				692	if (ipv4_is_multicast(ip_hdr(skb)->daddr) \|\|
				693	ipv4_is_lbcast(ip_hdr(skb)->daddr))
				694	return skb;
				695
				696	if (qdisc_tx_is_default(vrf_dev) \|\|
				697	IPCB(skb)->flags & IPSKB_XFRM_TRANSFORMED)
				698	return vrf_ip_out_direct(vrf_dev, sk, skb);
				699
				700	return vrf_ip_out_redirect(vrf_dev, skb);
				701	}
				702
				703	/* called with rcu lock held */
				704	static struct sk_buff vrf_l3_out(struct net_device vrf_dev,
				705	struct sock *sk,
				706	struct sk_buff *skb,
				707	u16 proto)
				708	{
				709	switch (proto) {
				710	case AF_INET:
				711	return vrf_ip_out(vrf_dev, sk, skb);
				712	case AF_INET6:
				713	return vrf_ip6_out(vrf_dev, sk, skb);
				714	}
				715
				716	return skb;
				717	}
				718
				719	/* holding rtnl */
				720	static void vrf_rtable_release(struct net_device dev, struct net_vrf vrf)
				721	{
				722	struct rtable *rth = rtnl_dereference(vrf->rth);
				723	struct net *net = dev_net(dev);
				724	struct dst_entry *dst;
				725
				726	RCU_INIT_POINTER(vrf->rth, NULL);
				727	synchronize_rcu();
				728
				729	/* move dev in dst's to loopback so this VRF device can be deleted
				730	* - based on dst_ifdown
				731	*/
				732	if (rth) {
				733	dst = &rth->dst;
				734	dev_put(dst->dev);
				735	dst->dev = net->loopback_dev;
				736	dev_hold(dst->dev);
				737	dst_release(dst);
				738	}
				739	}
				740
				741	static int vrf_rtable_create(struct net_device *dev)
				742	{
				743	struct net_vrf *vrf = netdev_priv(dev);
				744	struct rtable *rth;
				745
				746	if (!fib_new_table(dev_net(dev), vrf->tb_id))
				747	return -ENOMEM;
				748
				749	/* create a dst for routing packets out through a VRF device */
				750	rth = rt_dst_alloc(dev, 0, RTN_UNICAST, 1, 1, 0);
				751	if (!rth)
				752	return -ENOMEM;
				753
				754	rth->dst.output = vrf_output;
				755	rth->rt_table_id = vrf->tb_id;
				756
				757	rcu_assign_pointer(vrf->rth, rth);
				758
				759	return 0;
				760	}
				761
				762	/************************** device handling ******************/
				763
				764	/* cycle interface to flush neighbor cache and move routes across tables */
				765	static void cycle_netdev(struct net_device *dev)
				766	{
				767	unsigned int flags = dev->flags;
				768	int ret;
				769
				770	if (!netif_running(dev))
				771	return;
				772
				773	ret = dev_change_flags(dev, flags & ~IFF_UP);
				774	if (ret >= 0)
				775	ret = dev_change_flags(dev, flags);
				776
				777	if (ret < 0) {
				778	netdev_err(dev,
				779	"Failed to cycle device %s; route tables might be wrong!\n",
				780	dev->name);
				781	}
				782	}
				783
				784	static int do_vrf_add_slave(struct net_device dev, struct net_device port_dev)
				785	{
				786	int ret;
				787
				788	/* do not allow loopback device to be enslaved to a VRF.
				789	* The vrf device acts as the loopback for the vrf.
				790	*/
				791	if (port_dev == dev_net(dev)->loopback_dev)
				792	return -EOPNOTSUPP;
				793
				794	port_dev->priv_flags \|= IFF_L3MDEV_SLAVE;
				795	ret = netdev_master_upper_dev_link(port_dev, dev, NULL, NULL);
				796	if (ret < 0)
				797	goto err;
				798
				799	cycle_netdev(port_dev);
				800
				801	return 0;
				802
				803	err:
				804	port_dev->priv_flags &= ~IFF_L3MDEV_SLAVE;
				805	return ret;
				806	}
				807
				808	static int vrf_add_slave(struct net_device dev, struct net_device port_dev)
				809	{
				810	if (netif_is_l3_master(port_dev) \|\| netif_is_l3_slave(port_dev))
				811	return -EINVAL;
				812
				813	return do_vrf_add_slave(dev, port_dev);
				814	}
				815
				816	/* inverse of do_vrf_add_slave */
				817	static int do_vrf_del_slave(struct net_device dev, struct net_device port_dev)
				818	{
				819	netdev_upper_dev_unlink(port_dev, dev);
				820	port_dev->priv_flags &= ~IFF_L3MDEV_SLAVE;
				821
				822	cycle_netdev(port_dev);
				823
				824	return 0;
				825	}
				826
				827	static int vrf_del_slave(struct net_device dev, struct net_device port_dev)
				828	{
				829	return do_vrf_del_slave(dev, port_dev);
				830	}
				831
				832	static void vrf_dev_uninit(struct net_device *dev)
				833	{
				834	struct net_vrf *vrf = netdev_priv(dev);
				835
				836	vrf_rtable_release(dev, vrf);
				837	vrf_rt6_release(dev, vrf);
				838
				839	free_percpu(dev->dstats);
				840	dev->dstats = NULL;
				841	}
				842
				843	static int vrf_dev_init(struct net_device *dev)
				844	{
				845	struct net_vrf *vrf = netdev_priv(dev);
				846
				847	dev->dstats = netdev_alloc_pcpu_stats(struct pcpu_dstats);
				848	if (!dev->dstats)
				849	goto out_nomem;
				850
				851	/* create the default dst which points back to us */
				852	if (vrf_rtable_create(dev) != 0)
				853	goto out_stats;
				854
				855	if (vrf_rt6_create(dev) != 0)
				856	goto out_rth;
				857
				858	dev->flags = IFF_MASTER \| IFF_NOARP;
				859
				860	/* MTU is irrelevant for VRF device; set to 64k similar to lo */
				861	dev->mtu = 64 * 1024;
				862
				863	/* similarly, oper state is irrelevant; set to up to avoid confusion */
				864	dev->operstate = IF_OPER_UP;
				865	netdev_lockdep_set_classes(dev);
				866	return 0;
				867
				868	out_rth:
				869	vrf_rtable_release(dev, vrf);
				870	out_stats:
				871	free_percpu(dev->dstats);
				872	dev->dstats = NULL;
				873	out_nomem:
				874	return -ENOMEM;
				875	}
				876
				877	static const struct net_device_ops vrf_netdev_ops = {
				878	.ndo_init = vrf_dev_init,
				879	.ndo_uninit = vrf_dev_uninit,
				880	.ndo_start_xmit = vrf_xmit,
				881	.ndo_get_stats64 = vrf_get_stats64,
				882	.ndo_add_slave = vrf_add_slave,
				883	.ndo_del_slave = vrf_del_slave,
				884	};
				885
				886	static u32 vrf_fib_table(const struct net_device *dev)
				887	{
				888	struct net_vrf *vrf = netdev_priv(dev);
				889
				890	return vrf->tb_id;
				891	}
				892
				893	static int vrf_rcv_finish(struct net net, struct sock sk, struct sk_buff *skb)
				894	{
				895	kfree_skb(skb);
				896	return 0;
				897	}
				898
				899	static struct sk_buff *vrf_rcv_nfhook(u8 pf, unsigned int hook,
				900	struct sk_buff *skb,
				901	struct net_device *dev)
				902	{
				903	struct net *net = dev_net(dev);
				904
				905	if (nf_hook(pf, hook, net, NULL, skb, dev, NULL, vrf_rcv_finish) != 1)
				906	skb = NULL; /* kfree_skb(skb) handled by nf code */
				907
				908	return skb;
				909	}
				910
				911	#if IS_ENABLED(CONFIG_IPV6)
				912	/* neighbor handling is done with actual device; do not want
				913	* to flip skb->dev for those ndisc packets. This really fails
				914	* for multiple next protocols (e.g., NEXTHDR_HOP). But it is
				915	* a start.
				916	*/
				917	static bool ipv6_ndisc_frame(const struct sk_buff *skb)
				918	{
				919	const struct ipv6hdr *iph = ipv6_hdr(skb);
				920	bool rc = false;
				921
				922	if (iph->nexthdr == NEXTHDR_ICMP) {
				923	const struct icmp6hdr *icmph;
				924	struct icmp6hdr _icmph;
				925
				926	icmph = skb_header_pointer(skb, sizeof(*iph),
				927	sizeof(_icmph), &_icmph);
				928	if (!icmph)
				929	goto out;
				930
				931	switch (icmph->icmp6_type) {
				932	case NDISC_ROUTER_SOLICITATION:
				933	case NDISC_ROUTER_ADVERTISEMENT:
				934	case NDISC_NEIGHBOUR_SOLICITATION:
				935	case NDISC_NEIGHBOUR_ADVERTISEMENT:
				936	case NDISC_REDIRECT:
				937	rc = true;
				938	break;
				939	}
				940	}
				941
				942	out:
				943	return rc;
				944	}
				945
				946	static struct rt6_info vrf_ip6_route_lookup(struct net net,
				947	const struct net_device *dev,
				948	struct flowi6 *fl6,
				949	int ifindex,
				950	int flags)
				951	{
				952	struct net_vrf *vrf = netdev_priv(dev);
				953	struct fib6_table *table = NULL;
				954	struct rt6_info *rt6;
				955
				956	rcu_read_lock();
				957
				958	/* fib6_table does not have a refcnt and can not be freed */
				959	rt6 = rcu_dereference(vrf->rt6);
				960	if (likely(rt6))
				961	table = rt6->rt6i_table;
				962
				963	rcu_read_unlock();
				964
				965	if (!table)
				966	return NULL;
				967
				968	return ip6_pol_route(net, table, ifindex, fl6, flags);
				969	}
				970
				971	static void vrf_ip6_input_dst(struct sk_buff skb, struct net_device vrf_dev,
				972	int ifindex)
				973	{
				974	const struct ipv6hdr *iph = ipv6_hdr(skb);
				975	struct flowi6 fl6 = {
				976	.flowi6_iif = ifindex,
				977	.flowi6_mark = skb->mark,
				978	.flowi6_proto = iph->nexthdr,
				979	.daddr = iph->daddr,
				980	.saddr = iph->saddr,
				981	.flowlabel = ip6_flowinfo(iph),
				982	};
				983	struct net *net = dev_net(vrf_dev);
				984	struct rt6_info *rt6;
				985
				986	rt6 = vrf_ip6_route_lookup(net, vrf_dev, &fl6, ifindex,
				987	RT6_LOOKUP_F_HAS_SADDR \| RT6_LOOKUP_F_IFACE);
				988	if (unlikely(!rt6))
				989	return;
				990
				991	if (unlikely(&rt6->dst == &net->ipv6.ip6_null_entry->dst))
				992	return;
				993
				994	skb_dst_set(skb, &rt6->dst);
				995	}
				996
				997	static struct sk_buff vrf_ip6_rcv(struct net_device vrf_dev,
				998	struct sk_buff *skb)
				999	{
				1000	int orig_iif = skb->skb_iif;
				1001	bool need_strict;
				1002
				1003	/* loopback traffic; do not push through packet taps again.
				1004	* Reset pkt_type for upper layers to process skb
				1005	*/
				1006	if (skb->pkt_type == PACKET_LOOPBACK) {
				1007	skb->dev = vrf_dev;
				1008	skb->skb_iif = vrf_dev->ifindex;
				1009	IP6CB(skb)->flags \|= IP6SKB_L3SLAVE;
				1010	skb->pkt_type = PACKET_HOST;
				1011	goto out;
				1012	}
				1013
				1014	/* if packet is NDISC or addressed to multicast or link-local
				1015	* then keep the ingress interface
				1016	*/
				1017	need_strict = rt6_need_strict(&ipv6_hdr(skb)->daddr);
				1018	if (!ipv6_ndisc_frame(skb) && !need_strict) {
				1019	vrf_rx_stats(vrf_dev, skb->len);
				1020	skb->dev = vrf_dev;
				1021	skb->skb_iif = vrf_dev->ifindex;
				1022
				1023	if (!list_empty(&vrf_dev->ptype_all)) {
				1024	skb_push(skb, skb->mac_len);
				1025	dev_queue_xmit_nit(skb, vrf_dev);
				1026	skb_pull(skb, skb->mac_len);
				1027	}
				1028
				1029	IP6CB(skb)->flags \|= IP6SKB_L3SLAVE;
				1030	}
				1031
				1032	if (need_strict)
				1033	vrf_ip6_input_dst(skb, vrf_dev, orig_iif);
				1034
				1035	skb = vrf_rcv_nfhook(NFPROTO_IPV6, NF_INET_PRE_ROUTING, skb, vrf_dev);
				1036	out:
				1037	return skb;
				1038	}
				1039
				1040	#else
				1041	static struct sk_buff vrf_ip6_rcv(struct net_device vrf_dev,
				1042	struct sk_buff *skb)
				1043	{
				1044	return skb;
				1045	}
				1046	#endif
				1047
				1048	static struct sk_buff vrf_ip_rcv(struct net_device vrf_dev,
				1049	struct sk_buff *skb)
				1050	{
				1051	skb->dev = vrf_dev;
				1052	skb->skb_iif = vrf_dev->ifindex;
				1053	IPCB(skb)->flags \|= IPSKB_L3SLAVE;
				1054
				1055	if (ipv4_is_multicast(ip_hdr(skb)->daddr))
				1056	goto out;
				1057
				1058	/* loopback traffic; do not push through packet taps again.
				1059	* Reset pkt_type for upper layers to process skb
				1060	*/
				1061	if (skb->pkt_type == PACKET_LOOPBACK) {
				1062	skb->pkt_type = PACKET_HOST;
				1063	goto out;
				1064	}
				1065
				1066	vrf_rx_stats(vrf_dev, skb->len);
				1067
				1068	if (!list_empty(&vrf_dev->ptype_all)) {
				1069	skb_push(skb, skb->mac_len);
				1070	dev_queue_xmit_nit(skb, vrf_dev);
				1071	skb_pull(skb, skb->mac_len);
				1072	}
				1073
				1074	skb = vrf_rcv_nfhook(NFPROTO_IPV4, NF_INET_PRE_ROUTING, skb, vrf_dev);
				1075	out:
				1076	return skb;
				1077	}
				1078
				1079	/* called with rcu lock held */
				1080	static struct sk_buff vrf_l3_rcv(struct net_device vrf_dev,
				1081	struct sk_buff *skb,
				1082	u16 proto)
				1083	{
				1084	switch (proto) {
				1085	case AF_INET:
				1086	return vrf_ip_rcv(vrf_dev, skb);
				1087	case AF_INET6:
				1088	return vrf_ip6_rcv(vrf_dev, skb);
				1089	}
				1090
				1091	return skb;
				1092	}
				1093
				1094	#if IS_ENABLED(CONFIG_IPV6)
				1095	/* send to link-local or multicast address via interface enslaved to
				1096	* VRF device. Force lookup to VRF table without changing flow struct
				1097	*/
				1098	static struct dst_entry vrf_link_scope_lookup(const struct net_device dev,
				1099	struct flowi6 *fl6)
				1100	{
				1101	struct net *net = dev_net(dev);
				1102	int flags = RT6_LOOKUP_F_IFACE;
				1103	struct dst_entry *dst = NULL;
				1104	struct rt6_info *rt;
				1105
				1106	/* VRF device does not have a link-local address and
				1107	* sending packets to link-local or mcast addresses over
				1108	* a VRF device does not make sense
				1109	*/
				1110	if (fl6->flowi6_oif == dev->ifindex) {
				1111	dst = &net->ipv6.ip6_null_entry->dst;
				1112	dst_hold(dst);
				1113	return dst;
				1114	}
				1115
				1116	if (!ipv6_addr_any(&fl6->saddr))
				1117	flags \|= RT6_LOOKUP_F_HAS_SADDR;
				1118
				1119	rt = vrf_ip6_route_lookup(net, dev, fl6, fl6->flowi6_oif, flags);
				1120	if (rt)
				1121	dst = &rt->dst;
				1122
				1123	return dst;
				1124	}
				1125	#endif
				1126
				1127	static const struct l3mdev_ops vrf_l3mdev_ops = {
				1128	.l3mdev_fib_table = vrf_fib_table,
				1129	.l3mdev_l3_rcv = vrf_l3_rcv,
				1130	.l3mdev_l3_out = vrf_l3_out,
				1131	#if IS_ENABLED(CONFIG_IPV6)
				1132	.l3mdev_link_scope_lookup = vrf_link_scope_lookup,
				1133	#endif
				1134	};
				1135
				1136	static void vrf_get_drvinfo(struct net_device *dev,
				1137	struct ethtool_drvinfo *info)
				1138	{
				1139	strlcpy(info->driver, DRV_NAME, sizeof(info->driver));
				1140	strlcpy(info->version, DRV_VERSION, sizeof(info->version));
				1141	}
				1142
				1143	static const struct ethtool_ops vrf_ethtool_ops = {
				1144	.get_drvinfo = vrf_get_drvinfo,
				1145	};
				1146
				1147	static inline size_t vrf_fib_rule_nl_size(void)
				1148	{
				1149	size_t sz;
				1150
				1151	sz = NLMSG_ALIGN(sizeof(struct fib_rule_hdr));
				1152	sz += nla_total_size(sizeof(u8)); /* FRA_L3MDEV */
				1153	sz += nla_total_size(sizeof(u32)); /* FRA_PRIORITY */
				1154
				1155	return sz;
				1156	}
				1157
				1158	static int vrf_fib_rule(const struct net_device *dev, __u8 family, bool add_it)
				1159	{
				1160	struct fib_rule_hdr *frh;
				1161	struct nlmsghdr *nlh;
				1162	struct sk_buff *skb;
				1163	int err;
				1164
				1165	if (family == AF_INET6 && !ipv6_mod_enabled())
				1166	return 0;
				1167
				1168	skb = nlmsg_new(vrf_fib_rule_nl_size(), GFP_KERNEL);
				1169	if (!skb)
				1170	return -ENOMEM;
				1171
				1172	nlh = nlmsg_put(skb, 0, 0, 0, sizeof(*frh), 0);
				1173	if (!nlh)
				1174	goto nla_put_failure;
				1175
				1176	/* rule only needs to appear once */
				1177	nlh->nlmsg_flags \|= NLM_F_EXCL;
				1178
				1179	frh = nlmsg_data(nlh);
				1180	memset(frh, 0, sizeof(*frh));
				1181	frh->family = family;
				1182	frh->action = FR_ACT_TO_TBL;
				1183
				1184	if (nla_put_u8(skb, FRA_L3MDEV, 1))
				1185	goto nla_put_failure;
				1186
				1187	if (nla_put_u32(skb, FRA_PRIORITY, FIB_RULE_PREF))
				1188	goto nla_put_failure;
				1189
				1190	nlmsg_end(skb, nlh);
				1191
				1192	/* fib_nl_{new,del}rule handling looks for net from skb->sk */
				1193	skb->sk = dev_net(dev)->rtnl;
				1194	if (add_it) {
				1195	err = fib_nl_newrule(skb, nlh, NULL);
				1196	if (err == -EEXIST)
				1197	err = 0;
				1198	} else {
				1199	err = fib_nl_delrule(skb, nlh, NULL);
				1200	if (err == -ENOENT)
				1201	err = 0;
				1202	}
				1203	nlmsg_free(skb);
				1204
				1205	return err;
				1206
				1207	nla_put_failure:
				1208	nlmsg_free(skb);
				1209
				1210	return -EMSGSIZE;
				1211	}
				1212
				1213	static int vrf_add_fib_rules(const struct net_device *dev)
				1214	{
				1215	int err;
				1216
				1217	err = vrf_fib_rule(dev, AF_INET, true);
				1218	if (err < 0)
				1219	goto out_err;
				1220
				1221	err = vrf_fib_rule(dev, AF_INET6, true);
				1222	if (err < 0)
				1223	goto ipv6_err;
				1224
				1225	#if IS_ENABLED(CONFIG_IP_MROUTE_MULTIPLE_TABLES)
				1226	err = vrf_fib_rule(dev, RTNL_FAMILY_IPMR, true);
				1227	if (err < 0)
				1228	goto ipmr_err;
				1229	#endif
				1230
				1231	return 0;
				1232
				1233	#if IS_ENABLED(CONFIG_IP_MROUTE_MULTIPLE_TABLES)
				1234	ipmr_err:
				1235	vrf_fib_rule(dev, AF_INET6, false);
				1236	#endif
				1237
				1238	ipv6_err:
				1239	vrf_fib_rule(dev, AF_INET, false);
				1240
				1241	out_err:
				1242	netdev_err(dev, "Failed to add FIB rules.\n");
				1243	return err;
				1244	}
				1245
				1246	static void vrf_setup(struct net_device *dev)
				1247	{
				1248	ether_setup(dev);
				1249
				1250	/* Initialize the device structure. */
				1251	dev->netdev_ops = &vrf_netdev_ops;
				1252	dev->l3mdev_ops = &vrf_l3mdev_ops;
				1253	dev->ethtool_ops = &vrf_ethtool_ops;
				1254	dev->needs_free_netdev = true;
				1255
				1256	/* Fill in device structure with ethernet-generic values. */
				1257	eth_hw_addr_random(dev);
				1258
				1259	/* don't acquire vrf device's netif_tx_lock when transmitting */
				1260	dev->features \|= NETIF_F_LLTX;
				1261
				1262	/* don't allow vrf devices to change network namespaces. */
				1263	dev->features \|= NETIF_F_NETNS_LOCAL;
				1264
				1265	/* does not make sense for a VLAN to be added to a vrf device */
				1266	dev->features \|= NETIF_F_VLAN_CHALLENGED;
				1267
				1268	/* enable offload features */
				1269	dev->features \|= NETIF_F_GSO_SOFTWARE;
				1270	dev->features \|= NETIF_F_RXCSUM \| NETIF_F_HW_CSUM;
				1271	dev->features \|= NETIF_F_SG \| NETIF_F_FRAGLIST \| NETIF_F_HIGHDMA;
				1272
				1273	dev->hw_features = dev->features;
				1274	dev->hw_enc_features = dev->features;
				1275
				1276	/* default to no qdisc; user can add if desired */
				1277	dev->priv_flags \|= IFF_NO_QUEUE;
				1278	}
				1279
				1280	static int vrf_validate(struct nlattr tb[], struct nlattr data[],
				1281	struct netlink_ext_ack *extack)
				1282	{
				1283	if (tb[IFLA_ADDRESS]) {
				1284	if (nla_len(tb[IFLA_ADDRESS]) != ETH_ALEN) {
				1285	NL_SET_ERR_MSG(extack, "Invalid hardware address");
				1286	return -EINVAL;
				1287	}
				1288	if (!is_valid_ether_addr(nla_data(tb[IFLA_ADDRESS]))) {
				1289	NL_SET_ERR_MSG(extack, "Invalid hardware address");
				1290	return -EADDRNOTAVAIL;
				1291	}
				1292	}
				1293	return 0;
				1294	}
				1295
				1296	static void vrf_dellink(struct net_device dev, struct list_head head)
				1297	{
				1298	struct net_device *port_dev;
				1299	struct list_head *iter;
				1300
				1301	netdev_for_each_lower_dev(dev, port_dev, iter)
				1302	vrf_del_slave(dev, port_dev);
				1303
				1304	unregister_netdevice_queue(dev, head);
				1305	}
				1306
				1307	static int vrf_newlink(struct net src_net, struct net_device dev,
				1308	struct nlattr tb[], struct nlattr data[],
				1309	struct netlink_ext_ack *extack)
				1310	{
				1311	struct net_vrf *vrf = netdev_priv(dev);
				1312	bool *add_fib_rules;
				1313	struct net *net;
				1314	int err;
				1315
				1316	if (!data \|\| !data[IFLA_VRF_TABLE]) {
				1317	NL_SET_ERR_MSG(extack, "VRF table id is missing");
				1318	return -EINVAL;
				1319	}
				1320
				1321	vrf->tb_id = nla_get_u32(data[IFLA_VRF_TABLE]);
				1322	if (vrf->tb_id == RT_TABLE_UNSPEC) {
				1323	NL_SET_ERR_MSG_ATTR(extack, data[IFLA_VRF_TABLE],
				1324	"Invalid VRF table id");
				1325	return -EINVAL;
				1326	}
				1327
				1328	dev->priv_flags \|= IFF_L3MDEV_MASTER;
				1329
				1330	err = register_netdevice(dev);
				1331	if (err)
				1332	goto out;
				1333
				1334	net = dev_net(dev);
				1335	add_fib_rules = net_generic(net, vrf_net_id);
				1336	if (*add_fib_rules) {
				1337	err = vrf_add_fib_rules(dev);
				1338	if (err) {
				1339	unregister_netdevice(dev);
				1340	goto out;
				1341	}
				1342	*add_fib_rules = false;
				1343	}
				1344
				1345	out:
				1346	return err;
				1347	}
				1348
				1349	static size_t vrf_nl_getsize(const struct net_device *dev)
				1350	{
				1351	return nla_total_size(sizeof(u32)); /* IFLA_VRF_TABLE */
				1352	}
				1353
				1354	static int vrf_fillinfo(struct sk_buff *skb,
				1355	const struct net_device *dev)
				1356	{
				1357	struct net_vrf *vrf = netdev_priv(dev);
				1358
				1359	return nla_put_u32(skb, IFLA_VRF_TABLE, vrf->tb_id);
				1360	}
				1361
				1362	static size_t vrf_get_slave_size(const struct net_device *bond_dev,
				1363	const struct net_device *slave_dev)
				1364	{
				1365	return nla_total_size(sizeof(u32)); /* IFLA_VRF_PORT_TABLE */
				1366	}
				1367
				1368	static int vrf_fill_slave_info(struct sk_buff *skb,
				1369	const struct net_device *vrf_dev,
				1370	const struct net_device *slave_dev)
				1371	{
				1372	struct net_vrf *vrf = netdev_priv(vrf_dev);
				1373
				1374	if (nla_put_u32(skb, IFLA_VRF_PORT_TABLE, vrf->tb_id))
				1375	return -EMSGSIZE;
				1376
				1377	return 0;
				1378	}
				1379
				1380	static const struct nla_policy vrf_nl_policy[IFLA_VRF_MAX + 1] = {
				1381	[IFLA_VRF_TABLE] = { .type = NLA_U32 },
				1382	};
				1383
				1384	static struct rtnl_link_ops vrf_link_ops __read_mostly = {
				1385	.kind = DRV_NAME,
				1386	.priv_size = sizeof(struct net_vrf),
				1387
				1388	.get_size = vrf_nl_getsize,
				1389	.policy = vrf_nl_policy,
				1390	.validate = vrf_validate,
				1391	.fill_info = vrf_fillinfo,
				1392
				1393	.get_slave_size = vrf_get_slave_size,
				1394	.fill_slave_info = vrf_fill_slave_info,
				1395
				1396	.newlink = vrf_newlink,
				1397	.dellink = vrf_dellink,
				1398	.setup = vrf_setup,
				1399	.maxtype = IFLA_VRF_MAX,
				1400	};
				1401
				1402	static int vrf_device_event(struct notifier_block *unused,
				1403	unsigned long event, void *ptr)
				1404	{
				1405	struct net_device *dev = netdev_notifier_info_to_dev(ptr);
				1406
				1407	/* only care about unregister events to drop slave references */
				1408	if (event == NETDEV_UNREGISTER) {
				1409	struct net_device *vrf_dev;
				1410
				1411	if (!netif_is_l3_slave(dev))
				1412	goto out;
				1413
				1414	vrf_dev = netdev_master_upper_dev_get(dev);
				1415	vrf_del_slave(vrf_dev, dev);
				1416	}
				1417	out:
				1418	return NOTIFY_DONE;
				1419	}
				1420
				1421	static struct notifier_block vrf_notifier_block __read_mostly = {
				1422	.notifier_call = vrf_device_event,
				1423	};
				1424
				1425	/* Initialize per network namespace state */
				1426	static int __net_init vrf_netns_init(struct net *net)
				1427	{
				1428	bool *add_fib_rules = net_generic(net, vrf_net_id);
				1429
				1430	*add_fib_rules = true;
				1431
				1432	return 0;
				1433	}
				1434
				1435	static struct pernet_operations vrf_net_ops __net_initdata = {
				1436	.init = vrf_netns_init,
				1437	.id = &vrf_net_id,
				1438	.size = sizeof(bool),
				1439	};
				1440
				1441	static int __init vrf_init_module(void)
				1442	{
				1443	int rc;
				1444
				1445	register_netdevice_notifier(&vrf_notifier_block);
				1446
				1447	rc = register_pernet_subsys(&vrf_net_ops);
				1448	if (rc < 0)
				1449	goto error;
				1450
				1451	rc = rtnl_link_register(&vrf_link_ops);
				1452	if (rc < 0) {
				1453	unregister_pernet_subsys(&vrf_net_ops);
				1454	goto error;
				1455	}
				1456
				1457	return 0;
				1458
				1459	error:
				1460	unregister_netdevice_notifier(&vrf_notifier_block);
				1461	return rc;
				1462	}
				1463
				1464	module_init(vrf_init_module);
				1465	MODULE_AUTHOR("Shrijeet Mukherjee, David Ahern");
				1466	MODULE_DESCRIPTION("Device driver to instantiate VRF domains");
				1467	MODULE_LICENSE("GPL");
				1468	MODULE_ALIAS_RTNL_LINK(DRV_NAME);
				1469	MODULE_VERSION(DRV_VERSION);